图书目录

第一部分开篇

第1章大数据治理概述

第2章大数据治理的框架

21大数据类型

22信息治理准则

23大数据治理的产业和功能场景

第3章成熟度评估

31IBM信息治理委员会的成熟度模型

32评估成熟度的示例问题

第4章业务案例

41通过大数据治理,提高运营实时性和旅客安全度

42量化大数据治理对客户隐私的财务影响

43通过治理大数据生命周期,降低IT成本

44评估数据质量和主数据对大数据计划的影响

45计算大数据质量的价值

第5章路线图

51路线图案例研究

第二部分大数据治理准则

第6章大数据治理的组织

61绘制关键流程图并建立职责分配模型,以识别大数据

治理中的利益攸关者

62确定新角色和既有角色的适当组合

63酌情任命大数据主管

64在传统信息治理角色的基础上,酌情增加大数据

责任

65建立承担包括大数据在内的责任混合式信息治理

组织

第7章元数据

71创建一个体现关键大数据术语的业务定义的词库

72理解对Apache Hadoop中元数据的持续支持

73对业务词库中的敏感大数据进行标记

74从相关的大数据存储中输入技术元数据

75将相关的数据源与业务词库中的术语进行链接

76使用运营元数据监测大数据的流动

77保留技术元数据,以支持数据血统和影响分析

78从非结构化文件中采集元数据,支持企业搜索

79扩展既有的元数据角色,将大数据纳入其中

第8章大数据隐私

81识别敏感的大数据

82对元数据库中的敏感大数据进行标记

83应对国家、州(省)层面的隐私立法和隐私限制

84管理个人数据跨国界流动的情况

85监控特权用户对敏感大数据的访问

第9章大数据质量

91与商业上的利益攸关者协作,建立并测度大数据质量的

置信区间

92利用准结构化和非结构化数据,提高人口稀疏的结构化

数据的质量

93使用流数据分析技术解决内存中的数据质量问题,无须

将中间结果输入硬盘

94任命对信息治理委员会负责的数据主管,由其负责提高

测度的质量

第10章业务流程整合

101识别将会受到大数据治理影响的关键流程

102建立关键活动的流程图

103针对业务流程中的关键步骤,制定大数据治理政策

第11章主数据整合

111提高主数据的质量,以支持大数据分析

112利用大数据提高主数据的质量

113提高关键参考数据的质量和一致性,以支持大数据

治理计划

114审视社交媒体平台政策,以确定与主数据管理整合

的程度

115从非结构化文本中挖掘有用信息,以丰富主数据

第12章管理大数据的生命周期

121基于规制和业务要求,扩展保留时间表,将大数据包含

其中

122提供法律保留区,并支持电子证据展示(eDiscovery)

123压缩大数据并将其存档,降低IT成本,提高应用

绩效

124管理实时流数据的生命周期

125保留社交媒体记录,以符合规制要求,并支持电子

证据展示

126基于规制和业务要求,正当合理地处置不再需要的

大数据

第三部分大数据的类型

第13章Web和社交媒体数据

131在制定有关客户社交媒体数据的可接受使用的政策时,

考虑不断变化的规制和习俗

132制定有关雇员和求职者社交媒体数据的可接受使用

的政策

133利用置信区间评估社交媒体数据的质量

134制定有关Cookies与其他Web跟踪装置的可接受使用

的政策

135在不侵犯隐私并遵从规制要求的基础上,定义连接在线

和离线数据的政策

136确保网络统计数据的一致性

第14章机器对机器的数据

141评估目前可用的地理位置数据

142制定关于客户地理位置数据的可接受使用的政策

143制定关于雇员地理位置数据的可接受使用的政策

144保证RFID数据的隐私安全

145制定与其他类型M2M数据的隐私相关的政策

146处理元数据和M2M数据的质量问题

147制定与M2M数据的保留期有关的政策

148提高主数据的质量,以支持M2M计划

149确保SCADA设施免遭网络攻击

第15章大体量交易数据

第16章生物计量学数据

161评估与生物计量学数据的可接受使用相关的隐私

含义

162与法律顾问通力合作,确定演进中的规制对使用客户和

雇员生物计量学数据的影响

第17章人工生成的数据

171制定屏蔽敏感的人工生成数据的政策

172使用非结构化的人工生成数据,提高结构化数据

的质量

173管理人工生成数据的生命周期,降低成本并遵循

规制要求

174从非结构化的人工生成数据中获得洞察力,以丰富

MDM

第四部分行 业 视 角

第18章医疗保健机构

181利用非结构化数据,提高人口稀疏的结构化数据的

质量

182提取从结构化数据中无法获得的更多临床因素

183设定关键业务术语的一致性定义

184确保跨科室的患者主数据的一致性

185与美国HIPAA的规定一致,符合受保护的健康信息的

隐私要求

186创造性管理参考数据,以获得更多临床洞察

第19章公用事业部门

191复制仪表读数

192主关键字的参照完整性

193异常的仪表读数

194客户地址的数据质量

195信息生命周期管理

196数据库监测

197技术架构

第20章通信服务提供商

201大数据类型

202将大数据与主数据进行整合

203大数据隐私

204大数据质量

205大数据生命周期管理

第五部分大数据技术

第21章大数据的参考架构

211大数据源

212开源基础组件

213Hadoop发行版

214流数据分析

215数据库

216大数据整合

217文本分析

218大数据发现

219大数据质量

2110大数据的元数据

2111信息政策管理

2112主数据管理

2113数据仓库与数据集市

2114大数据分析与报告

2115大数据安全与隐私

2116大数据生命周期管理

2117云

第22章大数据平台

221IBM

222甲骨文

223SAP

224微软

225HP

226Informatica

227SAS

228Teradata

229EMC

2210Amazon

2211谷歌

2212Pentaho

2213Talend

附录缩略语列表

译者后记