第一部分开篇 第1章大数据治理概述 第2章大数据治理的框架 第3章成熟度评估 第4章业务案例 第5章路线图 第1章 大数据治理概述 当下,数据正在将我们淹没。蔚为壮观的数据,来自于社交媒体、电话GPS信号、公用事业智能仪表、RFID标签、数字图片和其他数据源中的在线视频。IDC宣称,2011年,数字世界的信息量超过18ZB(泽字节,18亿GB),预计将以每两年翻番的速度增长The 2011 Digital Universe Study:Extracting Value From Chaos(IDC,2011)。大部分数据可视为大数据。谈到大数据,通常以“3V”——体量(Volume)、速度(Velocity)和多样性(Variety)概括其特征。我们增加了一个“V”(Value),代表数据的价值。以下是对这四个特征的简单描述: 体量(数据的静态描述)。大数据通常具有较大体量。企业被数据堆砌,很容易积攒TB(太字节)级和PB(拍字节)级的信息,甚至在将来可轻易积攒ZB级的信息。 速度(数据的动态描述)。通常具有时间敏感性,流数据的分析必须以毫秒计,以支撑实时决策。 多样性(数据的多格式化)。大数据包括结构化数据、准结构化数据和非结构化数据,如电子邮件、音频、视频、点击流、日志文档和生物计量学数据。 价值(数据的经济有效性)。组织正在努力以经济有效的方式从大数据中获得洞察力。这正是Apache Hadoop等开源技术大行其道的原因所在。本书后续章节中详细介绍的Hadoop,是一种以经济有效的方式处理成百上千台计算机中的大数据集的软件。 组织必须治理全部大数据,由此引出了本书的主题。我们将大数据治理定义如下: 大数据治理是广义信息治理计划的一部分,即制定与大数据有关的数据优化、隐私保护与数据变现的政策。 我们将上述大数据治理的定义分解为以下部分: (1) 大数据是广义信息治理计划的一部分。信息治理机构必须采取以下措施,以将大数据整合到既有的信息治理框架中: 扩展信息治理宪章的外延,将大数据治理纳入其中; 拓宽信息治理委员会成员的范围,将数据科学家等大数据的超级用户吸纳进来; 任命处理社交媒体等特定大数据的主管; 将大数据与元数据、隐私、数据质量和主数据等信息治理准则结合。 (2) 大数据治理关乎政策制定。政策包括人们在特定情形下如何作为的成文和非成文的宣告。譬如,大数据治理政策可能申明,未经顾客知情并同意,组织不得将顾客的Facebook资料整合到其主数据记录中。 (3) 大数据必须优化。考虑一下组织是如何将现实世界的准则应用到大数据治理中的。公司设计了精致的企业资产管理计划,对机器、飞机、交通工具和其他资产进行妥善管理。与对实物资产进行登记类似,组织必须对大数据进行如下优化: 元数据——建立大数据类别信息 数据质量管理——像公司对实物资产进行定期检修一样,定期净化大数据。 信息生命周期管理——对大数据进行存档,并在没必要继续保存某些数据时,将其删除。 (4) 大数据隐私至关重要。组织同样必须建立旨在防止大数据误用的适当政策。组织在处理社交媒体、地理定位、生物计量学和其他形式的个人可识别信息(PII)时,必须考虑涉及的声誉、规制和法律风险。 (5) 大数据必须变现。所谓变现,就是将数据等资产转化为现金的过程,变现的方式可以是将数据卖给第三方,也可以是利用数据开发新的服务。在传统的会计准则下,不允许公司在平衡报表中将信息视同为财务资产,除非信息是从外部来源购买的。尽管传统的会计处理趋于保守,但在当下,公司意识到,必须将大数据视为具有财务价值的企业资产。例如,运营部门可以通过传感器数据,根据定期检修计划,提高设备正常运行时间。呼叫中心可以分析客户代表的记录,通过了解顾客呼叫的原因,降低呼叫量。此外,零售商可以使用主数据激活Facebook的应用程序,提升顾客忠诚度。 (6) 大数据展现了跨功能的自然冲突。大数据治理必须协调多种跨功能的冲突性目标。例如,电信运营商的无线营销部门可能对使用地理位置信息感兴趣,这些数据有助于驱动新的收入流,如用户可以收到与其邻近的零售商发送的优惠券。但是,有线业务部门可能关注的是,与未经用户同意重复使用其地理位置信息相关的声誉危机。同时,网络管理团队可能希望,使用此类信息解决网络运行中的问题,如在特定无线基站出现的大量掉话。最后,首席隐私官可能考虑的则是潜在的规制反弹(regulatory backlash)。在这样的情形下,大数据治理必须召集相关各方,以确定新业务带来的潜在收入,是否超过与此相关的声誉和规制风险。在内部网络分析中使用地理位置信息,可能不至于有什么问题,但其他的商业应用就未必如此。 案例研究11回顾了火星气候轨道探测器所经历的不幸事件。参照今天的标准,我们并不认为该组织的数据有多“大”。但是,美国宇航局(NASA)可能通过复杂计算,处理某些大数据,产生导航指令。倘若商业机构采用类似方式处理大数据,对风险、欺诈和购买倾向进行打分,他们可能因为评分被误解或误用,错误地拒绝信用卡应用,或错过应对客户流失事件的时机。 案例研究11大数据治理与火星气候轨道探测器http://enwikipediaorg/wiki/MarsClimateOrbiter“Mars Climate Orbiter Fact Sheet”http://marsjplnasagov/msp98/orbiter/facthtml“Mars Climate Orbiter Mishap Investigation Board Phase Report”November 1999 任何太空探险活动都需要海量数据。美国宇航局(NASA)发射火星气候轨道探测器的悲剧命运,就是一个缺乏大数据管理的范例。 1990年,就在探测器入轨之前,一条导航错误将探测器发射到了火星上低于预定高度170千米的位置。太空征服史上屈指可数的最昂贵的测量非兼容性事件,导致了这次失误。NASA的工程师使用了英式单位(磅),而不是NASA制式的计量单位(牛顿)。此次设计计量单位上的非兼容性引发的小失误,被用于九个月太空之旅的轨道估算,并演变为轨道高度计算的大失误。探测器无法在低高度承受大气摩擦,最终在火星大气层中灰飞烟灭。 此次相对来说微不足道的失误,造成了32亿美元的损失。同时,美国的太空探险也因此滞后了数年。 在经典的信息治理项目中,项目团队会发现商业问题,开发业务案例,获得高管人员的支持,定义技术架构,并推动其他计划。但是,由于存在以下特点,大数据项目与经典项目有所不同: 项目的驱动依赖早期采用者; 商业问题有待发现; IT部门通常涉及Hadoop等技术前沿; 业务案例尚未开发; 数据特点模糊不清。 在本书付梓之际,与大数据有关的分析和技术治理尚未成为当务之急。但是,随着大数据成为主流,我们预计,在隐私、管理工作、数据质量、元数据和信息生命周期管理等准则的共同驱动下,大数据治理已呼之欲出。 第2章大数据治理的框架 第2章 大数据治理的框架 本 章提供了一个大数据治理的框架。如图21所示,大数据治理框架由三个部分组成。 图21大数据治理框架 大数据类型。大数据治理需要高度聚焦于数据本身。我们将大数据分为五种:Web和社交媒体数据、机器对机器的数据、大体量交易数据、生物计量学数据和人工生成的数据。 信息治理准则。传统的信息治理准则,同样适用于大数据,相关准则包括组织、元数据、隐私、数据质量、业务流程整合、主数据整合和信息生命周期管理。 产业与功能。大数据分析是受用例驱动的,用例的具体情况因产业和功能而异。限于篇幅,我们仅在图21中列出了部分产业和功能。大数据分析会受到诸多其他产业和功能的影响,包括市场营销、风险管理、客户服务、信息安全、信息技术和人力资源。 本章将对大数据治理框架的各个部分展开论述。 21[3]大数据类型 如图22所示,大数据大体可分为五种类型: 图22大数据的类型 我们对每种类型的大数据进行较为详细的考察。 (1) Web和社交媒体数据。包括点击流和社交媒体数据,如Facebook、Twitter、LinkedIn中的数据和博客。大数据治理计划越来越要求将此类数据与主数据和客户忠诚度计划等核心业务流程进行整合。大数据治理计划需要制定社交媒体数据的可接受使用方面的政策,在规制和先例仍在不断演变时,此类政策尤有必要。该计划还必须建立cookies(尤其是第三方cookies)可接受使用方面的指南,追踪用户并将其Web互动活动个性化。对Web和社交媒体数据而言,元数据同样至关重要。例如,在点击流分析中,不同网站可能会对“独立访客”术语进行不同度量。 (2) 机器对机器的数据。机器对机器技术,简称M2M,支持无线和有线系统与其他设备进行通信。M2M使用传感器或仪表设备捕获速度、温度、压力、流速和盐度等事件。被捕获的各种事件,通过无线、有线或混合网络传送到应用层,并被转化为有意义的信息。M2M通信创造了所谓的“物联网”。大数据治理还必须制定一系列有关M2M数据的政策。例如,治理计划需要制定有关地理位置数据和RFID数据可接受使用的指南,此类数据可用于创建个人资料,并可能会侵犯隐私。治理计划必须建立有关海量M2M数据的保留政策,一旦不能妥善控制数据,就很容易突破企业的IT预算。大数据治理计划需要解决数据质量问题,例如高湿度和部分拥堵环境下的RFID读取率问题。最后,大数据治理必须保护监控和数据采集(SCADA)平台免受网络攻击。 (3) 大体量交易数据。包括医疗索赔、电信CDR和公用设施计费单。准结构化或非结构化格式的大体量交易数据正在不断增长。元数据、数据质量、隐私和信息生命周期管理等信息治理挑战,也适用于此类数据。 (4) 生物计量学数据。生物识别,或生物计量学,指基于解剖或行为特点和特征的人体自动识别“An Overview of Biometric Recognition”http://biometricscsemsuedu/infohtml/。解剖数据来自于指纹、虹膜、视网膜、人脸、手的轮廓、耳形、声音模式、DNA——甚至狐臭等人体的物理特征。行为数据包括书法和击键行为分析