图书前言

前    言

  

  

  

  

  

  自2011年本书第2版出版以来,数据挖掘领域取得了很大的进展。大数据(Big Data)这个术语被引入并被广泛接受,用来描述收集、分析和使用大量不同数据的数量和速度。建立新的数据科学领域,可以描述先进工具和方法的所有多学科方面,可以从大数据中提取有用的和可操作的信息。本书的第3版总结了快速变化的数据挖掘领域的这些新发展,并介绍了在学术环境和高级应用程序部署中系统方法所需的最新数据挖掘原则。

  虽然第3版对核心内容保持不变,但本版中最重要的变化和补充突出了该领域的动态,其中包括:

● 大数据、数据科学、深度学习等新课题;

● 新方法包括强化学习、云计算和MapReduce框架;

● 对不平衡数据、数据挖掘模型的公平性和聚类验证的主观性进行了新的强调;

● 附加的高级算法,如卷积神经网络(Convolutional Neural Networks,CNN),半虚拟支持向量机(Semisupervised Support Vector Machines,S3VM),Q学习,随机森林,非平衡数据建模的SMOTE算法;

● 每个章节都增加了额外的示例和练习,以及参考书目、供进一步阅读的参考资料,另外还更新了附录。

  我要感谢路易斯维尔大学计算机工程与计算机科学系数据挖掘实验室的在校生和往届学生,感谢他们为第3版的编写所做的贡献。Tegjyot Singh Sethi和Elaheh Arabmakki根据他们的助教经验,为数据挖掘课程提供了以前版本的教材,并提供了评论和建议。Lingyu Lyu 和Mehmet Akif Gulum帮我校对了新版,并对该书附录进行了大量的修改和更新。特别感谢Hanqing Hu,他帮助我准备了文本的最终版本以及第3版中所有额外的图表。本书的新版本是许多同事将以前的版本作为教材积极教学的结果。他们提供了经验和建议,我要感谢他们在筹备第3版的编写过程中对我的支持和鼓励。

  希望读者能通过这本新书,加深对现代数据挖掘技术及其应用的理解,并认识到该领域最近面临的挑战。本书应该作为数据挖掘领域的指南,为高年级本科生或研究生、年轻的研究人员和实践者服务。虽然每一章大致遵循一个标准的教育模板,但本书的前几章更注重介绍基本概念,而后几章则建立在这些章节的基础之上,逐步介绍数据挖掘的最重要的技术和方法。本书提供了基本的构建块,将使读者成为数据科学社区的一部分,并参与构建未来杰出的数据挖掘应用程序。

  请扫描封底二维码获取本书参考文献。

  

第2版前言

  

  

  

  

  

  从本书第1版出版以来的7年中,数据挖掘领域在开发新技术和扩展其应用范围方面有了长足的进步。正是数据挖掘领域中的这些变化,令笔者下定决心修订本书的第1版,出版第2版。本版的核心内容并没有改变,但汇总了这个快速变化的领域中的最新进展,呈现了数据挖掘在学术研究和商业应用领域的最尖端技术。与第1版相比,最显著的变化是添加了如下内容:

● 一些新主题,例如集成学习、图表挖掘、时态、空间、分布式和隐私保护等的数据挖掘;

● 一些新算法,例如分类递归树(CART)、DBSCAN (Density-Based Spatial Clustering of Applications with Noise)、BIRCH(Balanced and Iterative Reducing and Clustering Using Hierarchies)、PageRank、AdaBoost、支持向量机(Support Vector Machines,SVM)、Kohonen自组织映射(Self-Organizing Maps,SOM)和潜在语义索引(Latent Semantic Indexing,LSI);

● 详细介绍数据挖掘过程的实用方面和商用理解,讨论验证、部署、数据理解、因果关系、安全和隐私等重要问题;

● 比较数据挖掘模型的一些量化方式方法,例如ROC曲线、增益图、ROI图、McNemar测试和K折交叉验证成对t测试。

  本书是一本教材,因此还增加了一些新习题。这一版也更新了附录中的内容,包含了最近几年的新成果,还反映了某个新主题得到人们的重视时所发生的变化。

  笔者感谢在课堂上使用本书第1版的所有同行,以及支持我、鼓励我和提出建议的所有人,并在新版中也采纳了这些建议。笔者真诚地感谢数据挖掘实验室和计算机科学系的所有同事和同学们,感谢他们审读本书,并提出了许多有益的建议。特别感谢研究生Brent Wenerstrom、Chamila Walgampaya和Wael Emara,他们耐心地校对了这个新版本,讨论新章节中的内容,还做了许多校正和增补。Joung Woo Ryu博士还帮助笔者完成了文字、所有新增图和表格的终稿,笔者对此表示最诚挚的感谢。

  本书是面向在校生、毕业生、研究人员和相关从业人员的一本极具价值的指南。本书介绍的广泛主题可以帮助读者了解数据挖掘对现代商业、科学甚至整个社会的影响。

  

  

  

第1版前言

  

  

  

  

  

  计算机、网络和传感器的现代技术使数据的收集和组织成为一项几乎毫不费力的任务。但是,需要将捕获的数据转换为记录数据中的信息和知识,才能使其变得有用。传统上,从记录数据中提取有用信息的任务是由分析人员完成的;然而,现代商业和科学中不断增长的数据量要求使用基于计算机的方法来完成这项任务。随着数据集在规模和复杂性上的增长,不可避免地会出现从直接的手工数据分析向间接的、自动化的数据分析的转变,在这种分析中,分析人员使用更复杂、专业的工具。应用基于计算机的方法的整个过程,包括从数据中发现知识的新技术,通常称为数据挖掘。

  数据挖掘的重要性源于这样一个事实:现代世界是一个数据驱动的世界。我们被数据、数字和其他东西包围着,必须对这些数据进行分析和处理,把它们转换成信息,以提供信息、指示、答案,或者帮助理解和决策。在Internet、内部网、数据仓库和数据集市的时代,经典数据分析的基本范式已经成熟,可以进行更改了。大量的数据——数百万甚至数亿条记录——现在存储在集中的数据仓库中,允许分析人员利用强大的数据挖掘方法更全面地检查数据。这类数据的数量是巨大的,而且还在不断增加,数据来源的数量实际上是无限的,涉及的领域是广泛的,工业、商业、金融和科学活动都在产生这类数据。

  数据挖掘的新学科已经发展起来,尤其是从如此巨大的数据集中提取有价值的信息。近年来,从原始数据中发现新知识的方法呈爆炸式增长。考虑到低成本计算机(用于在软件中实现这些方法)、低成本传感器、通信和数据库技术(用于收集和存储数据)以及精通计算机的应用程序专家(他们可以提出“有趣的”和“有用的”应用程序问题)的大量出现,这并不奇怪。

  数据挖掘技术目前是决策者的热门选择,因为它可以从大量的历史数据中提供有价值的隐藏业务和科学“情报”。然而,应该记住,从根本上讲,数据挖掘并不是一项新技术。从记录数据中提取信息和知识发现的概念在科学和医学研究中是一个成熟的概念。新出现的是一些学科和相应技术的融合,这为科学和企业界的数据挖掘创造了一个独特的机会。

  本书的起源是希望有一个单一的介绍来源,我们可以在其中指导学生,而不是引导他们参考多个来源。然而,我很快发现,除了学生之外,还有很多人对汇编数据挖掘中一些最重要的方法、工具和算法很感兴趣。这样的读者包括来自各种背景和职位的人,他们需要理解大量的原始数据。这本书可以供广泛的读者使用,从希望学习数据挖掘的基本过程和技术的学生,到分析师和程序员,他们将直接参与所选数据挖掘应用的跨学科团队。本书回顾了在高维数据空间中分析大量原始数据,以提取决策过程中有用的新信息的最新技术。本书中涉及的大多数技术的定义、分类和解释都不是新的,它们在本书最后的参考资料中给出。作者的主要目标之一是采取系统和平衡的方法介绍数据挖掘过程的所有阶段,并提供足够的说明性例子。希望本书精心准备的示例能够为读者提供额外的参考和指导,帮助他们选择和构建用于自己的数据挖掘应用程序的技术和工具。要更好地理解所介绍的大多数技术的实现细节,需要读者构建自己的工具或改进应用的方法和技术。

  数据挖掘的教学必须强调应用方法的概念和性质,而不是如何应用不同数据挖掘工具的机械细节。尽管有这些诱人的附加功能,但仅仅基于计算机的工具永远无法提供完整的解决方案。始终需要执行者就如何设计整个过程以及如何使用工具和使用什么工具做出重要的决策。更深入地理解方法和模型、它们的行为方式以及为什么它们会这样做,是有效、成功地应用数据挖掘技术的先决条件。这本书的前提是,在数据挖掘领域只有少数几个重要的原则和问题。任何该领域的研究人员或实践者都需要了解这些问题,以便成功地应用特定的方法、理解方法的局限性或开发新技术。本书试图介绍和讨论这些问题和原则,然后描述代表性的和流行的方法,这些方法起源于统计、机器学习、计算机图形学、数据库、信息检索、神经网络、模糊逻辑和进化计算。

  本书描述了如何最好地为执行数据挖掘准备环境,并讨论了在揭示大数据集中重要的模式、趋势和模型方面被证明是关键的方法。我们期望,一旦读者学习完本书,就能够成功和有效地在数据挖掘过程的所有阶段发起和执行基本活动。虽然很容易将重点放在技术上,但是当读者通读本书时,请记住,技术本身并不能提供完整的解决方案。我们编写这本书的目的之一是尽量减少与数据挖掘相关的炒作。与其做出超出数据挖掘合理预期范围的虚假承诺,还不如尝试采取更客观的方法。我们用足够的信息描述了在数据挖掘应用中产生可靠和有用结果所需的过程和算法。不提倡使用任何特定的产品或技术;数据挖掘过程的设计者必须有足够的背景知识来选择合适的方法和软件工具。

  

  Mehmed Kantardzic

  作于路易斯维尔