前言
从本书第1版出版以来的7年中,数据挖掘领域在开发新技术和拓展其应用范围方面有了长足的进步。正是数据挖掘领域中的这些变化,令笔者下定决心修订本书的第1版,出版第2版。本版的核心内容并没有改变,但汇总了这个快速变化的领域中的最新进展,呈现了数据挖掘在学术研究和商业应用领域的最尖端技术。与第1版相比,最显著的变化是添加了如下内容:
一些新主题,例如集成学习、图表挖掘、时态、空间、分布式和隐私保护等的数据挖掘;
一些新算法,例如分类递归树(CART),DBSCAN (Density-Based Spatial Clustering of Applications with Noise)、BIRCH(Balanced and Iterative Reducing and Clustering Using Hierarchies)、PageRank、AdaBoost、支持向量机(SVM)、Kohonen自组织映射(SOM)和潜在语义索引(LSI);
详细介绍数据挖掘过程的实用方面和商用理解,讨论验证、部署、数据理解、因果关系、安全和隐私等重要问题;
比较数据挖掘模型的一些量化方式方法,例如ROC曲线、增益图、ROI图、McNemar测试和K折交叉验证成对t测试。
这是一本教材,所以还增加了一些新习题。这一版也更新了附录中的内容,包含了最近几年的新成果,还反映了某个新主题得到人们的重视时发生的变化。
笔者感谢在课堂上使用本书第1版的所有同行,以及支持我、鼓励我和提出建议的所有人,并在新版中采纳了这些建议。笔者真诚地感谢数据挖掘实验室和计算机科学系中的所有同事和同学们,感谢他们审读本书,并提出了许多有益的建议。特别感谢研究生Brent Wenerstrom、Chamila Walgampaya和Wael Emara,他们耐心地校对这个新版本,讨论新章节中的内容,还做了许多校正和增补。Joung Woo Ryu博士还帮助笔者完成了文字、所有新增图和表格的终稿,笔者对此表示最诚挚的感谢。
本书是面向在校生、毕业生、研究人员和相关从业人员的一本极具价值的指南。本书介绍的广泛主题可以帮助读者了解数据挖掘对现代商业、科学甚至整个社会的影响。
另外,可从http://www.tupwk.com.cn/downpage下载本书的汇总参考书目。