前 言
《数据挖掘原理(第4版)》面向计算机科学、商业研究、市场营销、人工智能、生物信息学和法医学专业的学生,可用作本科生或硕士研究生的入门教材。同时,对于那些希望进一步提高自身能力的技术或管理人员来说,《数据挖掘原理(第4版)》也是极佳的自学书籍。《数据挖掘原理(第4版)》所涉及的内容远超一般的数据挖掘入门书籍。与许多其他书籍不同的是,在学习《数据挖掘原理(第4版)》的过程中你不需要拥有太多的数学知识即可理解其中的相关内容。
数学是一种可以表达复杂思想的语言。遗憾的是,99%的人都无法很好地掌握这门语言;很多人很早就开始在学校学习一些基础知识,但学习过程往往充满曲折。作者以前是一位数学家,他现在喜欢在任何可能的情况下用简单的英语交流,并相信好例子胜过一百个数学符号。
《数据挖掘原理(第4版)》涉及数学公式较少,将重点介绍相关概念。但是,完全不使用数学符号是不可能的。附录A给出开始学习《数据挖掘原理(第4版)》需要掌握的所有内容。对于那些在学校学习数学的人来说,这些内容应该是非常熟悉的。掌握这些内容后,其他内容就较好理解了。如果觉得某些数学符号难以理解,通常可放心地忽略它们,只需要关注结果和给出的详细示例即可。而对于那些希望更深入理解数据挖掘的数学基础知识的人来说,可参考附录C中列出的内容。
过去,没有一本关于数据挖掘的入门书可使你具备该领域的研究水平——但现在,这样的日子已经过去了。《数据挖掘原理(第4版)》的重点是介绍基本技术,而不是展示当今最新的数据挖掘技术,因为大多数情况下,当拿到一本书时,书中介绍的技术可能已被其他更新的技术取代了。一旦掌握了基本技术,你可通过多种渠道了解该领域的最新进展。附录C列出一些常用资源,而其他附录包括有关《数据挖掘原理(第4版)》示例中使用的主要数据集的信息,供你在自己的项目中使用。此外附录D包括技术术语表。
为便于检查对所学知识的掌握情况,每章都包含自我评估练习。参考答案见附录E。
封底二维码列出全书各章正文中引用的参考文献。读者在阅读正文时,会不时看到引用;引用的形式为[*],其中*为数字编号。遇到此类引用时,读者可扫描封底二维码中的参考文献,查阅相关信息。
第4版的注意事项
自第1版以来,可用于数据挖掘的数据量大幅增加。根据IBM于2016年所做的统计,每天从各种传感器、移动设备、在线交易和社交网络生成的数据量高达2.5YB,仅过去两年就创建了世界上90%的数据。今天,世界上可用的医疗保健数据量估计超过2万亿兆字节。为了反映“深度学习”的日益普及,《数据挖掘原理(第4版)》新增了最后一章,其中详细介绍了最重要的神经网络类型之一,并展示了如何将其应用于分类任务。
致谢
首先感谢我的女儿Bryony,她帮助我绘制了许多复杂的图表并提出设计建议。其次感谢Frederic Stahl博士,他就第21章和第22章给出了许多宝贵建议。最后要感谢我的妻子Dawn,她对《数据挖掘原理(第4版)》初稿给出了相当宝贵的意见。不过,最终版本中的任何错误仍然由我负责。
UTiCS
“计算机科学本科生主题”(UTiCS)为计算机和信息科学所有领域的本科生提供高质量的教学内容。UTiCS书籍采取了新颖、简洁和现代方法,囊括从核心基础和理论材料到最后一年的主题和应用,是自学或一两个学期课程的理想选择。《数据挖掘原理(第4版)》由该领域内的知名专家撰写,并由国际顾问委员会审查,包含许多例子和问题,其中许多包括完全有效的解决方案。