前言
随着计算机应用技术和网络技术的普及,全社会的信息化程度不断提高,新的管理模式不断涌现,对信息系统的依赖程度越来越高。信息管理工程研究者和管理者面临严峻挑战:如何从海量、分散、复杂类型的数据海洋中,迅速找出有价值的和潜在有用的信息与知识?如何实现对多维数据的集中组织、分析与管理?数据仓库与数据挖掘可以为上述问题提供有效的解决方案。数据挖掘理论及方法研究与创新已经成为信息科学与管理工程领域最重要的研究方向之一。
笔者在数据仓库技术与数据挖掘模型方面潜心研究数十年。尤其近年来,通过国家自然科学基金(项目编号71271034),教育部、科技部和交通运输部,省市多个科研项目的资助,深入研究了数据挖掘的理论、技术与方法,获得多项科研成果。特别是面向交通运输、物流管理等特色领域,开展基于数据仓库与数据挖掘的创新性研究,取得了良好的社会效益与经济效益。
撰写本书的目的在于: 利用数据仓库技术将异构的、多维的、具有复杂类型的多源数据整合到一个公共平台上进行统一组织与管理,在此基础上,采用多种数据挖掘方法与模型,实现从底层信息管理到高层知识管理全过程的信息深加工、挖掘与增值。
本书采用逐步演算和编程运行相结合的方式,力争使广大读者通过本书的学习能够快速掌握数据挖掘模型的理论、技术、方法及应用。全书共分为11章,包括数据挖掘概述,数据采集、集成与预处理技术,多维数据分析与组织,预测模型研究与应用,关联规则模型及应用,聚类分析方法与应用,粗糙集方法与应用,遗传算法与应用,基于模糊理论的模型与应用,灰色系统理论与方法,基于数据挖掘的知识推理。
本书主要由陈燕编写,屈莉莉、杨明、张琳、乔月英、吉飞、赵路、程澄、于莹莹、林博辞等参与完成部分章节中具体数据挖掘方法的应用算例和全书的核对工作。
本书自2011年出版以后,受到广大师生欢迎,此次再版,吸收了许多有益的建议,根据数据挖掘技术的发展,在保留第1版框架的基础上,对部分内容进行了修改、整理,希望广大师生一如既往地关注和喜欢本书。
本书旨在涵盖典型和有代表性的数据挖掘算法,但由于数据挖掘方法多种多样,还有许多数据挖掘模型需要进一步探讨。在编写过程中,笔者查阅了国内外大量文献资料,谨向书中提到的和参考文献中列出的学者表示感谢。如果由于我们工作的疏忽,致使本书中某处内容所参考的文献没有列出,在此向所涉及的作者深表歉意。同时,由于时间仓促和编者能力有限,书中难免存在一些不当之处,敬请广大读者批评指正。
陈燕2016年4月