图书前言

前言

随着计算机和信息技术的迅猛发展,人类收集、存储和访问数据的能力大大增强,快速增长的海量数据集已经远远超出了人类的理解能力,传统的数据分析工具也显得力不从心。如何才能不被这些海量数据淹没,有效地组织这些数据,并且从中找出有价值的知识,帮助人类制定正确的决策?针对这一问题,数据仓库和数据挖掘技术应运而生,并且显示出强大的生命力。要将海量数据转换成为有用的信息和知识,首先要有效地收集和组织数据。数据仓库是良好的数据收集和组织工具,它的任务是搜集来自各个业务系统的有用数据,存放在一个集成的存储区内。在数据仓库丰富完整的数据基础上,数据挖掘技术可以从中挖掘出有价值的知识,从而帮助决策者正确决策。

本书是在总结近年来的教学实践经验基础上撰写的,共13章,主要内容包括数据仓库的概念与体系结构、数据、数据存储、OLAP与数据立方体、数据挖掘基础、关联规则算法、分类、统计分析、神经网络、聚类分析、非结构化数据挖掘、知识图谱、大数据挖掘算法。其中,前3章主要介绍数据仓库的基本概念和相关技术; 后面章节介绍当前流行的数据挖掘算法的主要思想和理论基础,介绍数据挖掘的基本概念和各种算法,并且给出丰富的应用实例。

本书的主要特点如下: 

(1) 内容讲解循序渐进、深入浅出,符合初学者学习的认识规律,易于读者学习和掌握。

(2) 对于实践性强的部分配有相关的实验题和实验指导,方便任课教师组织相关实验和学生练习。

(3) 每章后配有习题,帮助读者进一步巩固和掌握所学知识点。

(4) 教学资源丰富,本书提供教学课件、教学视频和实践教学平台。

本书内容全面、概念清晰、条理清楚,不仅适合课堂教学,也适合读者自学。如果作为教材,建议总学时为48学时,其中主讲学时为32学时。由于课程学时的限制,实验学时可适当调整,一般为16学时左右; 另外,除实验学时外,最好安排学生自由上机的时间,以加强学生的实际动手能力。

本书由钱育蓉担任主编,马梦楠、张凯担任副主编,安海兵、冷洪勇、姜莹、侯树祥、田生伟参与编写,全书由钱育蓉统稿、定稿。其中,第1~3章由张凯和田生伟编写,第4、5章由冷洪勇编写,第6章由姜莹编写,第7章由侯树祥编写,第8、9章由钱育蓉撰写,第10、11章由马梦楠编写,第12、13章由安海兵编写。

由于编者水平有限,书中难免有不足之处,衷心希望广大读者批评、指正。

编者

2024年9月