图书前言

前言

大数据作为移动互联网、云计算、物联网和人工智能等新兴信息技术变革驱动而形成的要素资源,在政府公共治理、商务、医疗健康、金融等经济社会各领域催生许多新兴商业模式,也为国家、产业、组织和个人等经济主体带来管理决策范式的变革,深刻改变生产方式、生活方式和社会治理方式。以GPT(Generative PreTrained Transformer,生成式预训练转换模型)为代表利用大数据(big data)的人工智能应用正在对商业运行的内在逻辑产生颠覆性影响,带来产业、就业等领域的重大变革。各国政府都从国家战略层面推出大数据相关的战略规划以应对其带来的深层次挑战,我国也高度重视数据要素的基础性作用,提出一系列重要的政策部署。2015年党的十八届五中全会提出实施国家大数据战略,国务院印发《促进大数据发展行动纲要》(国发〔2015〕50号),提出数据已成为国家基础性战略资源,加快建设数据强国。2022年《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》进一步明确加快构建数据基础制度,充分发挥我国海量数据规模和丰富应用场景优势,构筑国家竞争新优势。大数据在经济社会、政府决策、产业政策、商业运营和公共治理等方面将发挥越来越重要的作用,大数据分析与挖掘为大数据的应用提供重要的工具和手段。

本书作者从商业实践应用出发,结合具体数据驱动的商业决策案例,深入浅出地介绍大数据分析与挖掘建模过程的关键技术和算法,包括数据预处理、特征工程与降维、关联分析、回归分析、分类、集成分类方法、聚类、文本挖掘、神经网络与深度学习等主要知识点。本书的内容设计秉承经典、主流与发展结合的理念,以“新文科”建设背景下经济管理类本科专业教学为导向,采用“理论驱动+案例教学”的编写方式,以大数据分析与挖掘过程和经典算法为主线,融合机器学习的最新发展和应用,重点突出大数据分析与挖掘技术对不同类型数据驱动的商业决策的支持和作用,让读者在了解大数据分析与挖掘的基本理论框架的同时,把握应用大数据分析与挖掘技术解决商业应用问题的方法。

本书共10章。第1章大数据分析与挖掘概论,介绍大数据分析与挖掘的应用、相关概念、模式及技术等内容; 第2章数据预处理,阐述数据类型、邻近性度量、数据预处理过程和方法等内容; 第3章特征工程与降维,主要介绍特征变换与选择的策略,主成分分析、因子分析等常用的降维方法; 第4章关联分析,主要讨论关联规则的商业应用、Apriori算法、FPGrowth算法及关联规则评价; 第5章回归分析,主要介绍回归分析的商业应用、线性回归算法及正则化、回归模型的评估及逻辑回归算法; 第6章分类和第7章集成分类方法,主要阐述分类方法的商业应用、决策树算法、朴素贝叶斯算法、k最近邻算法、支持向量机算法、Boosting算法、Bagging算法及分类模型评价等; 第8章聚类,主要讨论聚类的商业应用、基于划分的聚类方法、基于层次的聚类方法、基于密度的聚类方法、基于网格的聚类方法、基于模型的聚类方法及聚类评估等; 第9章文本挖掘,主要介绍文本挖掘的商业应用、文本表示方法、文本降维、主题分析及情感分析等; 第10章神经网络与深度学习,主要介绍深度学习的商业应用、神经网络的原理、反向传播算法、卷积神经网络和循环神经网络等。章后还配套应用实例、课后习题和即测即练,方便读者学习和理解。

本书凝聚了作者多年来从事数据挖掘与商务智能课程教学和研究的经验,是工作成果的汇总和整理。

本书由刘伟教授担任主编,祝志杰副教授和许莉薇副教授担任副主编。其中,刘伟教授提出总体方案,完成第1、9章的编写,并进行全书的统稿工作; 祝志杰副教授完成第3、5、8章的编写; 许莉薇副教授完成第6、7、10章的编写; 赵灼老师完成第2章的编写; 郝建民老师完成第4章的编写。在此,向参与本书写作的各位老师表示衷心的感谢!

感谢清华大学出版社提供的机会,使我们的教学积累得以出版。感谢在写作过程中参考的各文献的作者,感谢提出写作意见的专家。

尽管在编写过程中付出许多努力,但由于资料收集不够全面、知识更新快、作者能力有限,本书还存在很多不足之处,恳请读者批评指正,并将意见和建议及时反馈给我们,帮助我们改进此书。

刘伟

2024年1月于大连