随着现代信息技术的飞速发展,数据分析、数据挖掘、机器学习、云计算等数据科学技术也相应流行起来。数据挖掘技术与可视化在海量数据处理方面有着极大的现实意义。相较于其他数据可视化软件平台,Python具有开源免费、易上手的优点,从而越来越被大家熟悉和认可,成为数据挖掘、数据分析、机器学习等领域研究者最常用的编程语言。
数据挖掘是利用机器学习、统计学和概率论等方法,从海量数据中获取有效的、潜在有用的信息的过程。数据可视化是研究数据视觉表现形式的技术。在海量商务数据中,可以利用数据挖掘与可视化技术来获取可靠、真实的市场信息,为各类商业活动提供更多决策支持。
本书由浅入深地介绍了基于Python的商务数据挖掘与可视化技术,并对每个技术详细地进行了案例分析与说明。读者可以通过阅读本书,掌握基本的商务数据挖掘与可视化方法。
本书内容
本书提供了Python与数据挖掘的基础理论内容,同时介绍了多个实用的数据挖掘与可视化库。本书提供了大量案例以供读者实战操练,降低了学习数据挖掘与可视化的门槛,让非专业的读者也能轻松学习。
本书首先介绍了数据挖掘的基本概念和数据挖掘的常用软件,数据挖掘编程平台及Python编程基础。随后介绍了基于Python的数据可视化软件库:Matplotlib、Seaborn和Pyecharts。本书还介绍了数据挖掘的常用方法,包括线性相关与回归、数据压缩、聚类和时间序列等。另外,本书针对大数据场景,介绍了此场景下的数据分析方法。最后,本书整合前面的知识,进行了综合案例实战。
本书结构
本书共11章,各章简介如下。
第1章介绍了数据管理及分析软件。本章着重介绍了基本流程中的几个核心问题:如何收集数据并进行管理、常见的数据挖掘软件有哪些、不同软件平台的特点及适用性等。
第2章介绍了Python编程基础,主要包括Python程序的基本概念和基本语法,以及Python基本分析库的使用,并通过一个网络电影播放量排行榜案例来帮助读者熟悉Python的语法使用。
第3章介绍了Matplotlib数据可视化。作为Python强大的图形库之一,Matplotlib和NumPy搭配使用时可营造一个强大的科学计算环境,可以用来代替Matlab,有助于使用者通过Python来深入了解机器学习或者数据科学。
第4章介绍了Seaborn数据可视化。本章从分组绘图与分面绘图两方面介绍了Seaborn的基本绘图参数,详细地介绍了多个统计绘图函数,涵括了现实场景的基本绘图类型,其中包括:因子变量图、数值变量图、两变量关系图、时间序列图和热力图。最后结合多个综合案例实战,帮助读者熟悉Seaborn绘图的常见用法。
第5章介绍了Pyecharts数据可视化。具体介绍了Pyecharts的全局配置项、数据系列配置项。每个配置项都对应案例说明该配置项在图像上的效果。还介绍了Pyecharts生成HTML(超文本标记语言)文件和生成图片的方式。最后结合综合案例实战,帮助读者进一步熟悉Pyecharts各个配置项的使用。
第6章介绍了线性相关与回归分析,其中包括单变量线性相关与回归和多元线性相关与回归。在综合案例中,使用SciPy和Statsmodels统计分析库进行了线性相关与回归分析。
第7章介绍了数据压缩分析方法。通过数据压缩,能简化属性、去噪、去冗余,但同时又不损失太多数据本身的意义。具体主要对主成分分析(PCA)进行讲述,包括其基本概念、基本步骤、计算和分类等,并结合综合案例使用了数据压缩分析法。
第8章介绍了聚类分析方法。具体介绍了聚类分析的概念和基本思想。此外还介绍了常见聚类分析方法,包括系统聚类法、快速聚类法、有序聚类法和模糊聚类法,并结合综合案例使用了聚类分析方法。
第9章介绍了时间序列分析方法。具体介绍了时间序列的概念。此外还介绍了时间序列的基本模型,其中包括自回归模型(Autoregressive Model,AR模型)、移动平均模型(Moving Average Model,MA模型)、自回归移动平均模型(Autoregressive Moving Average Models,ARMA模型)和差分自回归移动平均模型(Autoregressive Integrated Moving Average Models,ARIMA模型)。该章着重介绍了ARIMA模型的构建方法,并结合综合案例使用了ARIMA模型进行分析。
第10章介绍了大数据分析方法。具体介绍了大数据的概念及常见应用领域。此外还介绍了文本挖掘方法,并结合案例进行了词云分析和文本挖掘分析。该章还介绍了网络爬虫方法和常见的网络爬虫框架,并结合进行了基于Python的网络爬虫实践。
第11章是综合案例实战,对前面章节所讲的数据挖掘和可视化的内容进行总结。并且结合商用软件介绍几个综合案例,包括基于国内旅游情况数据的可视化分析、基于广州市二手房房价的可视化分析以及基于热销私家车销量数据的可视化分析。
本书读者对象
本书将下列人员作为目标读者。
(1)互联网、咨询、零售、金融等行业中,从事数据挖掘与可视化的从业人员。
(2)在产品、市场、用户、品牌等工作中,有数据挖掘与可视化需求的人士。
(3)高等学校计算机、金融、统计等相关专业的学生。
本书由暨南大学谢贤芬、华南农业大学古万荣共同完成。本书获暨南大学研究生教材建设项目资助(立项编号:2021YJC007),在此表示感谢。此外,还要感谢在本书撰写和出版过程中给予过帮助的人,尤其是以下研究生,在资料收集和数据整理方面做了许多工作:陈蔚钊、黄锦涛、李观明、朱奕鑫等。
由于作者知识和水平有限,书中难免有不足之处,敬请读者和同行批评指正!
编 者
2023年1月