图书目录

目录

第1部分基础理论

第1章大数据概述

1.1大数据基础

1.1.1大数据的基本概念

1.1.2大数据的5V特征

1.1.3大数据的发展历程

1.2大数据生态系统

1.2.1Hadoop

1.2.2Spark

1.3大数据的实际应用

1.3.1大数据的应用领域

1.3.2大数据面临的挑战

思考与练习

章节实训: 大数据软件生态探索

第2部分数据采集

第2章数据采集基础

2.1数据采集的基本概念和特征

2.1.1数据采集的基本概念

2.1.2数据采集的特征

2.2数据采集的方法

2.2.1数据库采集

2.2.2系统日志采集

2.2.3网络数据采集

2.2.4传感器采集

2.2.5众包采集

2.3数据采集的技术

2.3.1网络爬虫

2.3.2数据抽取技术

2.4数据采集工具介绍

思考与练习

章节实训: 利用Octoparse采集网站数据

第3章Python网络数据采集

3.1网络爬虫基础

3.1.1HTML

3.1.2HTTP

3.1.3JavaScript

3.1.4Robots协议

3.2Python爬虫基础库编写爬虫

3.2.1Requests库采集网页

3.2.2BeautifulSoup库解析网页

3.3Scrapy框架构建爬虫

3.3.1Scrapy框架简介

3.3.2Scrapy框架安装

3.3.3Scrapy框架爬虫编写

3.4Selenium库模拟人工爬虫

3.4.1Selenium库简介

3.4.2Selenium库与浏览器驱动安装

3.4.3Selenium库爬虫编写

思考与练习

章节实训: 股票报告爬虫编写

第3部分数据预处理

第4章数据预处理基础

4.1概述

4.1.1数据预处理的意义

4.1.2数据预处理的分类

4.2数据清理

4.2.1内容格式错误数据处理

4.2.2缺失值处理

4.2.3噪声数据处理

4.2.4重复数据处理

4.3数据集成

4.3.1实体识别问题

4.3.2冗余问题

4.3.3冲突数据值的检测与处理

4.4数据归约

4.4.1维度归约

4.4.2数量归约

4.4.3数据压缩

4.5数据转换

4.5.1数据离散化

4.5.2数据标准化

4.5.3对数变换与指数变换

4.5.4数据脱敏

思考与练习

章节实训: 文本数据预处理

第5章Python数据预处理

5.1科学计算库NumPy

5.1.1NumPy介绍与安装

5.1.2NumPy的数据结构与索引

5.1.3NumPy的数据类型与转换

5.1.4NumPy的数学运算

5.1.5NumPy常用的数学函数

5.1.6Numpy缺失值、异常值和重复值的处理

5.2数据分析库Pandas

5.2.1Pandas介绍与安装

5.2.2Pandas的数据结构与索引

5.2.3Pandas的数据类型与转换

5.2.4Pandas的数据输入与输出

5.2.5Pandas常用的数学函数

5.2.6Pandas缺失值、异常值和重复值处理

5.2.7apply()函数

5.2.8Pandas数据分组

5.2.9Pandas数据合并

思考与练习

章节实训: 空气质量分析

第4部分数据可视化

第6章数据可视化基础

6.1数据可视化概述

6.1.1数据可视化的发展历史

6.1.2数据可视化的分类

6.2时间数据可视化

6.2.1时间数据可视化的方法

6.2.2时间数据可视化的应用

6.3比例数据可视化

6.3.1比例数据可视化的方法

6.3.2比例数据可视化的应用

6.4关系数据可视化

6.4.1关系数据可视化的方法

6.4.2关系数据可视化的应用

6.5文本数据可视化

6.5.1文本数据可视化的方法

6.5.2文本数据可视化的应用

6.6复杂数据可视化

6.6.1复杂数据可视化的方法

6.6.2复杂数据可视化的应用

思考与练习

章节实训: 可视化图表绘制

第7章Python数据可视化

7.1Python数据可视化库概述

7.1.1Matplotlib

7.1.2Seaborn

7.1.3pyecharts

7.1.4NetworkX

7.1.5wordcloud

7.2Matplotlib图表绘制

7.2.1Matplotlib安装

7.2.2Matplotlib绘图

7.2.3Matplotlib绘图参数设置

7.3Seaborn图表绘制

7.3.1Seaborn安装

7.3.2Seaborn绘图

7.3.3Seaborn绘图参数设置

7.4pyecharts图表绘制

7.4.1pyecharts安装

7.4.2pyecharts绘图

7.4.3pyecharts绘图参数设置

7.5NetworkX图表绘制

7.5.1NetworkX安装

7.5.2NetworkX绘图

7.5.3NetworkX绘图参数设置

7.6wordcloud图表绘制

7.6.1wordcloud安装

7.6.2wordcloud绘图

7.6.3wordcloud绘图参数设置

思考与练习

章节实训: 绘制可视化图表

第5部分应用案例

第8章案例: 用户消费行为分析

8.1RFM模型简介

8.2数据读入

8.3数据清洗和预处理

8.3.1数据清洗

8.3.2数据预处理

8.4RFM统计量计算

8.5RFM归类

8.6结果保存

8.7可视化结果

第9章案例: 爬取二手房房价数据并绘制热力图

9.1数据抓取

9.1.1分析网页

9.1.2地址转换成经纬度

9.1.3编写代码

9.1.4数据下载结果

9.2绘制热力图

第10章案例: 使用Spark实现数据统计分析及性能优化

10.1背景

10.2系统架构

10.2.1总体方案

10.2.2详细设计

10.2.3优化设计

10.3具体实现

10.3.1数据获取

10.3.2数据可视化

10.4性能优化

10.4.1读取优化

10.4.2查询优化

10.4.3Spark参数级优化