目录
第1部分基础理论
第1章大数据概述
1.1大数据基础
1.1.1大数据的基本概念
1.1.2大数据的5V特征
1.1.3大数据的发展历程
1.2大数据生态系统
1.2.1Hadoop
1.2.2Spark
1.3大数据的实际应用
1.3.1大数据的应用领域
1.3.2大数据面临的挑战
思考与练习
章节实训: 大数据软件生态探索
第2部分数据采集
第2章数据采集基础
2.1数据采集的基本概念和特征
2.1.1数据采集的基本概念
2.1.2数据采集的特征
2.2数据采集的方法
2.2.1数据库采集
2.2.2系统日志采集
2.2.3网络数据采集
2.2.4传感器采集
2.2.5众包采集
2.3数据采集的技术
2.3.1网络爬虫
2.3.2数据抽取技术
2.4数据采集工具介绍
思考与练习
章节实训: 利用Octoparse采集网站数据
第3章Python网络数据采集
3.1网络爬虫基础
3.1.1HTML
3.1.2HTTP
3.1.3JavaScript
3.1.4Robots协议
3.2Python爬虫基础库编写爬虫
3.2.1Requests库采集网页
3.2.2BeautifulSoup库解析网页
3.3Scrapy框架构建爬虫
3.3.1Scrapy框架简介
3.3.2Scrapy框架安装
3.3.3Scrapy框架爬虫编写
3.4Selenium库模拟人工爬虫
3.4.1Selenium库简介
3.4.2Selenium库与浏览器驱动安装
3.4.3Selenium库爬虫编写
思考与练习
章节实训: 股票报告爬虫编写
第3部分数据预处理
第4章数据预处理基础
4.1概述
4.1.1数据预处理的意义
4.1.2数据预处理的分类
4.2数据清理
4.2.1内容格式错误数据处理
4.2.2缺失值处理
4.2.3噪声数据处理
4.2.4重复数据处理
4.3数据集成
4.3.1实体识别问题
4.3.2冗余问题
4.3.3冲突数据值的检测与处理
4.4数据归约
4.4.1维度归约
4.4.2数量归约
4.4.3数据压缩
4.5数据转换
4.5.1数据离散化
4.5.2数据标准化
4.5.3对数变换与指数变换
4.5.4数据脱敏
思考与练习
章节实训: 文本数据预处理
第5章Python数据预处理
5.1科学计算库NumPy
5.1.1NumPy介绍与安装
5.1.2NumPy的数据结构与索引
5.1.3NumPy的数据类型与转换
5.1.4NumPy的数学运算
5.1.5NumPy常用的数学函数
5.1.6Numpy缺失值、异常值和重复值的处理
5.2数据分析库Pandas
5.2.1Pandas介绍与安装
5.2.2Pandas的数据结构与索引
5.2.3Pandas的数据类型与转换
5.2.4Pandas的数据输入与输出
5.2.5Pandas常用的数学函数
5.2.6Pandas缺失值、异常值和重复值处理
5.2.7apply()函数
5.2.8Pandas数据分组
5.2.9Pandas数据合并
思考与练习
章节实训: 空气质量分析
第4部分数据可视化
第6章数据可视化基础
6.1数据可视化概述
6.1.1数据可视化的发展历史
6.1.2数据可视化的分类
6.2时间数据可视化
6.2.1时间数据可视化的方法
6.2.2时间数据可视化的应用
6.3比例数据可视化
6.3.1比例数据可视化的方法
6.3.2比例数据可视化的应用
6.4关系数据可视化
6.4.1关系数据可视化的方法
6.4.2关系数据可视化的应用
6.5文本数据可视化
6.5.1文本数据可视化的方法
6.5.2文本数据可视化的应用
6.6复杂数据可视化
6.6.1复杂数据可视化的方法
6.6.2复杂数据可视化的应用
思考与练习
章节实训: 可视化图表绘制
第7章Python数据可视化
7.1Python数据可视化库概述
7.1.1Matplotlib
7.1.2Seaborn
7.1.3pyecharts
7.1.4NetworkX
7.1.5wordcloud
7.2Matplotlib图表绘制
7.2.1Matplotlib安装
7.2.2Matplotlib绘图
7.2.3Matplotlib绘图参数设置
7.3Seaborn图表绘制
7.3.1Seaborn安装
7.3.2Seaborn绘图
7.3.3Seaborn绘图参数设置
7.4pyecharts图表绘制
7.4.1pyecharts安装
7.4.2pyecharts绘图
7.4.3pyecharts绘图参数设置
7.5NetworkX图表绘制
7.5.1NetworkX安装
7.5.2NetworkX绘图
7.5.3NetworkX绘图参数设置
7.6wordcloud图表绘制
7.6.1wordcloud安装
7.6.2wordcloud绘图
7.6.3wordcloud绘图参数设置
思考与练习
章节实训: 绘制可视化图表
第5部分应用案例
第8章案例: 用户消费行为分析
8.1RFM模型简介
8.2数据读入
8.3数据清洗和预处理
8.3.1数据清洗
8.3.2数据预处理
8.4RFM统计量计算
8.5RFM归类
8.6结果保存
8.7可视化结果
第9章案例: 爬取二手房房价数据并绘制热力图
9.1数据抓取
9.1.1分析网页
9.1.2地址转换成经纬度
9.1.3编写代码
9.1.4数据下载结果
9.2绘制热力图
第10章案例: 使用Spark实现数据统计分析及性能优化
10.1背景
10.2系统架构
10.2.1总体方案
10.2.2详细设计
10.2.3优化设计
10.3具体实现
10.3.1数据获取
10.3.2数据可视化
10.4性能优化
10.4.1读取优化
10.4.2查询优化
10.4.3Spark参数级优化