图书目录

目录

第1章大数据与数据科学导论1

1.1数据科学的基本概念1

1.1.1数据科学的知识领域1

1.1.2数据科学的核心工作2

1.2大数据计算框架3

1.2.1大数据技术3

1.2.2Hadoop计算框架4

1.2.3Spark计算框架5

1.3Jupyter Notebook6

1.3.1安装和启动6

1.3.2文件操作7

1.3.3文件编辑操作7

1.4本章小结11

1.5习题11

第2章Python语言基础12

2.1格式化输出12

2.1.1format()方法12

2.1.2fstring13

2.2数据结构14

2.2.1序列14

2.2.2集合15

2.2.3字典16

2.3推导式16

2.4函数18

2.4.1常用内置函数18

2.4.2内置高阶函数21

2.4.3参数的意义26

2.4.4参数的定义和传递27

2.5模块和第三方库31〖3〗大数据与数据科学基础目录〖3〗2.5.1模块和主模块31

2.5.2包33

2.5.3第三方库的下载和安装33

2.6本章小结34

2.7习题35

第3章NumPy科学计算37

3.1NumPy数组37

3.2创建数组38

3.2.1array()函数38

3.2.2数组维度变换40

3.2.3NumPy内置函数42

3.2.4random模块函数44

3.2.5数组拼接48

3.3选取数组元素49

3.3.1基本索引49

3.3.2切片49

3.3.3整数列表索引51

3.3.4布尔数组索引53

3.4NumPy数组运算55

3.4.1基本运算55

3.4.2通用函数运算56

3.4.3统计函数57

3.4.4np.where()函数59

3.5NumPy文件处理60

3.6数组广播机制61

3.7本章小结62

3.8习题62

第4章Pandas数据处理与分析64

4.1Series对象64

4.1.1创建Series结构64

4.1.2Series向量化的字符串函数66

4.1.3Series统计计数排序68

4.2DataFrame对象69

4.2.1创建DataFrame结构69

4.2.2查看DataFrame71

4.2.3DataFrame数据的选取方法74

4.2.4DataFrame数据的增改77

4.2.5DataFrame数据的删除79

4.2.6修改DataFrame对象的索引80

4.3数据文件读写81

4.3.1CSV文件导入导出81

4.3.2Excel文件导入导出83

4.4数据清洗85

4.4.1处理缺失值85

4.4.2删除重复数据90

4.4.3案例——泰坦尼克号数据清洗91

4.5数据规整化94

4.5.1数据整合94

4.5.2数据排序99

4.5.3apply()方法101

4.6数据统计分析103

4.6.1数值统计103

4.6.2分组和聚合运算105

4.7本章小结114

4.8习题115

第5章数据可视化118

5.1可视化基础知识118

5.1.1认识基本图表118

5.1.2Matplotlib绘图基础知识118

5.2Matplotlib绘图128

5.2.1折线图128

5.2.2柱状图133

5.2.3饼图136

5.2.4散点图137

5.2.5直方图139

5.2.6箱形图141

5.3Pandas可视化接口143

5.3.1Pandas绘制折线图144

5.3.2Pandas绘制柱状图145

5.3.3Pandas绘制饼图146

5.3.4Pandas绘制散点图148

5.3.5Pandas绘制直方图149

5.3.6Pandas绘制箱形图150

5.4Seaborn统计可视化152

5.4.1Seaborn基础知识152

5.4.2Seaborn绘制柱状图153

5.4.3Seaborn绘制计数柱状图155

5.5Pyecharts绘图156

5.6Python编程实践——消费大数据探索性分析160

5.6.1数据集及其预处理161

5.6.2网站流量分析163

5.6.3转化率分析165

5.6.4用户价值分析167

5.7本章小结169

5.8习题170

第6章机器学习基础175

6.1机器学习概述175

6.1.1从案例看机器学习175

6.1.2机器学习分类176

6.1.3机器学习基本术语177

6.1.4机器学习关键技术178

6.2样本的表示179

6.2.1特征向量179

6.2.2特征工程179

6.2.3特征处理180

6.3模型的选择和训练183

6.3.1模型的选择183

6.3.2损失函数的选择184

6.3.3梯度下降188

6.4模型评估度量标准192

6.4.1过拟合和欠拟合193

6.4.2数据集的划分策略194

6.4.3分类问题的模型评估195

6.5Scikitlearn库199

6.5.1Scikitlearn概述199

6.5.2Scikitlearn库数据导入201

6.5.3Scikitlearn数据预处理202

6.5.4Scikitlearn库划分数据集204

6.5.5Scikitlearn机器学习建模207

6.5.6使用Scikitlearn评估分类模型208

6.6本章小结210

6.7习题211

第7章回归分析213

7.1回归分析概述213

7.1.1线性回归分析原理213

7.1.2回归算法评价方法214

7.2一元线性回归分析214

7.2.1简单线性回归与Statsmodels建模215

7.2.2解析法实现最小二乘法219

7.2.3多项式回归220

7.2.4线性回归与Scikitlearn建模221

7.3多元线性回归分析224

7.3.1多元线性回归与Statsmodels建模224

7.3.2多重共线性问题226

7.3.3Python编程实践——汽车价格预测228

7.4正则化方法232

7.4.1正则化原理232

7.4.2Lasso回归建模234

7.4.3岭回归建模236

7.5本章小结238

7.6习题238

第8章分类分析241

8.1逻辑回归241

8.1.1逻辑回归和Sigmoid函数241

8.1.2Python编程实践——研究生录取预测242

8.1.3多分类和Softmax函数——鸢尾花分类预测247

8.2KNN算法251

8.2.1KNN算法原理251

8.2.2Python编程实践——病例诊断分析252

8.3支持向量机258

8.3.1SVM的基本原理258

8.3.2软间隔与惩罚系数261

8.3.3非线性支持向量机与核函数262

8.3.4Python编程实践——可视化支持向量264

8.3.5超参数优化方法——网格搜索和随机搜索268

8.4决策树271

8.4.1决策树概述271

8.4.2决策树的划分选择272

8.4.3决策树预剪枝和后剪枝275

8.4.4Python编程实践——企鹅生态研究276

8.4.5决策树的可视化279

8.5本章小结282

8.6习题283

第9章集成学习286

9.1Bagging方法286

9.1.1Bagging集成思想286

9.1.2投票结合策略287

9.1.3随机森林算法及其编程实践290

9.2Boosting方法293

9.2.1Boosting集成思想293

9.2.2XGBoost算法及应用295

9.2.3XGBoost编程实践——银行定期存款产品订购预测298

9.3本章小结304

9.4习题305

参考文献307