目 录
第1章 机器学习概述 1
1.1 机器学习简介 1
1.1.1 什么是机器学习 1
1.1.2 机器学习三要素和核心 2
1.1.3 机器学习开发流程 4
1.1.4 机器学习模型评价指标 7
1.1.5 机器学习项目开发步骤 10
1.2 机器学习的发展史和分类 11
1.2.1 机器学习的发展史 11
1.2.2 机器学习分类 16
1.3 机器学习常用术语 19
1.4 本章小结 27
第2章 Python数据处理基础 28
2.1 Python开发环境搭建 28
2.1.1 安装Python解释器 28
2.1.2 Python运行方法 30
2.1.3 安装PyCharm 31
2.1.4 Python包管理工具 35
2.1.5 安装Jupyter Notebook 36
2.2 Python基本数据类型 37
2.2.1 数值型 37
2.2.2 字符串(String) 39
2.2.3 列表(List) 41
2.2.4 元组(Tuple) 50
2.2.5 集合(Set) 54
2.2.6 字典(Dict) 60
2.3 Python文件的基本操作 65
2.3.1 文件读写基本操作 65
2.3.2 NumPy库存取文件 69
2.3.3 Pandas存取文件 73
2.4 本章小结 74
第3章 Python常用机器学习库 75
3.1 Python数值计算库NumPy 75
3.1.1 NumPy简介与安装 75
3.1.2 NumPy数组的基本操作 76
3.2 Python数据处理库Pandas 77
3.2.1 Pandas库简介与安装 77
3.2.2 数据读取与写入 77
3.2.3 数据清洗与转换 78
3.2.4 数据分析与可视化 79
3.3 Python数据可视化库Matplotlib 80
3.3.1 Matplotlib安装与基本使用 80
3.3.2 绘制折线图 82
3.3.3 绘制柱状图 84
3.3.4 绘制饼图 86
3.3.5 绘制子图 87
3.4 Python机器学习库scikit-learn 89
3.4.1 sklearn简介与安装 89
3.4.2 sklearn通用学习模式 89
3.4.3 sklearn数据集 90
3.4.4 sklearn模型的属性和功能 91
3.4.5 sklearn数据预处理 92
3.4.6 交叉验证 94
3.4.7 保存模型 96
3.5 本章小结 97
第4章 线性回归及应用 98
4.1 线性回归算法理论 98
4.2 回归算法的评价指标 100
4.3 梯度下降算法 101
4.3.1 算法理解 101
4.3.2 SGD算法理论 102
4.4 过拟合 103
4.4.1 过拟合产生的原因 103
4.4.2 常见线性回归正则化方法 104
4.5 线性回归实战 105
4.5.1 波士顿房价预测 105
4.5.2 加入正则化项 107
4.6 本章小结 108
第5章 分类算法及应用 109
5.1 逻辑回归理论与应用 109
5.1.1 算法理论知识 109
5.1.2 逻辑回归算法实战 110
5.2 SVM理论及应用 118
5.2.1 算法理论知识 119
5.2.2 SVM算法实战 120
5.3 朴素贝叶斯分类及应用 129
5.3.1 算法理论 129
5.3.2 朴素贝叶斯实战应用 130
5.4 决策树分类及应用 132
5.4.1 算法理论 132
5.4.2 ID3算法基础 133
5.4.3 决策树算法实战 136
5.5 随机森林算法实战 140
5.6 本章小结 141
第6章 数据降维及应用 142
6.1 数据降维概述 142
6.2 PCA算法 143
6.2.1 PCA算法理论 143
6.2.2 PCA算法实战 145
6.3 SVD算法 147
6.3.1 SVD理论 147
6.3.2 SVD实战应用 149
6.4 本章小结 152
第7章 聚类算法及应用 153
7.1 聚类理论基础 153
7.2 K-Means聚类 154
7.2.1 K-Means算法理论 154
7.2.2 K-Means算法实战 155
7.3 高斯混合聚类 163
7.3.1 高斯聚类理论 163
7.3.2 高斯混合聚类应用 165
7.4 谱聚类 166
7.4.1 谱聚类理论基础 167
7.4.2 谱聚类应用实战 168
7.5 本章小结 171
第8章 关联规则挖掘算法及应用 172
8.1 关联规则挖掘算法理论 172
8.1.1 大数据关联规则挖掘常识 172
8.1.2 经典的Apriori算法 173
8.1.3 FP树算法 174
8.2 关联规则挖掘算法实战 177
8.2.1 FP树实战 177
8.2.2 Apriori算法实战 182
8.3 本章小结 186
第9章 协同过滤算法及应用 187
9.1 协同过滤算法理论 187
9.1.1 协同过滤概述 187
9.1.2 物品相似度计算 189
9.1.3 关于ALS算法中的最小二乘法 190
9.2 协同过滤算法电影推荐实战 191
9.3 本章小结 196
第10章 新闻内容分类实战 197
10.1 数据准备 197
10.2 分词与清洗工作 199
10.3 模型建立 202
10.4 分类任务 203
10.5 本章小结 205
第11章 泰坦尼克号获救预测实战 206
11.1 数据处理 206
11.2 建立模型 209
11.3 算法概率计算 210
11.4 集成算法,构建多棵分类树 210
11.5 特征提取 211
11.6 集成多种算法 214
11.7 本章小结 215
第12章 中药数据分析项目实战 216
12.1 项目背景及目标 216
12.2 数据处理与分析实战 217
12.2.1 数据读取 217
12.2.2 中药材数据集的数据处理与分析 218
12.2.3 提取药方成分 221
12.2.4 挖掘常用药物组合 223
12.3 本章小结 227