目 录
第Ⅰ部分 基础
第1章 机器学习简介 3
1.1 技术工具包 4
1.2 数据、数据类型、数据管理与质量 4
1.2.1 什么是数据 4
1.2.2 各种类型的数据 5
1.2.3 数据质量 8
1.2.4 数据工程与管理 10
1.3 数据分析、机器学习(ML)、人工智能(AI)和商业智能(BI) 11
1.4 机器学习的基本原理 12
1.5 机器学习算法的类型 15
1.5.1 监督学习 15
1.5.2 无监督算法 20
1.5.3 半监督算法 24
1.5.4 强化学习 24
1.6 结语 25
1.7 本章小结 26
第2章 聚类技术 27
2.1 技术工具包 28
2.2 聚类 28
2.3 基于质心的聚类 31
2.3.1 k-means聚类 33
2.3.2 聚类准确性衡量 35
2.3.3 寻找k的最优值 36
2.3.4 k-means聚类的优缺点 37
2.3.5 使用Python实现k-means聚类 38
2.4 基于连接性的聚类 42
2.4.1 层次聚类的类型 44
2.4.2 距离度量的连接准则 45
2.4.3 最优聚类数 46
2.4.4 层次聚类的优缺点 47
2.4.5 使用Python进行层次聚类案例研究 48
2.5 基于密度的聚类 51
2.5.1 邻域与密度 51
2.5.2 DBSCAN 52
2.6 使用聚类的案例研究 57
2.6.1 业务背景 58
2.6.2 分析数据集 58
2.6.3 建议的解决方案 59
2.6.4 问题的解决方案 59
2.7 聚类中常见的挑战 61
2.8 结语 62
2.9 本章小结 63
第3章 降维基础:线性投影与核心算法 65
3.1 技术工具包 66
3.2 高维灾难 66
3.3 降维方法 69
3.4 手动降维方法 69
3.4.1 手动特征选择 70
3.4.2 相关系数 71
3.4.3 基于算法的降维方法 71
3.5 主成分分析(PCA) 72
3.5.1 特征值分解 76
3.5.2 使用PCA的Python解决方案 76
3.6 奇异值分解 82
3.7 降维的优缺点 86
3.8 降维的案例研究 87
3.9 结语 90
3.10 本章小结 90
第Ⅱ部分 进阶内容
第4章 关联规则 95
4.1 技术工具包 96
4.2 关联规则概述 96
4.3 关联规则的构建块 97
4.4 Apriori算法 102
4.4.1 Python实现 103
4.4.2 Apriori算法的挑战 108
4.5 等价类聚类与自底向上的格结构遍历 109
4.6 F-P算法 113
4.7 序列规则挖掘 118
4.8 关联规则的案例研究 123
4.9 结语 125
4.10 本章小结 126
第5章 聚类 129
5.1 技术工具包 130
5.2 聚类:简要回顾 130
5.3 谱聚类 131
5.3.1 谱聚类的基础构建模块 132
5.3.2 谱聚类的过程 135
5.4 谱聚类的Python实现 137
5.5 模糊聚类 139
5.5.1 模糊聚类的类型 140
5.5.2 FCM算法的Python实现 143
5.6 高斯混合模型 146
5.6.1 EM技术 148
5.6.2 GMM聚类的Python实现 149
5.7 结语 152
5.8 本章小结 152
第6章 高级降维:非线性嵌入与流形学习 153
6.1 技术工具包 154
6.2 多维尺度分析 154
6.2.1 经典MDS 156
6.2.2 非度量MDS 156
6.3 MDS的Python实现 160
6.4 t-分布随机邻居嵌入法 164
6.4.1 柯西分布 166
6.4.2 t-SNE的Python实现 168
6.5 均匀流形近似投影 171
6.5.1 使用UMAP 171
6.5.2 应用UMAP的几方面 172
6.5.3 UMAP的关键点 172
6.6 案例研究 173
6.7 结语 174
6.8 本章小结 174
第7章 文本数据的无监督学习 177
7.1 技术工具包 178
7.2 文本数据无处不在 178
7.3 文本数据的应用案例 179
7.4 文本数据的挑战 180
7.5 文本数据预处理 181
7.6 数据清理 182
7.7 从文本数据集中提取特征 183
7.8 分词 184
7.9 词袋模型方法 185
7.10 词频和逆文档频率 187
7.11 语言模型 188
7.12 使用Python进行文本清理 189
7.13 词向量 193
7.14 Word2Vec和GloVe 194
7.15 使用Python实现的情感分析案例研究 195
7.16 使用Python进行文本聚类 202
7.17 用于文本数据的GenAI 203
7.18 结语 204
7.19 本章小结 204
第Ⅲ部分 高级概念
第8章 深度学习:基础概念 209
8.1 技术工具包 210
8.2 神经网络的构建模块 211
8.2.1 神经网络的解决方案 212
8.2.2 人工神经元和感知机 213
8.2.3 网络中的不同层次 214
8.2.4 激活函数 215
8.2.5 超参数 218
8.2.6 优化函数 218
8.3 监督式深度学习如何工作 220
8.3.1 监督学习算法 220
8.3.2 步骤1:前向传播 220
8.3.3 步骤2:添加损失函数 221
8.3.4 步骤3:计算误差 222
8.4 反向传播 222
8.4.1 反向传播背后的数学原理 223
8.4.2 步骤4:优化 224
8.5 深度学习如何在无监督的情况下工作 225
8.6 卷积神经网络 225
8.6.1 CNN的关键概念 226
8.6.2 CNN的应用 227
8.7 递归神经网络 227
8.8 Boltzmann学习规则 228
8.8.1 Boltzmann学习规则的概念 228
8.8.2 关键点 229
8.9 深度信念网络 229
8.10 流行的深度学习库 231
8.11 结语 232
8.12 本章小结 234
第9章 自编码器 235
9.1 技术工具包 235
9.2 特征学习 235
9.3 自编码器简介 236
9.4 自编码器的组成 236
9.5 自编码器的训练 237
9.6 自编码器的应用 238
9.7 自编码器的类型 239
9.8 自编码器的Python实现 241
9.9 结语 244
9.10 本章小结 244
第10章 生成对抗网络、生成式人工智能和ChatGPT 245
10.1 人工智能:一种变革 245
10.2 生成式人工智能及其重要性 246
10.3 判别模型与生成式模型 247
10.4 生成对抗网络 248
10.4.1 生成器网络 249
10.4.2 判别器网络 249
10.4.3 对抗训练 250
10.4.4 GAN的变种与应用 250
10.4.5 BERT、GPT-3及其他模型 251
10.5 ChatGPT及其细节 252
10.5.1 ChatGPT的关键特点 252
10.5.2 ChatGPT的应用 252
10.6 GenAI的整合 252
10.7 结语 253
10.8 本章小结 254
第11章 端到端模型部署 255
11.1 机器学习建模过程 255
11.2 业务问题定义 256
11.3 数据发现与可行性分析 257
11.4 数据清洗和预处理 258
11.5 数据中的重复值 259
11.6 类别变量 260
11.7 数据集中的缺失值 261
11.8 数据中的异常值 262
11.9 探索性数据分析 263
11.10 模型开发与业务审批 263
11.11 模型部署 264
11.12 模型部署的目的 264
11.13 模型部署的类型 264
11.14 模型部署时的考虑因素 265
11.15 文档 266
11.16 模型维护与更新 266
11.17 结语 267
11.18 本章小结 267
附录A 数学基础 269
A.1 聚类算法列表 269
A.1.1 基于划分的算法 269
A.1.2 层次聚类 269
A.1.3 基于密度的算法 270
A.1.4 基于网格的算法 270
A.1.5 基于模型的算法 270
A.1.6 谱聚类 271
A.1.7 基于图的聚类 271
A.1.8 子空间和高维聚类 271
A.1.9 模糊和软聚类 272
A.1.10 基于约束的聚类 272
A.1.11 演化与遗传聚类 272
A.1.12 基于神经网络的聚类 272
A.1.13 其他算法 273
A.2 什么是质心 273
A.3 L1范数与L2范数 273
A.4 行业内使用的不同数据缩放技术 273
A.5 时间复杂度O(n) 274
A.6 如何在Python中安装包 275
A.7 相关性 275
A.7.1 相关系数 275
A.7.2 相关性的应用 276
A.7.3 重要注意事项 276
A.8 时间序列分析 276
A.9 数据表示的数学基础 277
A.9.1 标量与向量 277
A.9.2 标准差与方差 277
A.9.3 协方差与相关性 278
A.9.4 矩阵分解、特征向量和特征值 279
A.9.5 特殊矩阵 280
A.10 超参数与参数 280
