图书目录

目  录

第Ⅰ部分 基础

第1章 机器学习简介  3

1.1 技术工具包  4

1.2 数据、数据类型、数据管理与质量  4

1.2.1 什么是数据  4

1.2.2 各种类型的数据  5

1.2.3 数据质量  8

1.2.4 数据工程与管理  10

1.3 数据分析、机器学习(ML)、人工智能(AI)和商业智能(BI)  11

1.4 机器学习的基本原理  12

1.5 机器学习算法的类型  15

1.5.1 监督学习  15

1.5.2 无监督算法  20

1.5.3 半监督算法  24

1.5.4 强化学习  24

1.6 结语  25

1.7 本章小结  26

第2章 聚类技术  27

2.1 技术工具包  28

2.2 聚类  28

2.3 基于质心的聚类  31

2.3.1 k-means聚类  33

2.3.2 聚类准确性衡量  35

2.3.3 寻找k的最优值  36

2.3.4 k-means聚类的优缺点  37

2.3.5 使用Python实现k-means聚类  38

2.4 基于连接性的聚类  42

2.4.1 层次聚类的类型  44

2.4.2 距离度量的连接准则  45

2.4.3 最优聚类数  46

2.4.4 层次聚类的优缺点  47

2.4.5 使用Python进行层次聚类案例研究  48

2.5 基于密度的聚类  51

2.5.1 邻域与密度  51

2.5.2 DBSCAN  52

2.6 使用聚类的案例研究  57

2.6.1 业务背景  58

2.6.2 分析数据集  58

2.6.3 建议的解决方案  59

2.6.4 问题的解决方案  59

2.7 聚类中常见的挑战  61

2.8 结语  62

2.9 本章小结  63

第3章 降维基础:线性投影与核心算法  65

3.1 技术工具包  66

3.2 高维灾难  66

3.3 降维方法  69

3.4 手动降维方法  69

3.4.1 手动特征选择  70

3.4.2 相关系数  71

3.4.3 基于算法的降维方法  71

3.5 主成分分析(PCA)  72

3.5.1 特征值分解  76

3.5.2 使用PCA的Python解决方案  76

3.6 奇异值分解  82

3.7 降维的优缺点  86

3.8 降维的案例研究  87

3.9 结语  90

3.10 本章小结  90

第Ⅱ部分 进阶内容

第4章 关联规则  95

4.1 技术工具包  96

4.2 关联规则概述  96

4.3 关联规则的构建块  97

4.4 Apriori算法  102

4.4.1 Python实现  103

4.4.2 Apriori算法的挑战  108

4.5 等价类聚类与自底向上的格结构遍历  109

4.6 F-P算法  113

4.7 序列规则挖掘  118

4.8 关联规则的案例研究  123

4.9 结语  125

4.10 本章小结  126

第5章 聚类  129

5.1 技术工具包  130

5.2 聚类:简要回顾  130

5.3 谱聚类  131

5.3.1 谱聚类的基础构建模块  132

5.3.2 谱聚类的过程  135

5.4 谱聚类的Python实现  137

5.5 模糊聚类  139

5.5.1 模糊聚类的类型  140

5.5.2 FCM算法的Python实现  143

5.6 高斯混合模型  146

5.6.1 EM技术  148

5.6.2 GMM聚类的Python实现  149

5.7 结语  152

5.8 本章小结  152

第6章 高级降维:非线性嵌入与流形学习  153

6.1 技术工具包  154

6.2 多维尺度分析  154

6.2.1 经典MDS  156

6.2.2 非度量MDS  156

6.3 MDS的Python实现  160

6.4 t-分布随机邻居嵌入法  164

6.4.1 柯西分布  166

6.4.2 t-SNE的Python实现  168

6.5 均匀流形近似投影  171

6.5.1 使用UMAP  171

6.5.2 应用UMAP的几方面  172

6.5.3 UMAP的关键点  172

6.6 案例研究  173

6.7 结语  174

6.8 本章小结  174

第7章 文本数据的无监督学习  177

7.1 技术工具包  178

7.2 文本数据无处不在  178

7.3 文本数据的应用案例  179

7.4 文本数据的挑战  180

7.5 文本数据预处理  181

7.6 数据清理  182

7.7 从文本数据集中提取特征  183

7.8 分词  184

7.9 词袋模型方法  185

7.10 词频和逆文档频率  187

7.11 语言模型  188

7.12 使用Python进行文本清理  189

7.13 词向量  193

7.14 Word2Vec和GloVe  194

7.15 使用Python实现的情感分析案例研究  195

7.16 使用Python进行文本聚类  202

7.17 用于文本数据的GenAI  203

7.18 结语  204

7.19 本章小结  204

第Ⅲ部分 高级概念

第8章 深度学习:基础概念  209

8.1 技术工具包  210

8.2 神经网络的构建模块  211

8.2.1 神经网络的解决方案  212

8.2.2 人工神经元和感知机  213

8.2.3 网络中的不同层次  214

8.2.4 激活函数  215

8.2.5 超参数  218

8.2.6 优化函数  218

8.3 监督式深度学习如何工作  220

8.3.1 监督学习算法  220

8.3.2 步骤1:前向传播  220

8.3.3 步骤2:添加损失函数  221

8.3.4 步骤3:计算误差  222

8.4 反向传播  222

8.4.1 反向传播背后的数学原理  223

8.4.2 步骤4:优化  224

8.5 深度学习如何在无监督的情况下工作  225

8.6 卷积神经网络  225

8.6.1 CNN的关键概念  226

8.6.2 CNN的应用  227

8.7 递归神经网络  227

8.8 Boltzmann学习规则  228

8.8.1 Boltzmann学习规则的概念  228

8.8.2 关键点  229

8.9 深度信念网络  229

8.10 流行的深度学习库  231

8.11 结语  232

8.12 本章小结  234

第9章 自编码器  235

9.1 技术工具包  235

9.2 特征学习  235

9.3 自编码器简介  236

9.4 自编码器的组成  236

9.5 自编码器的训练  237

9.6 自编码器的应用  238

9.7 自编码器的类型  239

9.8 自编码器的Python实现  241

9.9 结语  244

9.10 本章小结  244

第10章 生成对抗网络、生成式人工智能和ChatGPT  245

10.1 人工智能:一种变革  245

10.2 生成式人工智能及其重要性  246

10.3 判别模型与生成式模型  247

10.4 生成对抗网络  248

10.4.1 生成器网络  249

10.4.2 判别器网络  249

10.4.3 对抗训练  250

10.4.4 GAN的变种与应用  250

10.4.5 BERT、GPT-3及其他模型  251

10.5 ChatGPT及其细节  252

10.5.1 ChatGPT的关键特点  252

10.5.2 ChatGPT的应用  252

10.6 GenAI的整合  252

10.7 结语  253

10.8 本章小结  254

第11章 端到端模型部署  255

11.1 机器学习建模过程  255

11.2 业务问题定义  256

11.3 数据发现与可行性分析  257

11.4 数据清洗和预处理  258

11.5 数据中的重复值  259

11.6 类别变量  260

11.7 数据集中的缺失值  261

11.8 数据中的异常值  262

11.9 探索性数据分析  263

11.10 模型开发与业务审批  263

11.11 模型部署  264

11.12 模型部署的目的  264

11.13 模型部署的类型  264

11.14 模型部署时的考虑因素  265

11.15 文档  266

11.16 模型维护与更新  266

11.17 结语  267

11.18 本章小结  267

附录A 数学基础  269

A.1 聚类算法列表  269

A.1.1 基于划分的算法  269

A.1.2 层次聚类  269

A.1.3 基于密度的算法  270

A.1.4 基于网格的算法  270

A.1.5 基于模型的算法  270

A.1.6 谱聚类  271

A.1.7 基于图的聚类  271

A.1.8 子空间和高维聚类  271

A.1.9 模糊和软聚类  272

A.1.10 基于约束的聚类  272

A.1.11 演化与遗传聚类  272

A.1.12 基于神经网络的聚类  272

A.1.13 其他算法  273

A.2 什么是质心  273

A.3 L1范数与L2范数  273

A.4 行业内使用的不同数据缩放技术  273

A.5 时间复杂度O(n)  274

A.6 如何在Python中安装包  275

A.7 相关性  275

A.7.1 相关系数  275

A.7.2 相关性的应用  276

A.7.3 重要注意事项  276

A.8 时间序列分析  276

A.9 数据表示的数学基础  277

A.9.1 标量与向量  277

A.9.2 标准差与方差  277

A.9.3 协方差与相关性  278

A.9.4 矩阵分解、特征向量和特征值  279

A.9.5 特殊矩阵  280

A.10 超参数与参数  280