图书前言

在当今的人工智能领域中最热门技术毫无疑问当属深度学习。深度学习在Geo?rey

Hinton、Yoshua Bengio、Yann LeCun 和Juergen Schmidhuber 等巨擘们持续不断的贡献

下,在文本、图像、自然语言等方向均取得了革命性的进展。当然,深度学习只是机器学习

的一个分支,能取得当前的成功也是建立在机器学习不断发展的基础之上。在机器学习领

域,很多著名科学家(如图1 所示) 提出了他们的理论,做出了他们的贡献。Leslie Valiant

提出的概率近似正确学习(Probably Approximately Correct Learning, PAC) 理论打下了

计算学习理论的基石,并在此后提出了自举(Boosting) 思想。Vladimir Vapnik 提出的支

持向量机(Support Vector Machine, SVM) 是一个理论和应用都十分强大的算法。与此同

时他所提出的经验风险最小与结构风险最小理论,以及背后更深层次的VC 维(Vapnik-

Chervonenkis dimension) 理论,为部分统一分类问题提供了理论基础。Judea Pearl 提出

图1 机器学习领域(支持向量机、集成学习、概率图模型) 的著名科学家

II

了贝叶斯网络,而Michael I. Jordan 则在此基础上发展了概率图模型。Leo Breiman 在集

成(Ensemble) 学习的思想下设计了随机森林(Random Forest) 算法,Robert Schapire 和

Jerome H. Friedman 则基于Boosting 分别发明了AdaBoost和Gradient Boosting算法。至

此,机器学习中最耀眼的算法|| 支持向量机、集成学习和概率图模型交相辉映,为整

个机器学习理论的发展奠定了深厚的基础。

本书首先尝试把机器学习的经典算法,包括逻辑回归(Logistic Regression)、支持

向量机和AdaBoost 等,在经验风险最小和结构风险最小的框架下进行统一,并且借助

Softmax 模型和概率图模型中的Log-Linear 模型阐述它们的内在联系;其次从熵的角度

解读概率分布、最大似然估计、指数分布族、广义线性模型等概念;最后深入剖析用于求

解的最优化算法及其背后的数学理论。

本书的主要内容

全书分为9 个章节,从单一算法到统一框架,再到一致最优化求解,各章节的设置

如下。

第1 章,首先提出并探讨几个基本问题,包括回归思想、最优模型评价标准、数理统

计与机器学习的关系等。之后介绍两个最简单最常见的有监督学习算法|| 线性回归和

逻辑回归,并从计算的角度分析两种模型内在的关联,从而为学习“广义线性模型”打下

基础。在本章的最后部分初步讲解两个模型的求解方法|| 最小二乘法和最大似然估

计。

第2 章,主要内容是线性回归的泛化形式|| 广义线性模型。本章详细介绍广义线

性模型,并在第1 章的基础上从Fisher 信息、KL 散度、Bregman 距离的角度深入讲解

最大似然估计。本章可以看作是第3 章的基础引入。

第3 章,在前两章的基础上提出泛化误差和经验风险最小等概念,并且将最小二乘

和最大似然并入损失函数的范畴。在此基础之上,我们便将逻辑回归、支持向量机和Ada

Boost 算法统一到分类界面的框架下。至此我们会看到不同的算法只是分别对应了不同

的损失函数。

第4 章,介绍经验风险最小的不足与过拟合的概念,之后引出正则化。紧接着介绍

有监督学习算法中的常见正则化方法,包括L1 和L2 正则化XG Boost 和树。本章从两

个角度对L1 和L2 正则化进行深入讲解|| 贝叶斯和距离空间。这两个观点分别对应

了本书后续的两大部分|| 熵和最优化。

第5 章,介绍贝叶斯统计和熵之间的关系,并且基于熵重新解读了最大似然估计、指

III

数分布族等概念。本章可以看作是前四章中出现的内容在熵概念下的再定义。同时也是

为下一章的Log-Linear 模型作出铺垫。

第6 章,介绍Softmax 和Log-Linear 的变化,并且将第3 章的二分类界面泛化到多

分类界面,把分类问题的思路扩展到了多分类和结构分类。在本章中通过Log-Linear 关

联了概率图模型,通过Softmax 关联了深度学习。

第7 章,承接第4 章中L1 和L2 正则化在最优化角度的解释,从凸共轭的开始递进

地推导出拉格朗日对偶、Fenchel 对偶、增广拉格朗日乘子法、交替方向乘子法。

第8 章,介绍有监督学习模型在机器学习场景下的统一求解方法|| 随机梯度下

降法及其改进算法。本章对随机梯度下降法进行了收敛性分析,并根据分析结果针对其

缺点着重介绍了两类改进策略|| 方差缩减、加速和适应。

第9 章,主要对数学意义上的最优化方法进行探讨,可以看作是连接第7 章和第8

章的桥梁。第7 章的内容是本章的理论部分,而第8 章的内容则是本章介绍的算法应用

在在机器学习场景中的特例,主要内容包括一阶、二阶最优化算法及其收敛性分析。

图2 章节结构关系图

史春奇与卜晶祎为本书的共同第一作者。书中第3?6 章主要由史春奇博士撰写,第

IV

1、2、7?9 章主要由卜晶祎撰写,施智平教授参与了本书的组织结构设计并提出了很多宝

贵意见。由于作者的能力与水平有限,本书对机器学习的探讨难免会有不全面、不深刻

等不足之处,敬请各位读者批评指正,如蒙赐教将不胜感激。

各个章节结构之间的关系如图2 所示。对于基础稍浅的读者,可以按照图示循序渐

进地阅读;对于有一定基础的读者,可以跳过部分章节直接阅读感兴趣的章节。

作者

2019 年1 月