第1 章线性回归与逻辑回归. 1
1.1 线性回归. 1
1.1.1 函数关系与统计关系.1
1.1.2 统计与机器学习. 2
1.2 最小二乘法与高斯-马尔可夫定理. 5
1.2.1 最小二乘法. . 5
1.2.2 高斯-马尔可夫定理. . 6
1.3 从线性回归到逻辑回归. 8
1.4 最大似然估计求解逻辑回归. . 9
1.5 最小二乘与最大似然. . 11
1.5.1 逻辑回归与伯努利分布. 11
1.5.2 线性回归与正态分布. 12
1.6 小结. 13
参考文献. 13
第2 章广义线性模型. 15
2.1 广义线性模型概述.15
2.1.1 广义线性模型的定义. 15
2.1.2 链接函数与指数分布簇. 17
2.2 广义线性模型求解.20
2.3 最大似然估计Ⅰ:Fisher 信息. 21
2.4 最大似然估计Ⅱ:KL 散度与Bregman 散度. 23
2.4.1 KL 散度. . 23
2.4.2 Bregman 散度. . 25
2.5 小结. 26
X
参考文献. 26
第3 章经验风险最小. 28
3.1 经验风险与泛化误差概述. .28
3.1.1 经验风险. 30
3.1.2 泛化误差. 30
3.1.3 欠拟合和过拟合. . 34
3.1.4 VC 维. . 37
3.2 经验风险最小的算法. . 40
3.3 分类边界. . 42
3.3.1 分类算法的损失函数. 42
3.3.2 分类算法的边界. . 45
3.4 小结. 48
参考文献. 48
第4 章结构风险最小. 49
4.1 经验风险最小和过拟合. . 49
4.2 结构风险最小和正则化. . 51
4.2.1 从空间角度理解SRM 52
4.2.2 从贝叶斯观点理解SRM 54
4.3 回归的正则化. 55
4.3.1 L2 正则化和岭回归. 56
4.3.2 L1 正则化和Lasso 回归. . 57
4.3.3 L1、L2 组合正则化和ElasticNet 回归. . 58
4.4 分类的正则化. 60
4.4.1 支持向量机和L2 正则化. 60
4.4.2 XGBoost 和树正则化. 62
4.4.3 神经网络和DropOut 正则化. 65
4.4.4 正则化的优缺点. . 66
4.5 小结. 67
参考文献. 67
第5 章贝叶斯统计与熵.68
5.1 统计学习的基础:参数估计. .68
5.1.1 矩估计. .68
XI
5.1.2 最大似然估计.69
5.1.3 最小二乘法. 71
5.2 概率分布与三大统计思维. .72
5.2.1 频率派和正态分布. . 72
5.2.2 经验派和正态分布. . 75
5.2.3 贝叶斯派和正态分布. 76
5.2.4 贝叶斯统计和熵的关系. 79
5.3 信息熵的理解. 79
5.3.1 信息熵简史. 79
5.3.2 信息熵定义. 80
5.3.3 期望编码长度解释. . 81
5.3.4 不确定性公理化解释. 81
5.3.5 基于熵的度量.84
5.4 最大熵原理. . 86
5.4.1 最大熵的直观理解. . 86
5.4.2 最大熵解释自然指数分布簇. . 87
5.4.3 最大熵解释最大似然估计.89
5.5 小结. 90
参考文献. 90
第6 章基于熵的Softmax. .92
6.1 二项分布和多项分布. . 92
6.2 Logistic 回归和Softmax 回归. .93
6.2.1 广义线性模型的解释. 93
6.2.2 Softmax 回归. 94
6.2.3 最大熵原理与Softmax 回归的等价性.96
6.3 最大熵条件下的Log-Linear 101
6.4 多分类界面.103
6.4.1 感知机和多分类感知机. . 104
6.4.2 多分类感知机和结构感知机. 105
6.5 概率图模型里面的Log-Linear 106
6.6 深度学习里面的Softmax 层. . 108
6.7 小结. . 109
XII
参考文献. . 109
第7 章拉格朗日乘子法. 111
7.1 凸共轭. .111
7.1.1 凸共轭的定义. 111
7.1.2 凸共轭定理. . 113
7.2 拉格朗日对偶. . 114
7.2.1 拉格朗日对偶概述.115
7.2.2 Salter 条件. . 117
7.2.3 KKT 条件. 118
7.3 Fenchel 对偶. .120
7.4 增广拉格朗日乘子法. 123
7.4.1 近端. 123
7.4.2 增广拉格朗日乘子法和对偶上升算法. .126
7.5 交替方向乘子法. . 129
7.5.1 对偶分解. . 130
7.5.2 交替方向乘子法概述. . 131
7.6 小结. . 131
参考文献. . 132
第8 章随机梯度下降法. 134
8.1 随机梯度下降法概述. 134
8.1.1 机器学习场景. 134
8.1.2 随机梯度下降法的定义. . 135
8.1.3 随机梯度下降法收敛性分析. 136
8.1.4 收敛性证明. . 139
8.2 随机梯度下降法进阶Ⅰ:方差缩减. 140
8.2.1 方差缩减的效果. 141
8.2.2 方差缩减的实现. 143
8.3 随机梯度下降法进阶Ⅱ:加速与适应. 145
8.3.1 加速. 146
8.3.2 适应. 148
8.3.3 加速£ 适应. 151
8.4 随机梯度下降法的并行实现. . 156
XIII
8.5 小结. . 160
参考文献. . 161
第9 章常见的最优化方法. 163
9.1 最速下降算法. . 163
9.1.1 l2 范数与梯度下降法. . 164
9.1.2 l1 范数与坐标下降算法. . 165
9.1.3 二次范数与牛顿法.166
9.2 步长的设定.168
9.2.1 Armijo-Goldstein 准则. 169
9.2.2 Wolfe-Powell 准则. 170
9.2.3 回溯线搜索. . 171
9.3 收敛性分析.171
9.3.1 收敛速率. . 172
9.3.2 对目标函数的一些假设. . 173
9.4 一阶算法:梯度下降法. 177
9.5 二阶算法:牛顿法及其衍生算法. .178
9.5.1 牛顿法与梯度下降法的对比. 179
9.5.2 拟牛顿法. . 180
9.5.3 从二次范数的角度看牛顿法. 182
9.6 小结. . 183
参考文献. . 185