图书目录

第1 章线性回归与逻辑回归. 1

1.1 线性回归. 1

1.1.1 函数关系与统计关系.1

1.1.2 统计与机器学习. 2

1.2 最小二乘法与高斯-马尔可夫定理. 5

1.2.1 最小二乘法. . 5

1.2.2 高斯-马尔可夫定理. . 6

1.3 从线性回归到逻辑回归. 8

1.4 最大似然估计求解逻辑回归. . 9

1.5 最小二乘与最大似然. . 11

1.5.1 逻辑回归与伯努利分布. 11

1.5.2 线性回归与正态分布. 12

1.6 小结. 13

参考文献. 13

第2 章广义线性模型. 15

2.1 广义线性模型概述.15

2.1.1 广义线性模型的定义. 15

2.1.2 链接函数与指数分布簇. 17

2.2 广义线性模型求解.20

2.3 最大似然估计Ⅰ:Fisher 信息. 21

2.4 最大似然估计Ⅱ:KL 散度与Bregman 散度. 23

2.4.1 KL 散度. . 23

2.4.2 Bregman 散度. . 25

2.5 小结. 26

X

参考文献. 26

第3 章经验风险最小. 28

3.1 经验风险与泛化误差概述. .28

3.1.1 经验风险. 30

3.1.2 泛化误差. 30

3.1.3 欠拟合和过拟合. . 34

3.1.4 VC 维. . 37

3.2 经验风险最小的算法. . 40

3.3 分类边界. . 42

3.3.1 分类算法的损失函数. 42

3.3.2 分类算法的边界. . 45

3.4 小结. 48

参考文献. 48

第4 章结构风险最小. 49

4.1 经验风险最小和过拟合. . 49

4.2 结构风险最小和正则化. . 51

4.2.1 从空间角度理解SRM 52

4.2.2 从贝叶斯观点理解SRM 54

4.3 回归的正则化. 55

4.3.1 L2 正则化和岭回归. 56

4.3.2 L1 正则化和Lasso 回归. . 57

4.3.3 L1、L2 组合正则化和ElasticNet 回归. . 58

4.4 分类的正则化. 60

4.4.1 支持向量机和L2 正则化. 60

4.4.2 XGBoost 和树正则化. 62

4.4.3 神经网络和DropOut 正则化. 65

4.4.4 正则化的优缺点. . 66

4.5 小结. 67

参考文献. 67

第5 章贝叶斯统计与熵.68

5.1 统计学习的基础:参数估计. .68

5.1.1 矩估计. .68

XI

5.1.2 最大似然估计.69

5.1.3 最小二乘法. 71

5.2 概率分布与三大统计思维. .72

5.2.1 频率派和正态分布. . 72

5.2.2 经验派和正态分布. . 75

5.2.3 贝叶斯派和正态分布. 76

5.2.4 贝叶斯统计和熵的关系. 79

5.3 信息熵的理解. 79

5.3.1 信息熵简史. 79

5.3.2 信息熵定义. 80

5.3.3 期望编码长度解释. . 81

5.3.4 不确定性公理化解释. 81

5.3.5 基于熵的度量.84

5.4 最大熵原理. . 86

5.4.1 最大熵的直观理解. . 86

5.4.2 最大熵解释自然指数分布簇. . 87

5.4.3 最大熵解释最大似然估计.89

5.5 小结. 90

参考文献. 90

第6 章基于熵的Softmax. .92

6.1 二项分布和多项分布. . 92

6.2 Logistic 回归和Softmax 回归. .93

6.2.1 广义线性模型的解释. 93

6.2.2 Softmax 回归. 94

6.2.3 最大熵原理与Softmax 回归的等价性.96

6.3 最大熵条件下的Log-Linear 101

6.4 多分类界面.103

6.4.1 感知机和多分类感知机. . 104

6.4.2 多分类感知机和结构感知机. 105

6.5 概率图模型里面的Log-Linear 106

6.6 深度学习里面的Softmax 层. . 108

6.7 小结. . 109

XII

参考文献. . 109

第7 章拉格朗日乘子法. 111

7.1 凸共轭. .111

7.1.1 凸共轭的定义. 111

7.1.2 凸共轭定理. . 113

7.2 拉格朗日对偶. . 114

7.2.1 拉格朗日对偶概述.115

7.2.2 Salter 条件. . 117

7.2.3 KKT 条件. 118

7.3 Fenchel 对偶. .120

7.4 增广拉格朗日乘子法. 123

7.4.1 近端. 123

7.4.2 增广拉格朗日乘子法和对偶上升算法. .126

7.5 交替方向乘子法. . 129

7.5.1 对偶分解. . 130

7.5.2 交替方向乘子法概述. . 131

7.6 小结. . 131

参考文献. . 132

第8 章随机梯度下降法. 134

8.1 随机梯度下降法概述. 134

8.1.1 机器学习场景. 134

8.1.2 随机梯度下降法的定义. . 135

8.1.3 随机梯度下降法收敛性分析. 136

8.1.4 收敛性证明. . 139

8.2 随机梯度下降法进阶Ⅰ:方差缩减. 140

8.2.1 方差缩减的效果. 141

8.2.2 方差缩减的实现. 143

8.3 随机梯度下降法进阶Ⅱ:加速与适应. 145

8.3.1 加速. 146

8.3.2 适应. 148

8.3.3 加速£ 适应. 151

8.4 随机梯度下降法的并行实现. . 156

XIII

8.5 小结. . 160

参考文献. . 161

第9 章常见的最优化方法. 163

9.1 最速下降算法. . 163

9.1.1 l2 范数与梯度下降法. . 164

9.1.2 l1 范数与坐标下降算法. . 165

9.1.3 二次范数与牛顿法.166

9.2 步长的设定.168

9.2.1 Armijo-Goldstein 准则. 169

9.2.2 Wolfe-Powell 准则. 170

9.2.3 回溯线搜索. . 171

9.3 收敛性分析.171

9.3.1 收敛速率. . 172

9.3.2 对目标函数的一些假设. . 173

9.4 一阶算法:梯度下降法. 177

9.5 二阶算法:牛顿法及其衍生算法. .178

9.5.1 牛顿法与梯度下降法的对比. 179

9.5.2 拟牛顿法. . 180

9.5.3 从二次范数的角度看牛顿法. 182

9.6 小结. . 183

参考文献. . 185