目录第1章微积分基础
1.1微积分的核心思想
1.1.1案例:正弦函数面积的累加计算
1.1.2案例:圆面积的累加计算
1.1.3“以直代曲”的泰勒展开解释
1.2导数的近似估计
1.2.1有限差分法
1.2.2案例:正弦函数导数的有限差分估计
1.2.3案例:图像边缘(轮廓)提取
1.3直角坐标与极坐标的变换
1.3.1坐标变换的微分解释
1.3.2案例:高斯分布密度函数的推导
本章小结第2章迭代优化与凸函数
2.1迭代优化
2.1.1一个简单的最优化问题
2.1.2闭式解与非闭式解
2.1.3迭代优化的理论基础
2.1.4案例:抛物线的迭代优化过程
2.2梯度消失
2.2.1梯度消失的概念
2.2.2案例:函数y=-lnx的梯度消失现象
2.3凸函数
2.3.1凸函数与全局最优解
2.3.2单调性和凹凸性
2.3.3凸函数的判定方法
2.4凸集与凸规划
2.4.1凸集的概念
2.4.2凸规划的应用
本章小结第3章向量空间
3.1向量概述
3.1.1点与向量
3.1.2向量的基本运算
3.1.3案例:计算机图形学中的向量矩阵运算
3.2秩与子空间
3.2.1线性相关与线性无关
3.2.2秩的概念
3.2.3子空间
3.2.4高维人脸图像的低维子空间
3.3线性变换
3.3.1基与坐标系
3.3.2高维到低维的线性变换
3.3.3坐标系之间的线性变换
3.4投影与正交化
3.4.1正交投影
3.4.2施密特正交化
本章小结第4章矩阵的特征分解与压缩
4.1特征分解与对角化
4.1.1特征值和特征向量
4.1.2矩阵对角化
4.1.3左右特征向量和特征分解
4.1.4案例:图像矩阵的特征分解与重构
4.2正交矩阵
4.2.1正交对角化
4.2.2正交旋转算子
4.2.3案例:样本结构的旋转不变性
4.3对称矩阵的压缩
4.3.1零空间
4.3.2无损压缩
4.3.3低秩逼近的误差平方和
4.4奇异值分解
4.4.1奇异值分解概述
4.4.2奇异值分解步骤
4.4.3案例:奇异值分解实现人脸图像压缩
本章小结第5章概率论基础
5.1基本概率
5.1.1条件概率——关联性的度量
5.1.2事件的独立性
5.1.3全概率与贝叶斯公式
5.2样本统计量
5.2.1期望和方差
5.2.2协方差与相关系数
5.2.3主分量分析——协方差矩阵的特征分解
5.2.4案例:人脸图像的主分量分析
5.3常见的概率分布及其内在联系
5.3.1常见的概率分布简介
5.3.20-1分布、二项分布和泊松分布的关系
5.3.3案例:二项分布B(n,p)的模拟
5.3.4泊松分布与指数分布的关系
5.4概率变换
5.4.1概率变换的微分解释
5.4.2逆变换法
5.4.3案例:用逆变换法实现概率分布变换
5.4.4标准正态分布导出的三大分布
本章小结第6章数理统计基础
6.1参数估计
6.1.1矩估计
6.1.2最大似然估计
6.1.3方差的渐进无偏估计
6.2正态分布的重要性质
6.2.1标准正态分布
6.2.2案例:数值积分模拟3σ原则
6.2.3正态性度量
6.2.4案例:最佳聚类个数的判定
6.3渐近正态性
6.3.1切比雪夫不等式和大数定理
6.3.2中心极限定理
6.3.3案例:指数分布样本均值的渐近正态分布
6.4数据的显著性差异
6.4.1置信区间和p值
6.4.2案例:与标准正态相关的三大分布显著性检验
本章小结第7章线性模型
7.1线性方程组
7.1.1案例:线性方程组的应用
7.1.2方程组的解与线性空间的关系
7.1.3最小二乘解
7.2线性回归
7.2.1案例:线性回归建模
7.2.2回归噪声与相关系数
7.2.3线性回归分类器
7.2.4离群点对线性回归模型的影响
7.3线性特征提取
7.3.1线性鉴别分析
7.3.2案例:鸢尾花数据的二维鉴别空间
7.3.3高维小样本的不稳定性及正则化
7.3.4岭回归
7.4线性模型的马氏距离与高斯假设
本章小结第8章熵与不确定性
8.1熵的概念
8.1.1惊奇程度的加权平均
8.1.2熵函数与不确定性
8.2熵的拓展
8.2.1联合熵和条件熵
8.2.2互信息
8.2.3标准化互信息
8.2.4案例:鸢尾花数据的聚类指标NMI
8.3基于熵的数据分析
8.3.1信息增益
8.3.2KullbackLeibler距离
8.3.3案例:两个概率分布的KL距离度量
8.3.4交叉熵和相对熵
本章小结第9章大规模矩阵分解
9.1QR分解
9.1.1QR分解在线性方程组中的作用
9.1.2施密特正交化QR分解
9.1.3Householder变换QR分解
9.1.4Given变换QR分解
9.1.5案例:QR分解的效率
9.2LU分解
9.2.1LU分解的理论基础
9.2.2LU分解在线性方程组中的应用
9.2.3案例:LU分解的效率
9.3Cholesky分解的两种方法
9.4矩阵分解并行化软件库简介
本章小结第10章迭代优化方法
10.1最速下降法
10.1.1最速下降法的理论基础
10.1.2案例:最速下降法求解二次函数
10.2牛顿法
10.2.1牛顿法概述
10.2.2案例:牛顿法求解二次函数
10.3拟牛顿法
10.3.1拟牛顿法的思想
10.3.2秩1更新法
10.3.3秩2更新法
10.3.4案例:用DFP和BFGS迭代求解二次函数
10.4批量随机梯度法
10.4.1批量随机梯度法概述
10.4.2案例:批量随机梯度法的手动求导
10.4.3案例:批量随机梯度法的自动求导
10.5其他深度学习优化方法简介
本章小结第11章深度学习基础
11.1深度学习的拟合能力
11.2图像特征提取
11.2.1卷积
11.2.2下采样(池化)
11.2.3LeNet模型的卷积和下采样
11.3激活函数
11.3.1Sigmoid函数
11.3.2Sigmoid激活和抑制
11.3.3其他激活函数简介
11.4网络模型优化
11.4.1损失函数
11.4.2神经元的连接
11.4.3链式求导与变量更新
11.4.4正则化和Dropout
11.5深度神经网络的搭建和训练
11.5.1案例:搭建神经网络并查看模型结构
11.5.2案例:用正则化缓解网络的过拟合现象
本章小结第12章随机方法
12.1蒙特卡罗法
12.1.1案例:正弦区域面积的估算
12.1.2估算可信度的统计学解释
12.2矩阵特征对的幂迭代算法
12.2.1幂迭代算法介绍
12.2.2幂迭代算法的理论分析
12.2.3案例:特征值分布对幂迭代收敛效率的影响
12.3马尔可夫过程
12.3.1非负不可约矩阵
12.3.2马尔可夫矩阵和平稳分布
12.3.3Google矩阵
12.4基于概率转移的随机采样法
12.4.1马尔可夫链蒙特卡罗算法
12.4.2案例:晴雨天概率转移的MCMC实现
12.4.3MetropolisHasting算法
12.4.4案例:晴雨天概率转移的MH算法实现
本章小结第13章模型评估
13.1评估判别指标
13.1.1精准率、召回率、正确率和混淆矩阵
13.1.2F1分数及其拓展
13.1.3统计学中的两类错误
13.2模型区分度
13.2.1AP值和PR曲线
13.2.2ROC曲线和AUC面积
13.3多分类模型的评估
13.3.1onehot矩阵和mAP值
13.3.2宏平均和微平均
13.3.3案例:降维后wine.data的类别区分度计算
13.3.4案例:wine.data聚类可视化及其评估指标
本章小结参考文献
1113466710131314151616161718192121222323252831313232343434353738383940424343454647474951525252555758616162646666676869697172757676777879818183858688899091939595969798100101101101102105106106108110111114114115116118118120124125125125127128129129131133134135135138140141142144145145145146148148150154155158158160161162163164164164166168170171173173174175178179180181181181183186186187188189189190192194194196198200201202202205205207208209209211211213213214215217219219221224226226226229232232233234237237239240242242243244246247248248248250251252252255257257258259262266267