图书目录

目    录

第1章  深度学习概述 1

1.1  人工智能 1

1.2  机器学习 2

1.2.1  机器学习定义 2

1.2.2  机器学习流派 3

1.2.3  机器学习简史 6

1.2.4  机器学习流程 7

1.3  深度学习 9

1.4  深度学习的应用场景 10

1.4.1  技术类型 10

1.4.2  应用场景 11

1.5  本章小结 12

1.6  复习题 12

参考文献 13

第2章  机器学习基础 14

2.1  基本概念 14

2.2  机器学习的三要素 15

2.2.1  模型 16

2.2.2  学习准则 17

2.2.3  优化算法 21

2.3  数据分析 23

2.3.1  描述性统计分析 23

2.3.2  相关分析 23

2.3.3  回归分析 25

2.3.4  分类分析 26

2.3.5  聚类分析 26

2.4  估计、偏差和方差 27

2.4.1  点估计 27

2.4.2  偏差 28

2.4.3  方差和标准差 30

2.5  最大似然估计 31

2.5.1  条件对数似然和均方误差 32

2.5.2  最大似然的性质 33

2.6  特征工程 34

2.6.1  数据预处理 34

2.6.2  特征选择 39

2.6.3  降维 44

2.7  本章小结 46

2.8  复习题 47

参考文献 47

第3章  神经网络基础 48

3.1  神经网络概述 48

3.1.1  神经网络简史 48

3.1.2  神经网络基础理论 49

3.2  线性神经网络 56

3.3  感知机 64

3.3.1  感知机模型 64

3.3.2  多层感知机 69

3.4  支持向量机 75

3.4.1  支持向量机的原理 75

3.4.2  线性支持向量机分类 81

3.4.3  非线性支持向量机分类 86

3.4.4  支持向量机回归 93

3.5  本章小结 96

3.6  复习题 96

参考文献 96

第4章  卷积神经网络和循环神经网络 98

4.1  卷积神经网络 98

4.1.1  卷积 100

4.1.2  卷积神经网络 102

4.1.3  几种典型的卷积神经网络 107

4.2  循环神经网络 117

4.2.1  循环神经网络的结构 118

4.2.2  循环神经网络的数学基础 119

4.2.3  循环神经网络的计算能力 120

4.2.4  长短期记忆网络 121

4.2.5  门控循环单元 125

4.2.6  双向循环神经网络 130

4.2.7  深度循环神经网络 132

4.2.8  循环神经网络图结构 133

4.3  本章小结 135

4.4  复习题 136

参考文献 136

第5章  正则化与深度学习优化 137

5.1  正则化 137

5.1.1  训练误差和泛化误差 137

5.1.2  数据集增强 138

5.1.3  提前终止 138

5.1.4  Dropout 139

5.2  网络优化 142

5.3  优化算法 143

5.3.1  小批量梯度下降 143

5.3.2  批量大小选择 144

5.3.3  学习率调整 144

5.4  深度学习中的正则化 154

5.4.1  L1和L2正则化 155

5.4.2  权重衰减 156

5.4.3  提前终止 156

5.4.4  Dropout 160

5.4.5  数据增强 165

5.4.6  对抗训练 165

5.5  本章小结 169

5.6  复习题 170

参考文献 170

第6章  深度学习用于计算机视觉 171

6.1  计算机视觉与深度学习概述 171

6.1.1  计算机视觉的任务 172

6.1.2  传统计算机视觉面临的挑战 175

6.1.3  深度学习在计算机视觉领域的研究发展 177

6.1.4  深度学习在计算机视觉领域的应用 178

6.2  计算机视觉应用基础 182

6.2.1  图像数据的基本操作 182

6.2.2  常用的卷积神经网络的搭建 186

6.3  应用案例:基于LeNet-5的手写数字识别 196

6.3.1  MNIST数据集简介 196

6.3.2  加载和预处理数据 197

6.3.3  创建LeNet-5模型 198

6.3.4  编译和训练模型 200

6.3.5  使用模型进行预测 202

6.3.6  主流程及完整代码 206

6.4  本章小结 206

6.5  复习题 206

参考文献 207

第7章  深度学习用于目标检测 208

7.1  目标检测的概念 208

7.2  Faster R-CNN 209

7.3  YOLO 214

7.4  SSD 218

7.5  应用案例:基于YOLO的目标检测 220

7.5.1  基于Darknet的YOLO实现目标检测 220

7.5.2  基于Keras-YOLO实现目标检测 222

7.6  本章小结 229

7.7  复习题 229

参考文献 229

第8章  深度学习用于文本分析 230

8.1  自然语言处理与文本分析 230

8.1.1  文本分析的常见任务 230

8.1.2  自然语言处理技术简介 232

8.2  应用案例:基于Encoder-Decoder模型的机器翻译 239

8.2.1  Encoder-Decoder模型介绍 239

8.2.2  训练数据准备 240

8.2.3  数据预处理 241

8.2.4  模型创建 243

8.2.5  模型训练 245

8.2.6  模型预测 246

8.2.7  主流程代码 247

8.3  本章小结 248

8.4  复习题 248

参考文献 249

第9章  深度强化学习的应用 250

9.1  什么是深度强化学习 250

9.2  强化学习的应用实例 251

9.3  强化学习的基本概念 252

9.4  强化学习的算法简介 254

9.4.1  算法分类 254

9.4.2  问题求解步骤 255

9.4.3  Q-Learning 256

9.4.4  DQN 256

9.5  应用案例:使用DQN算法学习玩CartPole游戏 257

9.5.1  CartPole游戏介绍 257

9.5.2  OpenAI Gym介绍 258

9.5.3  基于DQN的智能体实现 258

9.5.4  智能体强化训练 260

9.5.5  训练结果 262

9.6  本章小结 263

9.7  复习题 263

参考文献 263

第10章  TensorFlow模型的应用 264

10.1  TensorFlow简介 264

10.2  TensorFlow入门 265

10.2.1  TensorFlow的静态图模式 265

10.2.2  TensorFlow的Graph和Session 274

10.2.3  TensorFlow的动态图模式 277

10.2.4  TensorFlow的损失函数 279

10.2.5  TensorFlow的优化器 281

10.2.6  TensorFlow训练数据输入 284

10.3  应用案例:基于LeNet的手写数字识别 287

10.3.1  MNIST 数据集简介 287

10.3.2  LeNet的实现与讲解 288

10.3.3  FashionMNIST数据集 296

10.4  应用案例:图像多标签分类实例 297

10.4.1  使用TFRecord生成训练数据 297

10.4.2  构建多标签分类网络 298

10.4.3  多标签训练模型 300

10.5  本章小结 301

10.6  复习题 301

参考文献 302

第11章  Transformer模型的应用 303

11.1  模型 303

11.2  基于位置的前馈网络 304

11.3  残差连接和层归一化 305

11.4  编码器 306

11.5  解码器 307

11.6  应用案例:英语-法语机器翻译实例 310

11.7  本章小结 313

11.8  复习题 313

参考文献 313

附录A  线性代数 314

A.1  标量、向量、矩阵和张量 314

A.2  向量空间 316

A.3  范数 317

A.4  矩阵 318

A.4.1  线性映射 318

A.4.2  矩阵操作 319

A.4.3  矩阵类型 321

A.4.4  矩阵分解 322

附录B  概率论 323

B.1  概率论 323

B.2  事件和概率 323

B.2.1  随机变量 324

B.2.2  离散随机变量 324

B.2.3  连续随机变量 325

B.2.4  累积分布函数 326

B.2.5  随机向量 326

B.2.6  连续随机向量 327

B.2.7  边际分布 327

B.2.8  条件概率分布 328

B.2.9  贝叶斯定理 328

B.2.10  独立与条件独立 329

B.2.11  期望和方差 329

B.3  随机过程 330

B.3.1  马尔可夫过程 330

B.3.2  马尔可夫链 331

B.3.3  高斯过程 331

附录C  信息论 333

C.1  熵 333

C.1.1  自信息和熵 333

C.1.2  熵编码 334

C.1.3  联合熵和条件熵 334

C.2  互信息 334

C.3  交叉熵和散度 335

C.3.1  交叉熵 335

C.3.2  KL散度 335

C.3.3  JS散度 335

C.3.4  Wasserstein距离 336