图书目录

目  录

 

第1章  数据挖掘竞赛介绍 1

1.1  数据挖掘竞赛的发展 1

1.2  数据挖掘竞赛的意义 4

1.3 竞赛平台介绍 5

1.4  各种竞赛的特点 8

1.5  竞赛常用工具 9

第2章  结构化数据:理论篇 13

2.1  探索性数据分析 13

2.2  数据预处理 18

2.2.1  缺失值 18

2.2.2  异常值 20

2.2.3  内存优化 21

2.3  特征构造 23

2.3.1  时间特征 23

2.3.2  单变量特征 25

2.3.3  组合特征 27

2.3.4  降维/聚类特征 28

2.3.5  目标值相关特征 30

2.3.6  拼表特征 33

2.3.7  时序特征 39

2.4  特征筛选 41

2.4.1  冗余特征过滤 41

2.4.2  无效/低效特征过滤 42

2.4.3  过拟合特征过滤 45

2.5  模型 49

2.5.1  结构化数据常用模型 49

2.5.2  模型超参数优化 55

2.5.3  线下验证 58

2.6  集成学习 62

2.6.1  投票法 62

2.6.2  平均法 63

2.6.3  加权平均法 64

2.6.4  Stacking 66

2.6.5  Blending 67

第3章  结构化数据:实战篇 70

3.1  赛题概览 70

3.2  数据探索 71

3.2.1  标签分布 71

3.2.2  缺失值 72

3.2.3  异常值 73

3.2.4  相关性 73

3.3  优秀方案解读 74

3.3.1  特征工程 75

3.3.2  模型 77

3.3.3  集成学习 80

第4章  自然语言处理:理论篇 82

4.1  探索性数据分析 84

4.1.1  文本词数统计 84

4.1.2  高频词统计 85

4.2  数据预处理 86

4.3  数据增强 88

4.3.1  同义词替换 88

4.3.2  回译 89

4.3.3  文本生成 89

4.3.4  元伪标签 90

4.4  模型 91

4.4.1  NLP竞赛的万金油—BERT 91

4.4.2  常用模型backbone及其特点 93

4.4.3  设计BERT类模型的输入 95

4.4.4  设计BERT类模型的neck 98

4.4.5 设计BERT类模型的输出 100

4.5  模型集成 103

4.6  训练技巧 103

4.6.1  动态验证 104

4.6.2  分层学习率 106

4.6.3  对抗训练 108

4.6.4  使用特殊词处理复杂信息 111

4.6.5  任务内掩码语言建模 113

4.6.6  多样本dropout 114

4.6.7  模型权重初始化 116

4.6.8  动态填充 117

4.6.9  根据文本词数顺序推理 118

4.6.10  梯度检查点 119

4.6.11  拓展模型输入长度限制 120

第5章  自然语言处理:实战篇 121

5.1  赛题背景 121

5.2  数据介绍 122

5.3  评价指标 123

5.4  冠军方案 124

5.4.1 解码网络 125

5.4.2  特征抽取网络 127

5.4.3  掩码预训练 127

5.4.4  训练技巧 128

5.4.5  模型集成 131

第6章  计算机视觉(图像):理论篇 134

6.1  通用流程 135

6.1.1  数据预处理 135

6.1.2  数据增强 136

6.1.3  预训练 141

6.1.4  模型 142

6.1.5  损失函数 143

6.1.6  集成学习 143

6.1.7  通用技巧 143

6.2  分类任务 147

6.2.1  任务介绍及常用模型 147

6.2.2  损失函数 148

6.2.3  常用技巧 149

6.3  分割任务 150

6.3.1  任务介绍及常用模型 150

6.3.2  损失函数 151

6.3.3  常用技巧 152

6.4  检测任务 154

6.4.1  任务介绍及常用模型 154

6.4.2  损失函数 155

6.4.3  常用技巧 161

第7章  计算机视觉(图像):实战篇 165

7.1  竞赛介绍 165

7.2  数据探索 166

7.2.1  数据基本情况 167

7.2.2  类型分布 167

7.2.3  图像分布 168

7.2.4  标注分布 170

7.3  优秀方案解读 170

7.3.1  检测部分 171

7.3.2  分割部分 175

7.4  更多方案 180

第8章  计算机视觉(视频):理论篇 182

8.1  视频数据与图像数据的区别 182

8.2  常用模型 185

8.3  预训练数据集 188

8.4  任务介绍 189

第9章  计算机视觉(视频):实战篇 192

9.1  赛题背景 192

9.2  数据介绍和评价指标 192

9.3  冠军方案 193

第10章  强化学习:理论篇 200

10.1  智能体设计 201

10.1.1  观测输入设计 201

10.1.2  收益设计 204

10.1.3  动作设计 205

10.2  模型设计 206

10.3 算法设计 207

10.3.1  强化学习算法 207

10.3.2  超参数调节 208

10.3.3  训练技巧 210

10.3.4  算法性能评估 211

第11章  强化学习:实战篇 212

11.1  赛题任务 212

11.2  环境介绍 213

11.3  评价指标 213

11.4  冠军方案 214