图书目录

目    录

 

第1章  数据挖掘简介   1

1.1  数据爆炸   1

1.2  知识发现   2

1.3  数据挖掘的应用   3

1.4  标签数据和无标签数据   4

1.5  监督学习:分类   4

1.6  监督学习:数值预测   6

1.7  无监督学习:关联规则   6

1.8  无监督学习:聚类   7

第2章  用于挖掘的数据   9

2.1  标准制定   9

2.2  变量的类型   10

2.3  数据准备   11

2.4  缺失值   13

2.4.1  丢弃实例   14

2.4.2  用最频繁值/平均值替换   14

2.5  减少属性个数   14

2.6  数据集的UCI存储库   15

2.7  本章小结   16

2.8  自我评估练习   16

第3章  分类简介:朴素贝叶斯和最近邻算法   17

3.1  什么是分类   17

3.2  朴素贝叶斯分类器   18

3.3  最近邻分类   24

3.3.1  距离测量   26

3.3.2  标准化   28

3.3.3  处理分类属性   29

3.4  急切式和懒惰式学习   30

3.5  本章小结   30

3.6  自我评估练习   30

第4章  使用决策树进行分类   33

4.1  决策规则和决策树   33

4.1.1  决策树:高尔夫示例   33

4.1.2  术语   35

4.1.3  degrees数据集   35

4.2  TDIDT算法   38

4.3  推理的类型   40

4.4  本章小结   41

4.5  自我评估练习   41

第5章  决策树归纳:使用熵进行属性选择   43

5.1  属性选择:一个实验   43

5.2  替代决策树   44

5.2.1  足球/无板篮球示例   44

5.2.2  匿名数据集   46

5.3  选择要分裂的属性:使用熵   48

5.3.1  lens24数据集   48

5.3.2  熵   49

5.3.3  使用熵进行属性选择   50

5.3.4  信息增益最大化   52

5.4  本章小结   53

5.5  自我评估练习   53

第6章  决策树归纳:使用频率表进行属性选择   55

6.1  实践中的熵计算   55

6.1.1  等效性证明   57

6.1.2  关于零值的说明   58

6.2  其他属性选择标准:多样性基尼指数   58

6.3  χ2属性选择准则   59

6.4  归纳偏好   62

6.5  使用增益比进行属性选择   63

6.5.1  分裂信息的属性   64

6.5.2  总结   65

6.6  不同属性选择标准生成的规则数   65

6.7  缺失分支   66

6.8  本章小结   67

6.9  自我评估练习   67

第7章  估计分类器的预测精度   69

7.1  简介   69

7.2  方法1:将数据划分为训练集和测试集   70

7.2.1  标准误差   70

7.2.2  重复训练和测试   71

7.3  方法2:k折交叉验证   72

7.4  方法3:N折交叉验证   72

7.5  实验结果I   73

7.6  实验结果II:包含缺失值的数据集   75

7.6.1  策略1:丢弃实例   75

7.6.2  策略2:用最频繁值/平均值替换   76

7.6.3  类别缺失   77

7.7  混淆矩阵   77

7.8  本章小结   79

7.9  自我评估练习   79

第8章  连续属性   81

8.1  简介   81

8.2  局部与全局离散化   83

8.3  向TDIDT添加局部离散化   83

8.3.1  计算一组伪属性的信息增益   84

8.3.2  计算效率   88

8.4  使用ChiMerge算法进行全局离散化   90

8.4.1  计算期望值和χ2   92

8.4.2  查找阈值   96

8.4.3  设置minIntervals和maxIntervals   97

8.4.4  ChiMerge算法:总结   98

8.4.5  对ChiMerge算法的评述   98

8.5  比较树归纳法的全局离散化和局部离散化   99

8.6  本章小结   100

8.7  自我评估练习   100

第9章  避免决策树的过度拟合   101

9.1  处理训练集中的冲突   101

9.2  关于过度拟合数据的更多规则   105

9.3  预剪枝决策树   106

9.4  后剪枝决策树   108

9.5  本章小结   113

9.6  自我评估练习   113

第10章  关于熵的更多信息   115

10.1  简介   115

10.2  使用位的编码信息   118

10.3  区分M个值(M不是2的幂)   119

10.4  对“非等可能”的值进行编码   121

10.5  训练集的熵   123

10.6  信息增益必须为正数或0   124

10.7  使用信息增益简化分类任务的特征   125

10.7.1  示例1:genetics数据集   126

10.7.2  示例2:bcst96数据集   128

10.8  本章小结   130

10.9  自我评估练习   130

第11章  归纳分类的模块化规则   131

11.1  规则后剪枝   131

11.2  冲突解决   132

11.3  决策树的问题   135

11.4  Prism算法   137

11.4.1  基本Prism算法的变化   143

11.4.2  将Prism算法与TDIDT算法进行比较   144

11.5  本章小结   145

11.6  自我评估练习   145

第12章  度量分类器的性能   147

12.1  真假正例和真假负例   148

12.2  性能度量   149

12.3  真假正例率与预测精度   152

12.4  ROC图   153

12.5  ROC曲线   155

12.6  寻找最佳分类器   155

12.7  本章小结   157

12.8  自我评估练习   157

第13章  处理大量数据   159

13.1  简介   159

13.2  将数据分发到多个处理器   161

13.3  案例研究:PMCRI   163

13.4  评估分布式系统PMCRI的有效性   165

13.5  逐步修改分类器   169

13.6  本章小结   173

13.7  自我评估练习   173

第14章  集成分类   175

14.1  简介   175

14.2  估计分类器的性能   177

14.3  为每个分类器选择不同的训练集   178

14.4  为每个分类器选择一组不同的属性   179

14.5  组合分类:替代投票系统   179

14.6  并行集成分类器   183

14.7  本章小结   183

14.8  自我评估练习   183

第15章  比较分类器   185

15.1  简介   185

15.2  配对t检验   186

15.3  为比较评估选择数据集   191

15.4  抽样   193

15.5  “无显著差异”的结果有多糟糕   195

15.6  本章小结   196

15.7  自我评估练习   196

第16章  关联规则挖掘I   199

16.1  简介   199

16.2  规则兴趣度的衡量标准   200

16.2.1  Piatetsky-Shapiro标准和RI度量   202

16.2.2  规则兴趣度度量应用于chess数据集   204

16.2.3  使用规则兴趣度度量解决冲突   206

16.3  关联规则挖掘任务   206

16.4  找到最佳N条规则   207

16.4.1  J-Measure:度量规则的信息内容   207

16.4.2  搜索策略   209

16.5  本章小结   211

16.6  自我评估练习   211

第17章  关联规则挖掘II   213

17.1  简介   213

17.2  事务和项目集   213

17.3  对项目集的支持   215

17.4  关联规则   215

17.5  生成关联规则   217

17.6  Apriori   218

17.7  生成支持的项目集:一个示例   221

17.8  为支持项目集生成规则   223

17.9  规则兴趣度度量:提升度和杠杆率   224

17.10  本章小结   226

17.11  自我评估练习   227

第18章  关联规则挖掘III:频繁模式树   229

18.1  简介:FP-growth   229

18.2  构造FP-tree   231

18.2.1  预处理事务数据库   231

18.2.2  初始化   233

18.2.3  处理事务1:f, c, a, m, p   234

18.2.4  处理事务2:f, c, a, b, m   235

18.2.5  处理事务3:f, b   239

18.2.6  处理事务4:c, b, p   240

18.2.7  处理事务5:f, c, a,m, p   240

18.3  从FP-tree中查找频繁项目集   242

18.3.1  以项目p结尾的项目集   244

18.3.2  以项目m结尾的项目集   252

18.4  本章小结   258

18.5  自我评估练习   258

第19章  聚类   259

19.1  简介   259

19.2  k-means聚类   261

19.2.1  示例   262

19.2.2  找到最佳簇集   266

19.3  凝聚式层次聚类   267

19.3.1  记录簇间距离   269

19.3.2  终止聚类过程   272

19.4  本章小结   272

19.5  自我评估练习   272

第20章  文本挖掘   273

20.1  多重分类   273

20.2  表示数据挖掘的文本文档   274

20.3  停用词和词干   275

20.4  使用信息增益减少特征   276

20.5  表示文本文档:构建向量空间模型   276

20.6  规范权重   277

20.7  测量两个向量之间的距离   278

20.8  度量文本分类器的性能   279

20.9  超文本分类   280

20.9.1  对网页进行分类   280

20.9.2  超文本分类与文本

分类   281

20.10  本章小结   284

20.11  自我评估练习   284

第21章  分类流数据   285

21.1  简介   285

21.2  构建H-Tree:更新数组   287

21.2.1  currentAtts数组   287

21.2.2  splitAtt数组   288

21.2.3  将记录排序到适当的叶节点   288

21.2.4  hitcount数组   289

21.2.5  classtotals数组   289

21.2.6  acvCounts阵列   289

21.2.7  branch数组   290

21.3  构建H-Tree:详细示例   291

21.3.1  步骤1:初始化根节点0   291

21.3.2  步骤2:开始读取记录   291

21.3.3  步骤3:考虑在节点0处分裂   292

21.3.4  步骤4:在根节点上拆分并初始化新的叶节点   293

21.3.5  步骤5:处理下一组记录   295

21.3.6  步骤6:考虑在节点2处分裂   296

21.3.7  步骤7:处理下一组记录   296

21.3.8  H-Tree算法概述   297

21.4  分裂属性:使用信息增益   299

21.5  分裂属性:使用Hoeffding边界   301

21.6  H-Tree算法:最终版本   304

21.7  使用不断进化的H-Tree进行预测   306

21.8  实验:H-Tree与TDIDT   308

21.8.1  lens24数据集   308

21.8.2  vote数据集   310

21.9  本章小结   311

21.10  自我评估练习   311

第22章  分类流数据II:时间相关数据   313

22.1  平稳数据与时间相关数据   313

22.2  H-Tree算法总结   315

22.2.1  currentAtts数组   316

22.2.2  splitAtt数组   316

22.2.3  hitcount数组   316

22.2.4  classtotals数组   316

22.2.5  acvCounts数组   317

22.2.6  branch数组   317

22.2.7  H-Tree算法的伪代码   317

22.3  从H-Tree到CDH-Tree:概述   319

22.4  从H-Tree转换到CDH-Tree:递增计数   319

22.5  滑动窗口方法   320

22.6  在节点处重新分裂   324

22.7  识别可疑节点   324

22.8  创建备用节点   326

22.9  成长/遗忘备用节点及其后代   329

22.10  用备用节点替换一个内部节点   331

22.11  实验:跟踪概念漂移   337

22.11.1  lens24数据:替代

22.11.2  引入概念漂移   339

22.11.3  使用交替lens24数据的实验   340

22.11.4  关于实验的评论   347

22.12  本章小结   347

22.13  自我评估练习   347

第23章  神经网络概论   349

23.1  简介   349

23.2  神经网络示例1   351

23.3  神经网络示例2   354

23.3.1  前向传播输入节点的值   356

23.3.2  前向传播:公式汇总   361

23.4  反向传播   361

23.4.1  随机梯度下降   362

23.4.2  求梯度   363

23.4.3  从输出层倒推到隐藏层   365

23.4.4  从隐藏层倒推到输入层   367

23.4.5  更新权值   370

23.5  处理多实例训练集   372

23.6  使用神经网络进行分类:iris数据集   372

23.7  使用神经网络进行分类:seeds数据集   376

23.8  神经网络:注意事项   379

23.9  本章小结   380

23.10  自我评估练习   380

附录A  基本数学知识   381

附录B  数据集   395

附录C  更多信息来源   411

附录D  词汇表和符号   413

附录E  自我评估练习题答案   433