图书目录

目    录

 

第 1 章  数据挖掘简介   1

1.1  数据爆炸   1

1.2  知识发现   2

1.3  数据挖掘的应用   3

1.4  标签和无标签数据   4

1.5  监督学习:分类   4

1.6  监督学习:数值预测   5

1.7  无监督学习:关联规则   6

1.8  无监督学习:聚类   7

第 2 章  用于挖掘的数据   9

2.1  标准制定   9

2.2  变量的类型   10

2.3  数据准备   11

2.4  缺失值   13

2.4.1  丢弃实例   13

2.4.2  用最频繁值/平均值替换   13

2.5  减少属性个数   14

2.6  数据集的UCI存储库   15

2.7  本章小结   15

2.8  自我评估练习   15

第 3 章  分类简介:朴素贝叶斯和最近邻算法   17

3.1  什么是分类   17

3.2  朴素贝叶斯分类器   18

3.3  最近邻分类   24

3.3.1  距离测量   26

3.3.2  标准化   28

3.3.3  处理分类属性   29

3.4  急切式和懒惰式学习   30

3.5  本章小结   30

3.6  自我评估练习   30

第 4 章  使用决策树进行分类   31

4.1  决策规则和决策树   31

4.1.1  决策树:高尔夫示例   31

4.1.2  术语   33

4.1.3  degrees数据集   33

4.2  TDIDT算法   36

4.3  推理类型   38

4.4  本章小结   38

4.5  自我评估练习   39

第 5 章  决策树归纳:使用熵进行属性选择   41

5.1  属性选择:一个实验   41

5.2  替代决策树   42

5.2.1  足球/无板篮球示例   42

5.2.2  匿名数据集   44

5.3  选择要分裂的属性:使用熵   46

5.3.1  lens24数据集   46

5.3.2  熵   47

5.3.3  使用熵进行属性选择   48

5.3.4  信息增益最大化   50

5.4  本章小结   51

5.5  自我评估练习   51

第 6 章  决策树归纳:使用频率表进行属性选择   53

6.1  实践中的熵计算   53

6.1.1  等效性证明   55

6.1.2  关于零值的说明   56

6.2  其他属性选择标准:多样性基尼指数   56

6.3  χ2属性选择准则   57

6.4  归纳偏好   60

6.5  使用增益比进行属性选择   61

6.5.1  分裂信息的属性   62

6.5.2  总结   63

6.6  不同属性选择标准生成的规则数   63

6.7  缺失分支   64

6.8  本章小结   65

6.9  自我评估练习   65

第 7 章  估计分类器的预测精度   67

7.1  简介   67

7.2  方法1:将数据划分为训练集和测试集   68

7.2.1  标准误差   68

7.2.2  重复训练和测试   69

7.3  方法2:k-折交叉验证   70

7.4  方法3:N -折交叉验证   70

7.5  实验结果I   71

7.6  实验结果II:包含缺失值的数据集   73

7.6.1  策略1:丢弃实例   73

7.6.2  策略2:用最频繁值/平均值替换   74

7.6.3  类别缺失   75

7.7  混淆矩阵   75

7.8  本章小结   77

7.9  自我评估练习   77

第 8 章  连续属性   79

8.1  简介   79

8.2  局部与全局离散化   81

8.3  向TDIDT添加局部离散化   81

8.3.1  计算一组伪属性的信息增益   82

8.3.2  计算效率   86

8.4  使用ChiMerge算法进行全局离散化   88

8.4.1  计算期望值和χ2   90

8.4.2  查找阈值   94

8.4.3  设置minIntervals和maxIntervals   95

8.4.4  ChiMerge算法:总结   96

8.4.5  对ChiMerge算法的评述   96

8.5  比较树归纳法的全局离散化和局部离散化   97

8.6  本章小结   98

8.7  自我评估练习   98

第 9 章  避免决策树的过度拟合   99

9.1  处理训练集中的冲突   99

9.2  关于过度拟合数据的更多规则   103

9.3  预剪枝决策树   104

9.4  后剪枝决策树   106

9.5  本章小结   111

9.6  自我评估练习   111

第 10 章  关于熵的更多信息   113

10.1  简介   113

10.2  使用位的编码信息   116

10.3  区分值   117

10.4  对“非等可能”的值进行编码   118

10.5  训练集的熵   121

10.6  信息增益必须为正数或零   122

10.7  使用信息增益来简化分类任务的特征   123

10.7.1  示例1:genetics数据集   124

10.7.2  示例2:bcst96数据集   126

10.8  本章小结   128

10.9  自我评估练习   128

第 11 章  归纳分类的模块化规则   129

11.1  规则后剪枝   129

11.2  冲突解决   130

11.3  决策树的问题   133

11.4  Prism算法   135

11.4.1  基本Prism算法的变化   141

11.4.2  将Prism算法与TDIDT算法进行比较   142

11.5  本章小结   143

11.6  自我评估练习   143

第 12 章  度量分类器的性能   145

12.1  真假正例和真假负例   146

12.2  性能度量   147

12.3  真假正例率与预测精度   150

12.4  ROC图   151

12.5  ROC曲线   153

12.6  寻找最佳分类器   153

12.7  本章小结   155

12.8  自我评估练习   155

第 13 章  处理大量数据   157

13.1  简介   157

13.2  将数据分发到多个处理器   159

13.3  案例研究:PMCRI   161

13.4  评估分布式系统PMCRI的有效性   163

13.5  逐步修改分类器   167

13.6  本章小结   171

13.7  自我评估练习   171

第 14 章  集成分类   173

14.1  简介   173

14.2  估计分类器的性能   175

14.3  为每个分类器选择不同的训练集   176

14.4  为每个分类器选择一组不同的属性   177

14.5  组合分类:替代投票系统   177

14.6  并行集成分类器   180

14.7  本章小结   181

14.8  自我评估练习   181

第 15 章  比较分类器   183

15.1  简介   183

15.2  配对t检验   184

15.3  为比较评估选择数据集   189

15.4  抽样   191

15.5  “无显著差异”的结果有多糟糕?   193

15.6  本章小结   194

15.7  自我评估练习   194

第 16 章  关联规则挖掘I   195

16.1  简介   195

16.2  规则兴趣度的衡量标准   196

16.2.1  Piatetsky-Shapiro标准和RI度量   198

16.2.2  规则兴趣度度量应用于chess数据集   200

16.2.3  使用规则兴趣度度量来解决冲突   201

16.3  关联规则挖掘任务   202

16.4  找到最佳N条规则   202

16.4.1  J-Measure:度量规则的信息内容   203

16.4.2  搜索策略   204

16.5  本章小结   207

16.6  自我评估练习   207

第 17 章  关联规则挖掘II   209

17.1  简介   209

17.2  事务和项目集   209

17.3  对项目集的支持   211

17.4  关联规则   211

17.5  生成关联规则   213

17.6  Apriori   214

17.7  生成支持项目集:一个示例   217

17.8  为支持项目集生成规则   219

17.9  规则兴趣度度量:提升度和杠杆率   220

17.10  本章小结   222

17.11  自我评估练习   222

第 18 章  关联规则挖掘III:频繁模式树   225

18.1  简介:FP-growth   225

18.2  构造FP-tree   227

18.2.1  预处理事务数据库   227

18.2.2  初始化   229

18.2.3  处理事务1:f, c, a, m, p   230

18.2.4  处理事务2:f, c, a, b, m   231

18.2.5  处理事务3:f, b   235

18.2.6  处理事务4:c, b, p   236

18.2.7  处理事务5:f, c, a, m, p   236

18.3  从FP-tree中查找频繁项目集   238

18.3.1  以项目p结尾的项目集   240

18.3.2  以项目m结尾的项目集   248

18.4  本章小结   254

18.5  自我评估练习   254

第 19 章  聚类   255

19.1  简介   255

19.2  k-means聚类   257

19.2.1  示例   258

19.2.2  找到最佳簇集   262

19.3  凝聚式层次聚类   263

19.3.1  记录簇间距离   265

19.3.2  终止聚类过程   268

19.4  本章小结   268

19.5  自我评估练习   268

第 20 章  文本挖掘   269

20.1  多重分类   269

20.2  表示数据挖掘的文本文档   270

20.3  停用词和词干   271

20.4  使用信息增益来减少特征   272

20.5  表示文本文档:构建向量空间模型   272

20.6  规范权重   273

20.7  测量两个向量之间的距离   274

20.8  度量文本分类器的性能   275

20.9  超文本分类   275

20.9.1  对网页进行分类   276

20.9.2  超文本分类与文本分类   277

20.10  本章小结   279

20.11  自我评估练习   280

第 21 章  分类流数据   281

21.1  简介   281

21.2  构建H-Tree:更新数组   283

21.2.1  currentAtts数组   284

21.2.2  splitAtt数组   284

21.2.3  将记录排序到适当的叶节点   284

21.2.4  hitcount数组   285

21.2.5  classtotals数组   285

21.2.6  acvCounts阵列   285

21.2.7  branch数组   286

21.3  构建H-Tree:详细示例   287

21.3.1  步骤1:初始化根节点0   287

21.3.2  步骤2:开始读取记录   287

21.3.3  步骤3:考虑在节点0处分裂   288

21.3.4  步骤4:在根节点上拆分并初始化新的叶节点   289

21.3.5  步骤5:处理下一组记录   290

21.3.6  步骤6:考虑在节点2处分裂   292

21.3.7  步骤7:处理下一组记录   292

21.3.8  H-Tree算法概述   293

21.4  分裂属性:使用信息增益   295

21.5  分裂属性:使用Hoeffding边界   297

21.6  H-Tree算法:最终版本   300

21.7  使用不断进化的H-Tree进行预测   302

21.8  实验:H-Tree与TDIDT   304

21.8.1  lens24数据集   304

21.8.2  vote数据集   306

21.9  本章小结   307

21.10  自我评估练习   307

第 22 章  分类流数据II:时间相关数据   309

22.1  平稳数据与时间相关数据   309

22.2  H-Tree算法总结   311

22.2.1  currentAtts数组   312

22.2.2  splitAtt数组   312

22.2.3  hitcount数组   312

22.2.4  classtotals数组   312

22.2.5  acvCounts数组   313

22.2.6  branch数组   313

22.2.7  H-Tree算法的伪代码   313

22.3  从H-Tree到CDH-Tree:概述   315

22.4  从H-Tree转换到CDH-Tree:递增计数   315

22.5  滑动窗口法   316

22.6  在节点处重新分裂   320

22.7  识别可疑节点   320

22.8  创建备用节点   322

22.9  成长/遗忘备用节点及其后代   325

22.10  用备用节点替换一个内部节点   327

22.11  实验:跟踪概念漂移   333

22.11.1  lens24数据:替代模式   335

22.11.2  引入概念漂移   335

22.11.3  使用交替lens24数据的实验   336

22.11.4  关于实验的评论   343

22.12  本章小结   343

22.13  自我评估练习   343

附录 A  基本数学知识   345

附录 B  数据集   357

附录 C  更多信息来源   371

附录 D  词汇表和符号   373

附录 E  自我评估练习题答案   391

参考文献   419