图书目录

第1章  数据挖掘的概念 1

1.1  概述 1

1.2  数据挖掘的起源 3

1.3  数据挖掘过程 5

1.4  从数据收集到数据预处理 8

1.5  用于数据挖掘的数据仓库 11

1.6  从大数据到数据科学 14

1.7  数据挖掘的商业方面:为什

么数据挖掘项目会失败 17

1.8  本书结构安排 20

1.9  复习题 22

第2章  数据准备 25

2.1  原始数据的表述 25

2.2  原始数据的特性 29

2.3  原始数据的转换 30

2.3.1  标准化 30

2.3.2  数据平整 31

2.3.3  差值和比率 32

2.4  丢失数据 32

2.5  时间相关数据 34

2.6  异常点分析 37

2.7  复习题 43

第3章  数据归约 47

3.1  大型数据集的维度 47

3.2  特征归约 49

3.2.1  特征选择 51

3.2.2  特征提取 55

3.3  Relief算法 57

3.4  特征排列的熵度量 59

3.5  主成分分析 61

3.6  值归约 63

3.7  特征离散化:ChiMerge

技术 66

3.8  案例归约 69

3.9  复习题 71

第4章  从数据中学习 75

4.1  学习机器 76

4.2  统计学习原理 80

4.3  学习方法的类型 84

4.4  常见的学习任务 86

4.5  支持向量机 89

4.6  半监督支持向量机

(S3VM) 100

4.7  k最近邻分类器 103

4.8  模型选择与泛化 106

4.9  模型的评估 109

4.10  不均衡的数据分类 115

4.11  90%准确的情形 118

 4.11.1  保险欺诈检测 118

 4.11.2  改进心脏护理 120

4.12  复习题 121

第5章  统计方法 125

5.1  统计推断 125

5.2  评测数据集的差异 127

5.3  贝叶斯定理 130

5.4  预测回归 132

5.5  方差分析 136

5.6  对数回归 138

5.7  对数-线性模型 139

5.8  线性判别分析 143

5.9  复习题 144

第6章  决策树和决策规则 149

6.1  决策树 150

6.2  C4.5算法:生成决策树 152

6.3  未知的属性值 158

6.4  修剪决策树 161

6.5  C4.5算法:生成决策

规则 163

6.6  CART算法和Gini

指标 165

6.7  决策树和决策规则的

局限性 168

6.8  复习题 170

第7章  人工神经网络 175

7.1  人工神经元的模型 177

7.2  人工神经网络的结构 179

7.3  学习过程 181

7.4  使用ANN完成的学习

任务 184

7.4.1  模式联想 184

7.4.2  模式识别 185

7.4.3  函数近似 185

7.4.4  控制 185

7.4.5  过滤 186

7.4.6  预测 186

7.5  多层感知机 187

7.6  竞争网络和竞争学习 193

7.7  SOM 196

7.8  深度学习 201

7.9  卷积神经网络 205

7.10  复习题 207

第8章  集成学习 211

8.1  集成学习方法论 212

8.2  多学习器组合方案 216

8.3  bagging和boosting 217

8.4  AdaBoost算法 218

8.5  复习题 220

第9章  聚类分析 223

9.1  聚类的概念 223

9.2  相似度的度量 226

9.3  凝聚层次聚类 231

9.4  分区聚类 234

9.5  增量聚类 237

9.6  DBSCAN算法 239

9.7  BIRCH算法 241

9.8  聚类验证 244

9.9  复习题 247

第10章  关联规则 253

10.1  购物篮分析 254

10.2  Apriori算法 255

10.3  从频繁项集中得到关联

规则 257

10.4  提高Apriori算法的

效率 258

10.5  FP增长方法 260

10.6  关联分类方法 262

10.7  多维关联规则挖掘 264

10.8  复习题 265

第11章  Web挖掘和文本挖掘 271

11.1  Web挖掘 271

11.2  Web内容、结构与使用

挖掘 273

11.3  HITS和LOGSOM

算法 275

11.4  挖掘路径遍历模式 280

11.5  PageRank算法 282

11.6  推荐系统 284

11.7  文本挖掘 285

11.8  潜在语义分析 289

11.9  复习题 293

第12章  数据挖掘高级技术 297

12.1  图挖掘 297

12.2  时态数据挖掘 309

 12.2.1  时态数据表示 311

 12.2.2  序列之间的相似性

       ?度量 315

 12.2.3  时态数据模型 316

 12.2.4  挖掘序列 318

12.3  空间数据挖掘(SDM) 321

12.4  分布式数据挖掘(DDM) 325

12.5  关联并不意味着存在因果

     ?关系 331

12.6  数据挖掘的隐私、安全及

法律问题 336

12.7  基于Hadoop和Map/Reduce

的云计算 341

12.8  强化学习 345

12.9  复习题 349

第13章  遗传算法 353

13.1  遗传算法的基本原理 354

13.2  用遗传算法进行优化 355

 13.2.1  编码方案和初始化 356

 13.2.2  适合度估计 357

 13.2.3  选择 357

 13.2.4  交叉 358

 13.2.5  突变 359

13.3  遗传算法的简单例证 360

 13.3.1  表述 360

 13.3.2  初始群体 361

 13.3.3  评价 361

 13.3.4  交替 362

 13.3.5  遗传算子 362

 13.3.6  评价(第二次迭代) 363

13.4  图式 364

13.5  旅行推销员问题 366

13.6  使用遗传算法的机器

学习 368

 13.6.1  规则交换 371

 13.6.2  规则概化 371

 13.6.3  规则特化 371

 13.6.4  规则分割 371

13.7  遗传算法用于聚类 372

13.8  复习题 374

第14章  模糊集和模糊逻辑 375

14.1  模糊集 375

14.2  模糊集的运算 380

14.3  扩展原理和模糊关系 384

14.4  模糊逻辑和模糊推理

系统 387

14.5  多因子评价 391

 14.5.1  选择布料的问题 391

 14.5.2  教学评估的问题 392

14.6  从数据中提取模糊

模型 393

14.7  数据挖掘和模糊集 397

14.8  复习题 399

第15章  可视化方法 401

15.1  感知和可视化 401

15.2  科学可视化和信息

可视化 402

15.3  平行坐标 408

15.4  放射性可视化 410

15.5  使用自组织映射进行

可视化 412

15.6  数据挖掘的可视化

系统 413

15.7  复习题 417

附录A  数据挖掘工具 419

A.1  数据挖掘期刊 419

A.2  数据挖掘会议 423

A.3  数据挖掘论坛/博客 426

A.4  数据集 428

A.4.1  分类 428

A.4.2  聚类 429

A.4.3  回归 430

A.4.4  Web挖掘 430

A.4.5  文本挖掘 430

A.4.6  时间序列 431

A.4.7  关联规则挖掘的

     数据 431

A.5  商业与公共可用工具 431

A.5.1  免费软件 431

A.5.2  具有试用版本的商业

     软件 433

A.5.3  没有试用版本的商业

     软件 436

A.6  Web站点链接 439

A.6.1  一般Web站点 439

A.6.2  关于数据挖掘的软件

     工具的Web站点 439

A.6.3  数据挖掘供应商 441

附录B  数据挖掘应用 447

B.1  财务数据分析的数据

挖掘 447

B.2  电信业的数据挖掘 450

B.3  零售业的数据挖掘 452

B.4  卫生保健业和生物医学

研究中的数据挖掘 455

B.5  科学和工程中的数据

挖掘 457

B.6  数据挖掘的缺陷 460