第1章 数据挖掘的概念 1
1.1 概述 1
1.2 数据挖掘的起源 3
1.3 数据挖掘过程 5
1.4 从数据收集到数据预处理 8
1.5 用于数据挖掘的数据仓库 11
1.6 从大数据到数据科学 14
1.7 数据挖掘的商业方面:为什
么数据挖掘项目会失败 17
1.8 本书结构安排 20
1.9 复习题 22
第2章 数据准备 25
2.1 原始数据的表述 25
2.2 原始数据的特性 29
2.3 原始数据的转换 30
2.3.1 标准化 30
2.3.2 数据平整 31
2.3.3 差值和比率 32
2.4 丢失数据 32
2.5 时间相关数据 34
2.6 异常点分析 37
2.7 复习题 43
第3章 数据归约 47
3.1 大型数据集的维度 47
3.2 特征归约 49
3.2.1 特征选择 51
3.2.2 特征提取 55
3.3 Relief算法 57
3.4 特征排列的熵度量 59
3.5 主成分分析 61
3.6 值归约 63
3.7 特征离散化:ChiMerge
技术 66
3.8 案例归约 69
3.9 复习题 71
第4章 从数据中学习 75
4.1 学习机器 76
4.2 统计学习原理 80
4.3 学习方法的类型 84
4.4 常见的学习任务 86
4.5 支持向量机 89
4.6 半监督支持向量机
(S3VM) 100
4.7 k最近邻分类器 103
4.8 模型选择与泛化 106
4.9 模型的评估 109
4.10 不均衡的数据分类 115
4.11 90%准确的情形 118
4.11.1 保险欺诈检测 118
4.11.2 改进心脏护理 120
4.12 复习题 121
第5章 统计方法 125
5.1 统计推断 125
5.2 评测数据集的差异 127
5.3 贝叶斯定理 130
5.4 预测回归 132
5.5 方差分析 136
5.6 对数回归 138
5.7 对数-线性模型 139
5.8 线性判别分析 143
5.9 复习题 144
第6章 决策树和决策规则 149
6.1 决策树 150
6.2 C4.5算法:生成决策树 152
6.3 未知的属性值 158
6.4 修剪决策树 161
6.5 C4.5算法:生成决策
规则 163
6.6 CART算法和Gini
指标 165
6.7 决策树和决策规则的
局限性 168
6.8 复习题 170
第7章 人工神经网络 175
7.1 人工神经元的模型 177
7.2 人工神经网络的结构 179
7.3 学习过程 181
7.4 使用ANN完成的学习
任务 184
7.4.1 模式联想 184
7.4.2 模式识别 185
7.4.3 函数近似 185
7.4.4 控制 185
7.4.5 过滤 186
7.4.6 预测 186
7.5 多层感知机 187
7.6 竞争网络和竞争学习 193
7.7 SOM 196
7.8 深度学习 201
7.9 卷积神经网络 205
7.10 复习题 207
第8章 集成学习 211
8.1 集成学习方法论 212
8.2 多学习器组合方案 216
8.3 bagging和boosting 217
8.4 AdaBoost算法 218
8.5 复习题 220
第9章 聚类分析 223
9.1 聚类的概念 223
9.2 相似度的度量 226
9.3 凝聚层次聚类 231
9.4 分区聚类 234
9.5 增量聚类 237
9.6 DBSCAN算法 239
9.7 BIRCH算法 241
9.8 聚类验证 244
9.9 复习题 247
第10章 关联规则 253
10.1 购物篮分析 254
10.2 Apriori算法 255
10.3 从频繁项集中得到关联
规则 257
10.4 提高Apriori算法的
效率 258
10.5 FP增长方法 260
10.6 关联分类方法 262
10.7 多维关联规则挖掘 264
10.8 复习题 265
第11章 Web挖掘和文本挖掘 271
11.1 Web挖掘 271
11.2 Web内容、结构与使用
挖掘 273
11.3 HITS和LOGSOM
算法 275
11.4 挖掘路径遍历模式 280
11.5 PageRank算法 282
11.6 推荐系统 284
11.7 文本挖掘 285
11.8 潜在语义分析 289
11.9 复习题 293
第12章 数据挖掘高级技术 297
12.1 图挖掘 297
12.2 时态数据挖掘 309
12.2.1 时态数据表示 311
12.2.2 序列之间的相似性
?度量 315
12.2.3 时态数据模型 316
12.2.4 挖掘序列 318
12.3 空间数据挖掘(SDM) 321
12.4 分布式数据挖掘(DDM) 325
12.5 关联并不意味着存在因果
?关系 331
12.6 数据挖掘的隐私、安全及
法律问题 336
12.7 基于Hadoop和Map/Reduce
的云计算 341
12.8 强化学习 345
12.9 复习题 349
第13章 遗传算法 353
13.1 遗传算法的基本原理 354
13.2 用遗传算法进行优化 355
13.2.1 编码方案和初始化 356
13.2.2 适合度估计 357
13.2.3 选择 357
13.2.4 交叉 358
13.2.5 突变 359
13.3 遗传算法的简单例证 360
13.3.1 表述 360
13.3.2 初始群体 361
13.3.3 评价 361
13.3.4 交替 362
13.3.5 遗传算子 362
13.3.6 评价(第二次迭代) 363
13.4 图式 364
13.5 旅行推销员问题 366
13.6 使用遗传算法的机器
学习 368
13.6.1 规则交换 371
13.6.2 规则概化 371
13.6.3 规则特化 371
13.6.4 规则分割 371
13.7 遗传算法用于聚类 372
13.8 复习题 374
第14章 模糊集和模糊逻辑 375
14.1 模糊集 375
14.2 模糊集的运算 380
14.3 扩展原理和模糊关系 384
14.4 模糊逻辑和模糊推理
系统 387
14.5 多因子评价 391
14.5.1 选择布料的问题 391
14.5.2 教学评估的问题 392
14.6 从数据中提取模糊
模型 393
14.7 数据挖掘和模糊集 397
14.8 复习题 399
第15章 可视化方法 401
15.1 感知和可视化 401
15.2 科学可视化和信息
可视化 402
15.3 平行坐标 408
15.4 放射性可视化 410
15.5 使用自组织映射进行
可视化 412
15.6 数据挖掘的可视化
系统 413
15.7 复习题 417
附录A 数据挖掘工具 419
A.1 数据挖掘期刊 419
A.2 数据挖掘会议 423
A.3 数据挖掘论坛/博客 426
A.4 数据集 428
A.4.1 分类 428
A.4.2 聚类 429
A.4.3 回归 430
A.4.4 Web挖掘 430
A.4.5 文本挖掘 430
A.4.6 时间序列 431
A.4.7 关联规则挖掘的
数据 431
A.5 商业与公共可用工具 431
A.5.1 免费软件 431
A.5.2 具有试用版本的商业
软件 433
A.5.3 没有试用版本的商业
软件 436
A.6 Web站点链接 439
A.6.1 一般Web站点 439
A.6.2 关于数据挖掘的软件
工具的Web站点 439
A.6.3 数据挖掘供应商 441
附录B 数据挖掘应用 447
B.1 财务数据分析的数据
挖掘 447
B.2 电信业的数据挖掘 450
B.3 零售业的数据挖掘 452
B.4 卫生保健业和生物医学
研究中的数据挖掘 455
B.5 科学和工程中的数据
挖掘 457
B.6 数据挖掘的缺陷 460