图书目录

目录

配套资源

第1章绪论1

1.1数据挖掘的基本概念2

1.1.1定义2

1.1.2基本流程2

1.1.3发展历程3

1.1.4应用场景3

1.2为什么需要数据挖掘4

1.2.1应对爆炸式数据

增长5

1.2.2提升决策智能化

水平5

1.2.3加强风险管理与

控制5

1.3相关前沿技术5

1.3.1深度学习6

1.3.2生成模型与强化

学习6

1.3.3可视化数据挖掘7

1.3.4隐私保护数据挖掘8

1.3.5可解释性和透明性10

1.4主要分析方法10

1.4.1分类与回归10

1.4.2聚类分析11

1.4.3关联规则12

1.5数字取证相关规范12

1.5.1公安机关办理刑事

案件电子数据取证

规则12

1.5.2市场监督管理行政

执法电子数据取证

暂行规定13

1.6本章小结14

1.7本章习题14

参考文献14

第2章数据预处理与特征工程16

2.1数据探索和可视化17

2.1.1数据探索17

2.1.2可视化方法18

2.2常见数据度量方法22

2.2.1基本度量方法22

2.2.2相似度度量25

2.3数据编码方法30

2.3.1标签编码30

2.3.2独热编码31

2.3.3二进制编码31

2.3.4哈希编码32

2.4数据规范化方法32

2.4.1最小最大规范化32

2.4.2ZScore规范化33

2.4.3小数定标规范化33

2.5噪声和缺失值处理33

2.5.1平滑噪声数据34

2.5.2填充缺失值36

2.6特征工程38

2.6.1降维38

2.6.2特征选择40

2.7数据增强41

2.7.1传统方法42

2.7.2基于深度学习的数据

增强45

2.8实践案例: 金融欺诈数据预

处理47

2.9本章小结50

2.10本章习题51

参考文献51

第3章决策树家族与恶意软件

识别52

3.1决策树原理53

3.1.1基本概念54

3.1.2决策树的构建54

3.1.3信息增益56

3.1.4基尼指数58

3.2经典决策树算法59

3.2.1ID3算法59

3.2.2C4.5算法60

3.2.3CART决策树60

3.2.4剪枝61

3.2.5决策树的优缺点62

3.3集成学习62

3.3.1装袋法63

3.3.2提升法64

3.3.3堆叠法65

3.4Adaboost与Random 

Forest66

3.4.1Adaboost算法原理…66

3.4.2模型评价指标68

3.4.3Adaboost算法实践…69

3.4.4Adaboost算法的

优缺点70

3.4.5Random Forest原理…71

3.4.6Random Forest算法

实践71

3.4.7Random Forest参数

介绍72

3.4.8Random Forest的

优缺点73

3.5梯度提升决策树、XGBoost与

LightGBM74

3.5.1梯度提升决策树原理…74

3.5.2梯度提升决策树实践…75

3.5.3XGBoost算法原理……76

3.5.4XGBoost算法实践……77

3.5.5LightGBM算法原理…78

3.5.6LightGBM算法实践…79

3.6恶意软件检测80

3.6.1什么是恶意软件81

3.6.2恶意软件危害82

3.6.3恶意软件检测方法83

3.6.4恶意软件检测的困难…85

3.7实践案例: 勒索软件的自动

识别86

3.7.1数据加载与探索86

3.7.2特征选择与数据集

划分87

3.7.3模型训练及评估88

3.7.4案例总结88

3.8本章小结89

3.9本章习题89

参考文献90

第4章支持向量机与系统故障

诊断91

4.1支持向量机基本原理92

4.1.1最优超平面与间隔92

4.1.2线性可分支持向

量机93

4.1.3线性支持向量机96

4.1.4非线性支持向量机与

核函数98

4.2支持向量机应用101

4.2.1线性支持向量机

应用101

4.2.2基于核函数的非线性

支持向量机应用104

4.3支持向量机参数调节106

4.3.1网格搜索106

4.3.2随机搜索108

4.3.3贝叶斯优化109

4.4实践问题: 不均衡数据与

解决方法110

4.4.1重采样方法111

4.4.2代价敏感方法113

4.5实践案例: 气象信息系统

故障诊断115

4.5.1案例介绍115

4.5.2案例实践115

4.6本章小结118

4.7本章习题119

参考文献119

第5章关联规则与网络入侵事件

分析120

5.1关联规则定义121

5.1.1定义121

5.1.2度量标准121

5.2频繁项集类型123

5.2.1频繁项集123

5.2.2闭(合)频繁项集124

5.2.3最大频繁项集124

5.3Apriori算法127

5.3.1反单调性127

5.3.2局限性129

5.3.3改进方向130

5.4FPGrowth算法131

5.4.1FP树表示方法131

5.4.2FP树构造过程132

5.4.3项头表与条件模

式基133

5.5实践案例: 网络入侵事件

关联分析136

5.5.1典型场景136

5.5.2案例分析 138

5.6本章小结142

5.7本章习题142

参考文献143

第6章聚类分析与扩展攻击144

6.1聚类分析145

6.2聚类方法与相似度145

6.2.1聚类分析方法146

6.2.2经典相似度计算

方法147

6.2.3最新相似度计算

方法147

6.3基于划分的聚类150

6.3.1KMeans算法151

6.3.2KMedoids算法153

6.3.3其他改进算法154

6.4层次聚类154

6.4.1凝聚的与分裂的层次

聚类154

6.4.2簇间距离度量157

6.4.3BIRCH算法158

6.5基于密度的聚类160

6.5.1DBSCAN算法161

6.5.2HDBSCAN算法163

6.6半监督聚类165

6.6.1AP聚类算法原理…165

6.6.2AP聚类算法应用…166

6.7聚类评价和结果指标166

6.7.1评估聚类趋势167

6.7.2确定簇的数量168

6.7.3评估聚类质量168

6.8实践案例: KMeans扩展

攻击169

6.8.1扩展攻击169

6.8.2实验设计169

6.8.3攻击效果分析173

6.8.4防御策略174

6.9本章小结174

6.10本章习题174

参考文献175

第7章离群点检测与异常数据

识别176

7.1基于统计的异常检测177

7.1.1数据特征统计量177

7.1.2基于ZScore的检测

方法178

7.1.3四分位距法179

7.1.4格拉布斯检验181

7.1.5马氏距离法182

7.2Isolation Forest算法184

7.2.1隔离树的构建184

7.2.2路径长度与异常分数

的计算186

7.2.3Isolation Forest算法

实践188

7.3LOF算法190

7.3.1局部密度的定义190

7.3.2LOF值的计算192

7.3.3LOF算法实现193

7.3.4LOF算法的参数选择

优化194

7.3.5LOF的变体算法195

7.4实践案例: 金融欺诈异常

数据识别196

7.4.1ZScore算法对金融

异常数据进行识别…196

7.4.2Isolation Forest算法

对金融异常数据进行

识别197

7.4.3LOF算法对金融异常

数据进行识别198

7.5本章小结199

7.6本章习题200

参考文献200

第8章深度学习与网络流量

监测202

8.1人工神经网络203

8.1.1神经元203

8.1.2激活函数与MP

模型204

8.1.3ANN结构205

8.1.4反向传播206

8.1.5实践案例209

8.2卷积神经网络213

8.2.1CNN结构213

8.2.2经典CNN架构215

8.3RNN与LSTM模型216

8.3.1RNN结构216

8.3.2RNN工作原理216

8.3.3LSTM结构217

8.3.4LSTM工作原理218

8.3.5LSTM编码实践219

8.4EncoderDecoder模型220

8.4.1EncoderDecoder

工作原理220

8.4.2Transformer与

注意力221

8.4.3EncoderDecoder

应用223

8.5生成对抗网络223

8.5.1GAN的基本原理223

8.5.2理论分析225

8.6实践案例: 加密流量监测…227

8.6.1问题与挑战227

8.6.2常规监测方法227

8.6.3前沿方法: 图神经

网络与强化学习228

8.7本章小结229

8.8本章习题230

参考文献230

第9章人工智能模型安全233

9.1模型安全233

9.2与传统信息安全的区别与

联系234

9.3基于数据毒化的模型后门…236

9.3.1模型后门攻击236

9.3.2模型后门攻击场景…236

9.3.3典型的数据毒化

攻击237

9.4基于结构毒化的模型后门…240

9.4.1针对神经元的结构

毒化攻击240

9.4.2拼接木马模块的结构

毒化攻击241

9.5后门检测方法243

9.5.1基于神经元激活差异

的后门检测方法243

9.5.2基于对抗扰动的后门

检测方法245

9.6后门防御方法246

9.6.1基于FinePruning的

后门防御方法247

9.6.2其他后门防御方法…248

9.7前沿方法: 大模型越狱248

9.7.1大语言模型: 蓬勃

发展与潜在风险248

9.7.2越狱攻击: 概念、理论

与技术手段248

9.7.3案例: Stable Diffusion

越狱249

9.7.4越狱攻击的分类与

特点249

9.7.5越狱防御的分类与

特点250

9.7.6评测指标与工具251

9.8人工智能安全的监管与

伦理253

9.8.1人工智能: 机遇背后

的风险暗涌253

9.8.2国际AI安全监管的

探索254

9.8.3中国AI治理的进展

与挑战255

9.9本章小结255

参考文献256第10章对抗样本安全258

10.1对抗样本258

10.2对抗样本生成原理及

方法260

10.2.1基于高斯梯度的迁

移性对抗样本264

10.2.2基于人类视觉特性

的鲁棒不可见对抗

样本266

10.3对抗防御原理及方法270

10.4对抗样本应用271

10.4.1基于矩的免疫防御

原理及方法271

10.4.2鲁棒不可见对抗水

印原理及方法276

10.4.3鲁棒抗去除可见

对抗水印原理及

方法278

10.4.4基于可恢复对抗样

本的隐私保护原理

及方法282

10.5本章小结287

参考文献287

第11章隐私保护289

11.1隐私保护概述289

11.1.1隐私保护问题290

11.1.2隐私保护的挑战…290

11.2隐私保护技术291

11.2.1数据匿名291

11.2.2差分隐私295

11.2.3安全多方计算297

11.3本章小结300

参考文献300