前言
在智能化、数字化浪潮席卷全球的今天,数据已成为驱动社会发展的核心动力。然而,随着数据规模的爆炸式增长与信息技术的深度应用,信息安全问题日益凸显——网络攻击、隐私泄露、恶意代码、数据篡改等威胁层出不穷,运用数据挖掘技术和智能检测模型可以更加高效地解决信息安全问题。同时,人工智能与信息安全的交叉融合诞生了事关国家安全的一个新领域——人工智能安全。保护智能模型的安全、检测模型后门已成为计算机科学领域极具挑战性的课题之一。在此背景下,我们深感亟须一本既能系统阐释数据挖掘核心原理,又能深度融合信息安全实践需求的教材,这正是本书诞生的初衷。
本书由6位深耕人工智能与信息安全领域10余年的高校专家、企业专家联合编写,历时两年精心打磨,旨在构建一座连接理论知识与工程实践的桥梁。我们以数据挖掘技术为主线,贯穿机器学习、深度学习等前沿方法,并聚焦其在恶意软件检测、入侵检测、异常数据分析、模型后门、对抗样本等场景中的创新应用。书中主要章节均以面向实际场景的典型案例为牵引,通过项目案例的学习,帮助读者在掌握算法原理的同时,深刻剖析现有方法的优缺点,锻炼应用数据挖掘方法解决实际信息安全问题的创新实践能力。
内容与结构
本书内容可分为两部分,共11章。第一部分为数据挖掘基础理论和方法,由第1~7章组成;第二部分为数据挖掘前沿、人工智能安全前沿相关理论和方法,由第8~11章组成。主要内容与案例均源自本团队的国家一流本科课程“数据挖掘与安全”多年教学所积累的教学资源与获奖案例。全书结构如下图所示。
本书第1~6章由闫雷鸣编写,第7、8章由付章杰编写,第9章由陈先意编写,第10章由王金伟编写,第11章由熊礼治编写。全书架构由闫雷鸣负责设计,闫雷鸣和付章杰负责统稿,奇安信集团林雪纲博士负责实践案例。
本书特色
项目案例融合: 将项目案例与数据挖掘原理自然融合,支撑项目化教学,改变了传统“数据挖掘”与“信息安全”的割裂式叙述。例如,在讲解聚类算法时,不仅剖析 KMeans、DBSCAN 等经典方法,更结合针对聚类方法的扩展攻击案例,引导读者思考算法鲁棒性对安全场景的意义。
前沿技术纵深: 覆盖生成对抗网络、模型后门、对抗样本安全等 AI 与信息安全交叉融合的前沿成果,特别设置“人工智能模型安全”专题章,探讨模型后门产生机理、数据投毒防御等新兴科研主题,帮助读者把握技术演进方向。
实践能力导向: 每章均配备面向实际场景的信息安全典型案例,提供可复现的代码框架,从数据预处理到参数调节、模型优化,介绍大量实践技巧,逐步培养读者解决复杂信息安全问题的工程思维。
为提升学习体验,我们同步开放了配套的在线实践资源及扩展阅读资源,详见配套教学资源说明。
信息安全的战场从未停歇,数据挖掘的探索永无止境。愿这本凝结智慧与创新的教材能成为读者踏入这一交叉领域的第一块基石,助力更多读者在数据与安全的交响乐中谱写新的篇章。
致谢
谨向参与本书编写的全体专家致以敬意,向为本书提供宝贵意见的各位专家表示诚挚的感谢,正是他们深厚的学术积淀与行业经验,赋予了本书独特的理论与实践价值。本书的编写得到了南京信息工程大学计算机学院及网络空间安全学院、教育部数字取证工程研究中心,以及奇安信集团的大力支持。研究生朱永昕、刘健、张定一、周韬、周吉、尤剑飞、于洁敏、吉丽菁、翟强众、陈宇、宋涛涛等帮助收集并整理了大量资料,协助完成了示例代码的测试。在此,感谢他们对本书撰写所作的贡献。
对清华大学出版社给予的大力帮助和支持,在此表示由衷的感谢。感谢广大同行在审校过程中提出的宝贵建议。
在本书的修订编写过程中,我们参考了大量资料,有些已经在参考文献中列出,有些因为多次辗转引用,已无法找到原始出处,在此表示歉意和由衷的感谢。
限于编者水平,书中难免存在错误和不当之处,殷切希望各位读者提出宝贵意见,并恳请各位专家、学者给予批评指正。
编者
2026年2月
