前言
党的二十大报告指出: 教育、科技、人才是全面建设社会主义现代化国家的基础性、战略性支撑。必须坚持科技是第一生产力、人才是第一资源、创新是第一动力,深入实施科教兴国战略、人才强国战略、创新驱动发展战略,这三大战略共同服务于创新型国家的建设。高等教育与经济社会发展紧密相连,对促进就业创业、助力经济社会发展、增进人民福祉具有重要意义。
编写本书的初心是想写一本合适的教材,应用于本校人工智能本科专业的机器学习相关课程。所谓“合适”主要体现在以下几方面。
(1) 理论和实践并重。既有理论的系统讲解、公式的详细推导,也有Python代码实现的详细讲解,基本概念紧接代码讲解。在代码讲解过程中,特别强调与理论和公式的对应,一方面是为了进一步加深对理论和公式的理解,另一方面也可以体现理论落地的过程和编码过程中需要考虑的各种因素。
(2) 模型和算法采用Python从零实现。本书只依赖Python、NumPy和Matplotlib,不依赖已有的机器学习库,是学习机器学习的最小知识集。采用最小知识集有两个显著的优点: 学生的精力可以专注于核心知识,从而减少学习负担; 从零实现机器学习算法更有利于练好基本功。
(3) 面向应用的习题和实验。以培养高水平应用型人才为导向,将丰富的应用融入课程材料(特别是习题和实验)中,切实加强学生解决实际问题能力的培养。应用实例由浅入深、丰富而有趣。一些应用反复出现,有利于不同模型之间的比较和选择。
(4) 强化算法思想讲解。通过可视化等方式讲解算法思想及其发展过程,更有利于学生对算法思想的深入理解和把握,从而进一步对其进行创造性的应用。
(5) 突出独立思考、提出问题能力的培养。讲解过程中突出问题驱动下的思考过程,在习题和实验中也会进行类似的引导,以培养学生独立思考、提出问题的能力。
本书要求读者已经学习过Python程序设计基础,具备高等数学、线性代数、概率与统计相关数学知识。全书共9章,涵盖了机器学习的基本内容。第1章是概述,从整体上对“机器学习”进行一个概要性的介绍,从机器学习的基本概念开始,以机器学习的历史与现状收尾,谈及其术语、任务、分类等重要部分及其相互间的内在联系。第2章介绍离散变量与分类,包括经典的K近邻、决策树、对数几率回归、支持向量机,以及近年来发展最为迅猛、应用最为广泛、影响最为深远的神经网络。第3章介绍连续变量与线性回归,包括基本线性回归、岭回归、局部加权线性回归、LASSO回归等。第4章介绍维数灾难与降维,包括基本概念、主成分分析、奇异值分解等。第5章介绍K均值聚类,包括聚类的基本概念、K均值聚类、K均值++聚类等。第6章介绍生成模型与贝叶斯分类器,包括贝叶斯最优分类器、朴素贝叶斯分类器、半朴素贝叶斯分类器和贝叶斯网等。第7章介绍自监督与大语言模型,包括Transformer、GPT与大语言模型的预训练等。第8章介绍环境监督与强化学习,包括ChatGPT的三阶段训练流程、强化学习的形式化、策略最优化算法、环境构建与训练奖励模型等。第9章是综合实验部分。
为便于教学,本书提供丰富的配套资源,包括教学课件、电子教案、教学大纲、程序源码、习题答案和微课视频。
资源下载提示
数据文件: 扫描目录上方的二维码下载。
微课视频: 扫描封底的文泉云盘防盗码,再扫描书中相应章节的视频讲解二维码,可以在线学习。
在此特别感谢成都大学教务处、成都大学计算机学院、成都大学计算机学院人工智能课程协同体对本书从谋划、立项到出版全过程的大力支持!感谢清华大学出版社的专业指导和辛苦工作!最后感谢所有参与本书从谋划、立项到出版全过程的各位老师、同学和朋友们!
限于时间和编者专业水平,书中疏漏和不足之处在所难免,敬请广大读者批评指正。
编者
2025年2月