图书前言

前言

大语言模型(Large Language Model,LLM),简称大模型,是一种基于深度学习技术的先进人工智能模型,特别适用于理解和生成自然语言文本。大模型通常建立在Transformer架构之上,该架构因高效的并行计算能力和优异的序列学习能力而被广泛应用。大模型的特点在于其庞大的参数规模,通常含有数十亿乃至上千亿级别的参数,这让它们具备更强大的表达能力和泛化性能。大模型通常首先在大规模无标签文本数据上进行预训练,通过监督学习学会预测文本中的缺失部分。微调后,可以适应各种下游自然语言处理任务。通过学习大量文本数据,大模型不仅能解析文本的语法结构和语义含义,还能根据上下文生成连贯,甚至有高度创造性的新文本内容。

相较于传统单一用途的自然语言处理模型,大模型的多功能性和通用性使其能够在未经专门训练的情况下处理多种类型的自然语言任务。代表性的大语言模型有OpenAI的ChatGPT、阿里云的通义千问等。随着技术的发展,大语言模型已经成为自然语言处理领域的重要基石,并持续推动人工智能技术的进步和社会应用的拓展。

学习大模型相关课程,其意义如下。

(1) 理解技术前沿。大模型是人工智能领域的一大突破。学习本课程可以深入了解该领域的最新技术和研究成果,紧跟人工智能发展的步伐。

(2) 提升技能与竞争力。掌握大模型技术可以帮助个人在人工智能、自然语言处理等领域提高技术水平,增强就业竞争力,可以胜任涉及聊天机器人开发、问答系统构建、文本生成、语义理解和翻译等方面的工作。

(3) 创新应用开发。大模型具有强大的语言生成和理解能力,学习本课程有助于启发和引导开发者设计并实施一系列创新应用,如辅助写作工具、在线客服系统、智能搜索引擎优化等。

(4) 体现社会价值。随着大模型逐渐应用于日常生活和工作,学习相关知识有助于更好地推动科技服务于社会,解决实际问题,例如无障碍沟通、教育资源普及、医疗健康咨询等。

(5) 伦理与社会责任。了解大模型,能促使我们思考其在数据安全、隐私保护、消除偏见、防止滥用等方面带来的挑战和应对策略,从而培养负责任的技术创新能力。

可见,学习大模型课程不仅有利于个人专业成长,更能对社会进步和技术创新产生积极影响。人工智能及其大模型技术,是每个高校学生甚至社会人必须关注、学习和重视的知识与现实。

本书针对高校学生的培养需求,为高等院校相关专业“大模型基础”课程全新设计编写。本书介绍的大模型知识主要包括: 大模型基础、模型与生成式AI、大模型架构、人工数据标注、大模型预训练数据、大模型开发组织、提示工程与微调、强化学习方法、大模型智能体、大模型应用框架、技术伦理与限制、大模型产品评估。

本书的编写遵循下列要点。

(1) 深入浅出地介绍与分析,让学习者能切实理解和掌握人工智能和大模型的相关知识与应用场景。

(2) 经典案例丰富有趣,注重培养读者扎实的基本理论知识,重视培养学习方法。

(3) 阅读课文思维能力的培养与提高,为学习者提供了低认知负荷的自我评量题目,让他们在自我成就中建构人工智能与大模型的基本观念与技术。

(4) 理论与实践结合与互补,为每一章都设计了有针对性的“实践与思考”环节,在动手实践中融入人工智能与大模型发展进程。

虽然已经进入电子时代,但我们仍然竭力倡导看纸版书。为各章设计的作业(四选一标准选择题)并不难,学生只要认真阅读各章内容,就能准确回答所有题目;附录A提供了作业参考答案,供读者对比思考。

本课程的教学进度设计见课程教学进度表,可作为教师授课和学生学习的参考。实际执行时,应按照教学大纲和校历中关于本学期节假日的安排确定本课程的教学进度。课程教学进度表(20—20学年第学期)

课程号: 课程名称: 大语言模型基础 学分: 2周学时: 2

总学时: 32(其中理论学时: 32实践学时: )

主讲教师: 序号校历

周次章节(或实训、习题课等)

名称与内容学时教学方法课后作业布置11第1章大模型基础222第1章大模型基础233第2章模型与生成式AI244第3章大模型架构255第4章人工数据标注266第5章大模型预训练数据277第6章大模型开发组织288第7章提示工程与微调299第8章强化学习方法21010第8章强化学习方法21111第9章大模型智能体21212第9章大模型智能体21313第10章大模型应用框架21414第11章技术伦理与限制21515第12章大模型产品评估21616第12章大模型产品评估2课文作业

实践与思考课程学习与实践总结填表人(签字): 日期:

系(教研室)主任(签字): 日期:本课程的教学评测可以从以下几方面入手:

(1) 结合每章的课后作业(四选一标准选择题,12组)。

(2) 结合各章知识内容安排的“实践与思考”环节,理论联系实际,切实掌握和应用课文知识(12组和一个课程学习实践总结大作业)。

(3) 随机抽查的课文阅读与笔记。

(4) 结合平时考勤。

(5) 任课老师认为必要的其他考核方法。

本书特色鲜明,易读易学,适合高等院校相关专业学生学习,也适合对人工智能以及大语言模型相关领域感兴趣的读者阅读参考。

与本书配套的教学资源,读者可登录清华大学出版社网站(www.tup.com.cn)获取。

本书的编写得到浙大城市学院、嘉兴技师学院、杭州汇萃智能科技有限公司等多所院校和企业的支持,在此一并表示感谢!

由于作者水平有限,书中难免有疏漏之处,恳请读者批评指正。

周苏2024年春 于杭州西湖