图书目录

源码下载

第1 章 走进大语言模型 … … … … … … … … … … … … … … … … … … … … … … … 1

1 .1 从生活场景认识大语言模型 … … … … … … … … … … … … … … … … … … … … … 2

1 .1 .1 生活中的大语言模型… … … … … … … … … … … … … … … … … … … … … 2

1 .1 .2 大语言模型与传统软件的区别… … … … … … … … … … … … … … … … … 4

1 .1 .3 大语言模型如何改变我们的生活… … … … … … … … … … … … … … … … 5

1 .2 大语言模型技术发展简史 … … … … … … … … … … … … … … … … … … … … … … 7

1 .2.1 早期语言模型(2017 年以前) … … … … … … … … … … … … … … … … … 8

1 .2.2 革命性突破: Transformer 架构(2017 年) … … … … … … … … … … … … 8

1 .2.3 预训练模型和对齐技术的兴起(2018—2022 年) … … … … … … … … … 8

1 .2.4 多模态模型(2023 年至今) … … … … … … … … … … … … … … … … … … 9

1 .2.5 国产大模型的崛起(DeepSeek-R1) … … … … … … … … … … … … … … 10

1 .2.6 Grok 3 的发布 … … … … … … … … … … … … … … … … … … … … … … … 10

1 .2.7 新一代大模型架构: Mamba 架构 … … … … … … … … … … … … … … … 11

1 .3 大语言模型的特征与功能… … … … … … … … … … … … … … … … … … … … … … 11

1 .3 .1 大语言模型的主要特征 … … … … … … … … … … … … … … … … … … … 11

1 .3 .2 大语言模型的核心功能 … … … … … … … … … … … … … … … … … … … 12

1 .3 .3 大语言模型的技术挑战和未来发展方向 … … … … … … … … … … … … 13

小结 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 13

习题1 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 15

第2 章 大语言模型的核心原理 … … … … … … … … … … … … … … … … … … … 16

2.1 大语言模型的基础: Transformer 架构 … … … … … … … … … … … … … … … … 17

2.1 .1 Transformer 架构概述 … … … … … … … … … … … … … … … … … … … 17

2.1 .2 自注意力机制 … … … … … … … … … … … … … … … … … … … … … … … 17

2.1 .3 编码器与解码器的概念 … … … … … … … … … … … … … … … … … … … 18

2.2 编码器与解码器的演化… … … … … … … … … … … … … … … … … … … … … … … 18

2.2.1 Encoder-Only 技术 … … … … … … … … … … … … … … … … … … … … … 18Ⅵ

2.2.2 Decoder-Only 技术 … … … … … … … … … … … … … … … … … … … … … 20

2.2.3 Encoder-Only 与 Decoder-Only 对比分析 … … … … … … … … … … … 22

2.2.4 混合架构的兴起 … … … … … … … … … … … … … … … … … … … … … 22

2.3 大语言模型的提示词工程… … … … … … … … … … … … … … … … … … … … … … 22

2.3 .1 什么是提示词工程 … … … … … … … … … … … … … … … … … … … … … 23

2.3 .2 提示词工程的核心技巧 … … … … … … … … … … … … … … … … … … … 23

2.4 实验: 提示词进阶 … … … … … … … … … … … … … … … … … … … … … … … … … 25

小结 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 26

习题2 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 28

第3 章 数据集预处理 … … … … … … … … … … … … … … … … … … … … … … … … 29

3 .1 数据集预处理概述… … … … … … … … … … … … … … … … … … … … … … … … … 30

3 .1 .1 数据集预处理的重要性 … … … … … … … … … … … … … … … … … … … 30

3 .1 .2 预处理流程全景图 … … … … … … … … … … … … … … … … … … … … … 32

3 .1 .3 数据质量与大模型性能的关联 … … … … … … … … … … … … … … … … 32

3 .2 数据集类型与来源… … … … … … … … … … … … … … … … … … … … … … … … … 34

3 .2.1 通用数据 … … … … … … … … … … … … … … … … … … … … … … … … … 34

3 .2.2 专业数据 … … … … … … … … … … … … … … … … … … … … … … … … … 35

3 .3 数据格式介绍… … … … … … … … … … … … … … … … … … … … … … … … … … … 36

3 .3 .1 问答格式(QA Pairs) … … … … … … … … … … … … … … … … … … … … 37

3 .3 .2 对话格式(Conversational Format) … … … … … … … … … … … … … … 37

3 .3 .3 指令微调格式(LLaMa-Factory/Alpaca) … … … … … … … … … … … … 37

3 .3 .4 通用结构化格式(JSON/JSONL) … … … … … … … … … … … … … … … 37

3 .3 .5 纯文本格式(TXT) … … … … … … … … … … … … … … … … … … … … … 38

3 .4 数据集预处理技术… … … … … … … … … … … … … … … … … … … … … … … … … 38

3 .5 数据合规性要求… … … … … … … … … … … … … … … … … … … … … … … … … … 40

3 .6 实验: 对话格式数据集构建应用 … … … … … … … … … … … … … … … … … … … 40

小结 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 43

习题3 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 46

第4 章 大语言模型微调与优化 … … … … … … … … … … … … … … … … … … … 47

4.1 为什么需要微调… … … … … … … … … … … … … … … … … … … … … … … … … … 48

4.1 .1 目标与意义 … … … … … … … … … … … … … … … … … … … … … … … … 48

4.1 .2 微调的基本流程 … … … … … … … … … … … … … … … … … … … … … … 49

4.2 微调的两种方式… … … … … … … … … … … … … … … … … … … … … … … … … … 49

4.2.1 全参微调 … … … … … … … … … … … … … … … … … … … … … … … … … 49

4.2.2 高效微调 … … … … … … … … … … … … … … … … … … … … … … … … … 50

4.2.3 两种微调方式对比 … … … … … … … … … … … … … … … … … … … … … 50

4.3 微调工具的介绍… … … … … … … … … … … … … … … … … … … … … … … … … … 52Ⅶ

4.3 .1 LLaMa-Factory 简介 … … … … … … … … … … … … … … … … … … … … 52

4.3 .2 DeepSeed 简介 … … … … … … … … … … … … … … … … … … … … … … … 52

4.3 .3 Hugging Face Transformers 简介… … … … … … … … … … … … … … … 52

4.3 .4 3 种工具对比 … … … … … … … … … … … … … … … … … … … … … … … 52

4.4 动手实践一个微调模型… … … … … … … … … … … … … … … … … … … … … … … 53

4.4.1 LLaMa-Factory 环境配置 … … … … … … … … … … … … … … … … … … 53

4.4.2 数据准备 … … … … … … … … … … … … … … … … … … … … … … … … … 56

4.4.3 LLaMa-Factory 实现全参数微调 … … … … … … … … … … … … … … … 59

4.5 实验… … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 61

实验4-1 LLaMa-Factory 实现 LoRA 微调 … … … … … … … … … … … … … … 61

实验4-2 LLaMa-Factory 实现 Adapter 微调 … … … … … … … … … … … … … 63

小结 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 65

习题4 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 66

第5 章 RAG 技术 … … … … … … … … … … … … … … … … … … … … … … … … … … 67

5 .1 RAG 技术概述 … … … … … … … … … … … … … … … … … … … … … … … … … … 68

5 .1 .1 RAG 定义与实用价值… … … … … … … … … … … … … … … … … … … … 68

5 .1 .2 RAG 技术发展历程… … … … … … … … … … … … … … … … … … … … … 69

5 .1 .3 RAG 应用场景… … … … … … … … … … … … … … … … … … … … … … … 70

5 .2 RAG 系统核心架构 … … … … … … … … … … … … … … … … … … … … … … … … 73

5 .2.1 RAG 系统三大核心组件… … … … … … … … … … … … … … … … … … … 73

5 .2.2 RAG 系统工作流程… … … … … … … … … … … … … … … … … … … … … 75

5 .3 RAG 关键技术解析 … … … … … … … … … … … … … … … … … … … … … … … … 77

5 .3 .1 文本向量化 … … … … … … … … … … … … … … … … … … … … … … … … 77

5 .3 .2 检索优化策略: 混合检索(BM25 + 向量) … … … … … … … … … … … … 79

5 .3 .3 生成器优化技巧: 提示词工程与上下文融合 … … … … … … … … … … 80

5 .4 项目举例: 医学领域 RAG 系统的实现 … … … … … … … … … … … … … … … … 81

5 .5 实验: 基于 LangChain 的医学领域 RAG 系统实现 … … … … … … … … … … … 84

小结 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 89

习题5 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 92

第6 章 智能体技术入门 … … … … … … … … … … … … … … … … … … … … … … 93

6 .1 智能体的基本原理… … … … … … … … … … … … … … … … … … … … … … … … … 94

6 .1 .1 智能体的定义与功能 … … … … … … … … … … … … … … … … … … … … 94

6 .1 .2 智能体的技术框架 … … … … … … … … … … … … … … … … … … … … … 96

6 .1 .3 智能体的工作流程 … … … … … … … … … … … … … … … … … … … … … 97

6 .1 .4 智能体的应用 … … … … … … … … … … … … … … … … … … … … … … … 99

6 .2 基于平台快速构建智能体 … … … … … … … … … … … … … … … … … … … … … 100

6 .2.1 国内外著名的智能体开发平台… … … … … … … … … … … … … … … … 100Ⅷ

6 .2.2 扣子平台 Cozen 的快速构建 Agent 智能体 … … … … … … … … … … 101

6 .2.3 利用扣子平台搭建智能体工作流… … … … … … … … … … … … … … … 105

6 .3 实验: 利用扣子平台搭建校园导览助手 … … … … … … … … … … … … … … … 106

小结… … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 116

习题6 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 118

第7 章 AI 编程工具与大语言模型 … … … … … … … … … … … … … … … … … 119

7.1 常见 AI 编程工具简介 … … … … … … … … … … … … … … … … … … … … … … 120

7.1 .1 扣子简介… … … … … … … … … … … … … … … … … … … … … … … … … 120

7.1 .2 AI 速搭简介 … … … … … … … … … … … … … … … … … … … … … … … 120

7.1 .3 通义灵码简介… … … … … … … … … … … … … … … … … … … … … … … 120

7.1 .4 LangFlow 简介 … … … … … … … … … … … … … … … … … … … … … … 120

7.1 .5 Cline 简介 … … … … … … … … … … … … … … … … … … … … … … … … 121

7.1 .6 Trae 简介 … … … … … … … … … … … … … … … … … … … … … … … … 121

7.1 .7 Cursor 简介 … … … … … … … … … … … … … … … … … … … … … … … 121

7.2 主要 AI 编程工具对比 … … … … … … … … … … … … … … … … … … … … … … 121

7.3 AI 编程工具实践 … … … … … … … … … … … … … … … … … … … … … … … … … 122

7.3 .1 用 Cline 实现一个停车场管理系统的前端开发 … … … … … … … … … 122

7.3 .2 用 Trae 复现一个经典的机器学习算法并进行训练、 评估 … … … … 127

7.4 实验: 搭建仓储管理系统的前端界面 … … … … … … … … … … … … … … … … 137

小结… … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 141

习题7 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 142

第8 章 多模态大语言模型 … … … … … … … … … … … … … … … … … … … … … 143

8.1 多模态的概念 … … … … … … … … … … … … … … … … … … … … … … … … … … 144

8.1 .1 什么是多模态大语言模型… … … … … … … … … … … … … … … … … … 144

8.1 .2 多模态大语言模型的应用场景… … … … … … … … … … … … … … … … 146

8.2 生成工具介绍 … … … … … … … … … … … … … … … … … … … … … … … … … … 147

8.2.1 Stable Diffusion … … … … … … … … … … … … … … … … … … … … … 147

8.2.2 Midjourney … … … … … … … … … … … … … … … … … … … … … … … 150

8.2.3 可灵视频生成… … … … … … … … … … … … … … … … … … … … … … … 152

8.3 实验: 文本生成图片和图片生成视频 … … … … … … … … … … … … … … … … 153

小结… … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 158

习题8 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 160

第9 章 本地大语言模型部署… … … … … … … … … … … … … … … … … … … … 161

9 .1 为什么要构建本地大语言模型 … … … … … … … … … … … … … … … … … … … 162

9 .1 .1 构建数据主权与增强数字韧性… … … … … … … … … … … … … … … … 162

9 .1 .2 驱动自主创新与提升核心竞争力… … … … … … … … … … … … … … … 162Ⅸ

9 .1 .3 长期成本效益: 优化资源利用 … … … … … … … … … … … … … … … … 162

9 .2 本地部署大语言模型的基础认知 … … … … … … … … … … … … … … … … … … 163

9 .2.1 大语言模型概述… … … … … … … … … … … … … … … … … … … … … … 163

9 .2.2 本地部署与云端部署的对比… … … … … … … … … … … … … … … … … 163

9 .2.3 本地部署适合场景… … … … … … … … … … … … … … … … … … … … … 163

9 .3 本地部署的准备工作 … … … … … … … … … … … … … … … … … … … … … … … 163

9 .3 .1 硬件要求与选择… … … … … … … … … … … … … … … … … … … … … … 163

9 .3 .2 软件工具… … … … … … … … … … … … … … … … … … … … … … … … … 164

9 .3 .3 安全防护… … … … … … … … … … … … … … … … … … … … … … … … … 164

9 .4 DeepSeek 本地部署实践 … … … … … … … … … … … … … … … … … … … … … … 164

9 .4.1 DeepSeek 大语言模型: AI 领域的创新先锋 … … … … … … … … … … 164

9 .4.2 DeepSeek 主要版本介绍 … … … … … … … … … … … … … … … … … … 166

9 .4.3 DeepSeek 选择建议 … … … … … … … … … … … … … … … … … … … … 167

9 .5 实验: DeepSeek R1 本地部署 … … … … … … … … … … … … … … … … … … … 168

小结… … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 175

习题9 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 177

第10 章 大语言模型的应用 … … … … … … … … … … … … … … … … … … … … 178

10.1 生活中的大语言模型… … … … … … … … … … … … … … … … … … … … … … … 179

10.1 .1 智能客服与在线购物助手… … … … … … … … … … … … … … … … … 179

10.1 .2 AI 家教: 教育领域的智能革命 … … … … … … … … … … … … … … 181

10.2 行业中的大语言模型… … … … … … … … … … … … … … … … … … … … … … … 184

10.2.1 大语言模型在金融行业的应用… … … … … … … … … … … … … … … 184

10.2.2 大语言模型在医疗行业的应用… … … … … … … … … … … … … … … 186

10.2.3 大语言模型在写作领域的应用… … … … … … … … … … … … … … … 188

10.3 实验… … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 189

实验10-1 使用 Coze 自动生成小红书文档 … … … … … … … … … … … … … 189

实验10-2 使用 Coze 平台辅助教学设计 … … … … … … … … … … … … … … 193

实验10-3 构建基于 PDF 的智能问答系统 … … … … … … … … … … … … … 199

实验10-4 用 AI 智能生成简易网站 … … … … … … … … … … … … … … … … 202

小结… … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 205

第11 章 大语言模型的评估 … … … … … … … … … … … … … … … … … … … … 208

11 .1 大语言模型评估体系及相关指标… … … … … … … … … … … … … … … … … … 209

11 .1 .1 功能性评估及指标… … … … … … … … … … … … … … … … … … … … 209

11 .1 .2 性能评估及指标… … … … … … … … … … … … … … … … … … … … … 212

11 .1 .3 对齐评估及指标… … … … … … … … … … … … … … … … … … … … … 213

11 .1 .4 安全性评估及指标… … … … … … … … … … … … … … … … … … … … 214

11 .2 大语言模型评估方法… … … … … … … … … … … … … … … … … … … … … … … 215Ⅹ

11 .2.1 人工评估… … … … … … … … … … … … … … … … … … … … … … … … 215

11 .2.2 大语言模型评估… … … … … … … … … … … … … … … … … … … … … 215

11 .2.3 对比评估… … … … … … … … … … … … … … … … … … … … … … … … 215

11 .2.4 评估基准… … … … … … … … … … … … … … … … … … … … … … … … 216

11 .3 大语言模型评估实践… … … … … … … … … … … … … … … … … … … … … … … 216

11 .3 .1 当前流行的评估平台… … … … … … … … … … … … … … … … … … … 216

11 .3 .2 ModelScope Notebook … … … … … … … … … … … … … … … … … … 217

11 .4 实验: 使用 ModelScope 对自选模型进行评估 … … … … … … … … … … … … 217

小结… … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 220

习题11 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 222

第12 章 伦理、安全与未来 … … … … … … … … … … … … … … … … … … … … … 223

12.1 大语言模型的伦理考量… … … … … … … … … … … … … … … … … … … … … … 224

12.1 .1 偏见与公平性问题… … … … … … … … … … … … … … … … … … … … 224

12.1 .2 隐私侵犯风险… … … … … … … … … … … … … … … … … … … … … … 224

12.1 .3 虚假信息传播… … … … … … … … … … … … … … … … … … … … … … 224

12.2 大语言模型的安全挑战… … … … … … … … … … … … … … … … … … … … … … 225

12.2.1 对抗攻击威胁… … … … … … … … … … … … … … … … … … … … … … 225

12.2.2 数据安全隐患… … … … … … … … … … … … … … … … … … … … … … 225

12.2.3 模型窃取风险… … … … … … … … … … … … … … … … … … … … … … 225

12.2.4 AIGC 论文检测 AI 生成率与安全关联 … … … … … … … … … … … 225

12.3 大语言模型的未来展望… … … … … … … … … … … … … … … … … … … … … … 226

12.3 .1 技术发展趋势… … … … … … … … … … … … … … … … … … … … … … 226

12.3 .2 液态神经网络技术的发展与应用前景… … … … … … … … … … … … 226

12.3 .3 合成数据与未来发展… … … … … … … … … … … … … … … … … … … 226

12.3 .4 大语言模型的融合探索… … … … … … … … … … … … … … … … … … 227

12.3 .5 大语言模型对各行业的影响及商业化发展… … … … … … … … … … 227

12.3 .6 应对策略汇总… … … … … … … … … … … … … … … … … … … … … … 228

小结… … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 228

习题12 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 229

参考文献… … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 2