源码下载
第1 章 走进大语言模型 … … … … … … … … … … … … … … … … … … … … … … … 1
1 .1 从生活场景认识大语言模型 … … … … … … … … … … … … … … … … … … … … … 2
1 .1 .1 生活中的大语言模型… … … … … … … … … … … … … … … … … … … … … 2
1 .1 .2 大语言模型与传统软件的区别… … … … … … … … … … … … … … … … … 4
1 .1 .3 大语言模型如何改变我们的生活… … … … … … … … … … … … … … … … 5
1 .2 大语言模型技术发展简史 … … … … … … … … … … … … … … … … … … … … … … 7
1 .2.1 早期语言模型(2017 年以前) … … … … … … … … … … … … … … … … … 8
1 .2.2 革命性突破: Transformer 架构(2017 年) … … … … … … … … … … … … 8
1 .2.3 预训练模型和对齐技术的兴起(2018—2022 年) … … … … … … … … … 8
1 .2.4 多模态模型(2023 年至今) … … … … … … … … … … … … … … … … … … 9
1 .2.5 国产大模型的崛起(DeepSeek-R1) … … … … … … … … … … … … … … 10
1 .2.6 Grok 3 的发布 … … … … … … … … … … … … … … … … … … … … … … … 10
1 .2.7 新一代大模型架构: Mamba 架构 … … … … … … … … … … … … … … … 11
1 .3 大语言模型的特征与功能… … … … … … … … … … … … … … … … … … … … … … 11
1 .3 .1 大语言模型的主要特征 … … … … … … … … … … … … … … … … … … … 11
1 .3 .2 大语言模型的核心功能 … … … … … … … … … … … … … … … … … … … 12
1 .3 .3 大语言模型的技术挑战和未来发展方向 … … … … … … … … … … … … 13
小结 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 13
习题1 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 15
第2 章 大语言模型的核心原理 … … … … … … … … … … … … … … … … … … … 16
2.1 大语言模型的基础: Transformer 架构 … … … … … … … … … … … … … … … … 17
2.1 .1 Transformer 架构概述 … … … … … … … … … … … … … … … … … … … 17
2.1 .2 自注意力机制 … … … … … … … … … … … … … … … … … … … … … … … 17
2.1 .3 编码器与解码器的概念 … … … … … … … … … … … … … … … … … … … 18
2.2 编码器与解码器的演化… … … … … … … … … … … … … … … … … … … … … … … 18
2.2.1 Encoder-Only 技术 … … … … … … … … … … … … … … … … … … … … … 18Ⅵ
2.2.2 Decoder-Only 技术 … … … … … … … … … … … … … … … … … … … … … 20
2.2.3 Encoder-Only 与 Decoder-Only 对比分析 … … … … … … … … … … … 22
2.2.4 混合架构的兴起 … … … … … … … … … … … … … … … … … … … … … 22
2.3 大语言模型的提示词工程… … … … … … … … … … … … … … … … … … … … … … 22
2.3 .1 什么是提示词工程 … … … … … … … … … … … … … … … … … … … … … 23
2.3 .2 提示词工程的核心技巧 … … … … … … … … … … … … … … … … … … … 23
2.4 实验: 提示词进阶 … … … … … … … … … … … … … … … … … … … … … … … … … 25
小结 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 26
习题2 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 28
第3 章 数据集预处理 … … … … … … … … … … … … … … … … … … … … … … … … 29
3 .1 数据集预处理概述… … … … … … … … … … … … … … … … … … … … … … … … … 30
3 .1 .1 数据集预处理的重要性 … … … … … … … … … … … … … … … … … … … 30
3 .1 .2 预处理流程全景图 … … … … … … … … … … … … … … … … … … … … … 32
3 .1 .3 数据质量与大模型性能的关联 … … … … … … … … … … … … … … … … 32
3 .2 数据集类型与来源… … … … … … … … … … … … … … … … … … … … … … … … … 34
3 .2.1 通用数据 … … … … … … … … … … … … … … … … … … … … … … … … … 34
3 .2.2 专业数据 … … … … … … … … … … … … … … … … … … … … … … … … … 35
3 .3 数据格式介绍… … … … … … … … … … … … … … … … … … … … … … … … … … … 36
3 .3 .1 问答格式(QA Pairs) … … … … … … … … … … … … … … … … … … … … 37
3 .3 .2 对话格式(Conversational Format) … … … … … … … … … … … … … … 37
3 .3 .3 指令微调格式(LLaMa-Factory/Alpaca) … … … … … … … … … … … … 37
3 .3 .4 通用结构化格式(JSON/JSONL) … … … … … … … … … … … … … … … 37
3 .3 .5 纯文本格式(TXT) … … … … … … … … … … … … … … … … … … … … … 38
3 .4 数据集预处理技术… … … … … … … … … … … … … … … … … … … … … … … … … 38
3 .5 数据合规性要求… … … … … … … … … … … … … … … … … … … … … … … … … … 40
3 .6 实验: 对话格式数据集构建应用 … … … … … … … … … … … … … … … … … … … 40
小结 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 43
习题3 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 46
第4 章 大语言模型微调与优化 … … … … … … … … … … … … … … … … … … … 47
4.1 为什么需要微调… … … … … … … … … … … … … … … … … … … … … … … … … … 48
4.1 .1 目标与意义 … … … … … … … … … … … … … … … … … … … … … … … … 48
4.1 .2 微调的基本流程 … … … … … … … … … … … … … … … … … … … … … … 49
4.2 微调的两种方式… … … … … … … … … … … … … … … … … … … … … … … … … … 49
4.2.1 全参微调 … … … … … … … … … … … … … … … … … … … … … … … … … 49
4.2.2 高效微调 … … … … … … … … … … … … … … … … … … … … … … … … … 50
4.2.3 两种微调方式对比 … … … … … … … … … … … … … … … … … … … … … 50
4.3 微调工具的介绍… … … … … … … … … … … … … … … … … … … … … … … … … … 52Ⅶ
4.3 .1 LLaMa-Factory 简介 … … … … … … … … … … … … … … … … … … … … 52
4.3 .2 DeepSeed 简介 … … … … … … … … … … … … … … … … … … … … … … … 52
4.3 .3 Hugging Face Transformers 简介… … … … … … … … … … … … … … … 52
4.3 .4 3 种工具对比 … … … … … … … … … … … … … … … … … … … … … … … 52
4.4 动手实践一个微调模型… … … … … … … … … … … … … … … … … … … … … … … 53
4.4.1 LLaMa-Factory 环境配置 … … … … … … … … … … … … … … … … … … 53
4.4.2 数据准备 … … … … … … … … … … … … … … … … … … … … … … … … … 56
4.4.3 LLaMa-Factory 实现全参数微调 … … … … … … … … … … … … … … … 59
4.5 实验… … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 61
实验4-1 LLaMa-Factory 实现 LoRA 微调 … … … … … … … … … … … … … … 61
实验4-2 LLaMa-Factory 实现 Adapter 微调 … … … … … … … … … … … … … 63
小结 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 65
习题4 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 66
第5 章 RAG 技术 … … … … … … … … … … … … … … … … … … … … … … … … … … 67
5 .1 RAG 技术概述 … … … … … … … … … … … … … … … … … … … … … … … … … … 68
5 .1 .1 RAG 定义与实用价值… … … … … … … … … … … … … … … … … … … … 68
5 .1 .2 RAG 技术发展历程… … … … … … … … … … … … … … … … … … … … … 69
5 .1 .3 RAG 应用场景… … … … … … … … … … … … … … … … … … … … … … … 70
5 .2 RAG 系统核心架构 … … … … … … … … … … … … … … … … … … … … … … … … 73
5 .2.1 RAG 系统三大核心组件… … … … … … … … … … … … … … … … … … … 73
5 .2.2 RAG 系统工作流程… … … … … … … … … … … … … … … … … … … … … 75
5 .3 RAG 关键技术解析 … … … … … … … … … … … … … … … … … … … … … … … … 77
5 .3 .1 文本向量化 … … … … … … … … … … … … … … … … … … … … … … … … 77
5 .3 .2 检索优化策略: 混合检索(BM25 + 向量) … … … … … … … … … … … … 79
5 .3 .3 生成器优化技巧: 提示词工程与上下文融合 … … … … … … … … … … 80
5 .4 项目举例: 医学领域 RAG 系统的实现 … … … … … … … … … … … … … … … … 81
5 .5 实验: 基于 LangChain 的医学领域 RAG 系统实现 … … … … … … … … … … … 84
小结 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 89
习题5 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 92
第6 章 智能体技术入门 … … … … … … … … … … … … … … … … … … … … … … 93
6 .1 智能体的基本原理… … … … … … … … … … … … … … … … … … … … … … … … … 94
6 .1 .1 智能体的定义与功能 … … … … … … … … … … … … … … … … … … … … 94
6 .1 .2 智能体的技术框架 … … … … … … … … … … … … … … … … … … … … … 96
6 .1 .3 智能体的工作流程 … … … … … … … … … … … … … … … … … … … … … 97
6 .1 .4 智能体的应用 … … … … … … … … … … … … … … … … … … … … … … … 99
6 .2 基于平台快速构建智能体 … … … … … … … … … … … … … … … … … … … … … 100
6 .2.1 国内外著名的智能体开发平台… … … … … … … … … … … … … … … … 100Ⅷ
6 .2.2 扣子平台 Cozen 的快速构建 Agent 智能体 … … … … … … … … … … 101
6 .2.3 利用扣子平台搭建智能体工作流… … … … … … … … … … … … … … … 105
6 .3 实验: 利用扣子平台搭建校园导览助手 … … … … … … … … … … … … … … … 106
小结… … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 116
习题6 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 118
第7 章 AI 编程工具与大语言模型 … … … … … … … … … … … … … … … … … 119
7.1 常见 AI 编程工具简介 … … … … … … … … … … … … … … … … … … … … … … 120
7.1 .1 扣子简介… … … … … … … … … … … … … … … … … … … … … … … … … 120
7.1 .2 AI 速搭简介 … … … … … … … … … … … … … … … … … … … … … … … 120
7.1 .3 通义灵码简介… … … … … … … … … … … … … … … … … … … … … … … 120
7.1 .4 LangFlow 简介 … … … … … … … … … … … … … … … … … … … … … … 120
7.1 .5 Cline 简介 … … … … … … … … … … … … … … … … … … … … … … … … 121
7.1 .6 Trae 简介 … … … … … … … … … … … … … … … … … … … … … … … … 121
7.1 .7 Cursor 简介 … … … … … … … … … … … … … … … … … … … … … … … 121
7.2 主要 AI 编程工具对比 … … … … … … … … … … … … … … … … … … … … … … 121
7.3 AI 编程工具实践 … … … … … … … … … … … … … … … … … … … … … … … … … 122
7.3 .1 用 Cline 实现一个停车场管理系统的前端开发 … … … … … … … … … 122
7.3 .2 用 Trae 复现一个经典的机器学习算法并进行训练、 评估 … … … … 127
7.4 实验: 搭建仓储管理系统的前端界面 … … … … … … … … … … … … … … … … 137
小结… … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 141
习题7 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 142
第8 章 多模态大语言模型 … … … … … … … … … … … … … … … … … … … … … 143
8.1 多模态的概念 … … … … … … … … … … … … … … … … … … … … … … … … … … 144
8.1 .1 什么是多模态大语言模型… … … … … … … … … … … … … … … … … … 144
8.1 .2 多模态大语言模型的应用场景… … … … … … … … … … … … … … … … 146
8.2 生成工具介绍 … … … … … … … … … … … … … … … … … … … … … … … … … … 147
8.2.1 Stable Diffusion … … … … … … … … … … … … … … … … … … … … … 147
8.2.2 Midjourney … … … … … … … … … … … … … … … … … … … … … … … 150
8.2.3 可灵视频生成… … … … … … … … … … … … … … … … … … … … … … … 152
8.3 实验: 文本生成图片和图片生成视频 … … … … … … … … … … … … … … … … 153
小结… … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 158
习题8 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 160
第9 章 本地大语言模型部署… … … … … … … … … … … … … … … … … … … … 161
9 .1 为什么要构建本地大语言模型 … … … … … … … … … … … … … … … … … … … 162
9 .1 .1 构建数据主权与增强数字韧性… … … … … … … … … … … … … … … … 162
9 .1 .2 驱动自主创新与提升核心竞争力… … … … … … … … … … … … … … … 162Ⅸ
9 .1 .3 长期成本效益: 优化资源利用 … … … … … … … … … … … … … … … … 162
9 .2 本地部署大语言模型的基础认知 … … … … … … … … … … … … … … … … … … 163
9 .2.1 大语言模型概述… … … … … … … … … … … … … … … … … … … … … … 163
9 .2.2 本地部署与云端部署的对比… … … … … … … … … … … … … … … … … 163
9 .2.3 本地部署适合场景… … … … … … … … … … … … … … … … … … … … … 163
9 .3 本地部署的准备工作 … … … … … … … … … … … … … … … … … … … … … … … 163
9 .3 .1 硬件要求与选择… … … … … … … … … … … … … … … … … … … … … … 163
9 .3 .2 软件工具… … … … … … … … … … … … … … … … … … … … … … … … … 164
9 .3 .3 安全防护… … … … … … … … … … … … … … … … … … … … … … … … … 164
9 .4 DeepSeek 本地部署实践 … … … … … … … … … … … … … … … … … … … … … … 164
9 .4.1 DeepSeek 大语言模型: AI 领域的创新先锋 … … … … … … … … … … 164
9 .4.2 DeepSeek 主要版本介绍 … … … … … … … … … … … … … … … … … … 166
9 .4.3 DeepSeek 选择建议 … … … … … … … … … … … … … … … … … … … … 167
9 .5 实验: DeepSeek R1 本地部署 … … … … … … … … … … … … … … … … … … … 168
小结… … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 175
习题9 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 177
第10 章 大语言模型的应用 … … … … … … … … … … … … … … … … … … … … 178
10.1 生活中的大语言模型… … … … … … … … … … … … … … … … … … … … … … … 179
10.1 .1 智能客服与在线购物助手… … … … … … … … … … … … … … … … … 179
10.1 .2 AI 家教: 教育领域的智能革命 … … … … … … … … … … … … … … 181
10.2 行业中的大语言模型… … … … … … … … … … … … … … … … … … … … … … … 184
10.2.1 大语言模型在金融行业的应用… … … … … … … … … … … … … … … 184
10.2.2 大语言模型在医疗行业的应用… … … … … … … … … … … … … … … 186
10.2.3 大语言模型在写作领域的应用… … … … … … … … … … … … … … … 188
10.3 实验… … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 189
实验10-1 使用 Coze 自动生成小红书文档 … … … … … … … … … … … … … 189
实验10-2 使用 Coze 平台辅助教学设计 … … … … … … … … … … … … … … 193
实验10-3 构建基于 PDF 的智能问答系统 … … … … … … … … … … … … … 199
实验10-4 用 AI 智能生成简易网站 … … … … … … … … … … … … … … … … 202
小结… … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 205
第11 章 大语言模型的评估 … … … … … … … … … … … … … … … … … … … … 208
11 .1 大语言模型评估体系及相关指标… … … … … … … … … … … … … … … … … … 209
11 .1 .1 功能性评估及指标… … … … … … … … … … … … … … … … … … … … 209
11 .1 .2 性能评估及指标… … … … … … … … … … … … … … … … … … … … … 212
11 .1 .3 对齐评估及指标… … … … … … … … … … … … … … … … … … … … … 213
11 .1 .4 安全性评估及指标… … … … … … … … … … … … … … … … … … … … 214
11 .2 大语言模型评估方法… … … … … … … … … … … … … … … … … … … … … … … 215Ⅹ
11 .2.1 人工评估… … … … … … … … … … … … … … … … … … … … … … … … 215
11 .2.2 大语言模型评估… … … … … … … … … … … … … … … … … … … … … 215
11 .2.3 对比评估… … … … … … … … … … … … … … … … … … … … … … … … 215
11 .2.4 评估基准… … … … … … … … … … … … … … … … … … … … … … … … 216
11 .3 大语言模型评估实践… … … … … … … … … … … … … … … … … … … … … … … 216
11 .3 .1 当前流行的评估平台… … … … … … … … … … … … … … … … … … … 216
11 .3 .2 ModelScope Notebook … … … … … … … … … … … … … … … … … … 217
11 .4 实验: 使用 ModelScope 对自选模型进行评估 … … … … … … … … … … … … 217
小结… … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 220
习题11 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 222
第12 章 伦理、安全与未来 … … … … … … … … … … … … … … … … … … … … … 223
12.1 大语言模型的伦理考量… … … … … … … … … … … … … … … … … … … … … … 224
12.1 .1 偏见与公平性问题… … … … … … … … … … … … … … … … … … … … 224
12.1 .2 隐私侵犯风险… … … … … … … … … … … … … … … … … … … … … … 224
12.1 .3 虚假信息传播… … … … … … … … … … … … … … … … … … … … … … 224
12.2 大语言模型的安全挑战… … … … … … … … … … … … … … … … … … … … … … 225
12.2.1 对抗攻击威胁… … … … … … … … … … … … … … … … … … … … … … 225
12.2.2 数据安全隐患… … … … … … … … … … … … … … … … … … … … … … 225
12.2.3 模型窃取风险… … … … … … … … … … … … … … … … … … … … … … 225
12.2.4 AIGC 论文检测 AI 生成率与安全关联 … … … … … … … … … … … 225
12.3 大语言模型的未来展望… … … … … … … … … … … … … … … … … … … … … … 226
12.3 .1 技术发展趋势… … … … … … … … … … … … … … … … … … … … … … 226
12.3 .2 液态神经网络技术的发展与应用前景… … … … … … … … … … … … 226
12.3 .3 合成数据与未来发展… … … … … … … … … … … … … … … … … … … 226
12.3 .4 大语言模型的融合探索… … … … … … … … … … … … … … … … … … 227
12.3 .5 大语言模型对各行业的影响及商业化发展… … … … … … … … … … 227
12.3 .6 应对策略汇总… … … … … … … … … … … … … … … … … … … … … … 228
小结… … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 228
习题12 … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 229
参考文献… … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … 2
