目 录
第 1 章 大模型时代 1
1.1 大模型的诞生与发展 1
1.1.1 大语言模型发展简史与概念 2
1.1.2 大语言模型的生成策略 3
1.2 大语言模型发展的里程碑 4
1.2.1 注意力机制是大模型发展的里程碑 4
1.2.2 注意力机制的关键创新 5
1.2.3 注意力机制对语言建模的影响 7
1.2.4 大模型中的涌现与Scaling Law 10
1.2.5 大模型的训练方法SFT与RLHF 12
1.3 大语言模型发展的“DeepSeek时刻” 13
1.3.1 重塑世界AI格局的DeepSeek-V3 14
1.3.2 推理能力大飞跃的DeepSeek-R1 16
1.4 大模型的应用与展望 18
1.4.1 大模型的实际应用 18
1.4.2 大模型发展面临的展望 19
1.5 本章小结 20
第 2 章 DeepSeek开发环境配置与开放API使用 21
2.1 安装Python开发环境 21
2.1.1 Miniconda的下载与安装 21
2.1.2 PyCharm的下载与安装 24
2.2 安装DeepSeek开发框架 28
2.2.1 不同显卡与运行库的选择 28
2.2.2 PyTorch GPU版本的安装 28
2.2.3 测试PyTorch和CUDA安装信息 30
2.3 在线DeepSeek应用配置详解 31
2.3.1 DeepSeek简介与免费使用 32
2.3.2 带有特定格式的DeepSeek在线调用 33
2.3.3 带有约束的DeepSeek在线调用 35
2.3.4 将DeepSeek与PyCharm相连 37
2.4 本章小结 39
第 3 章 提示工程与DeepSeek提示库 40
3.1 提示工程Prompt详解 40
3.1.1 什么是提示工程 41
3.1.2 提示工程的关键要素与DeepSeek配置 41
3.1.3 DeepSeek提示工程化写作技巧与示例 43
3.1.4 系统、上下文和角色提示的进阶应用 44
3.2 DeepSeek中的提示库 46
3.2.1 DeepSeek中提示库介绍与基本使用 46
3.2.2 带有系统提示的提示对话生成 50
3.3 本章小结 51
第 4 章 思维链与DeepSeek推理模型 52
4.1 思维链详解 52
4.1.1 思维链应用场景 53
4.1.2 思维链的定义与分类 54
4.2 基于思维链的DeepSeek推理模型实战 55
4.2.1 通过Prompt提示构建思维链 56
4.2.2 DeepSeek-Reasoner推理模型实战 58
4.3 本章小结 60
第 5 章 基于DeepSeek的Agent开发详解 61
5.1 Agent开发概述 62
5.1.1 Agent的定义与核心机制 62
5.1.2 API Agent与GUI Agent 63
5.2 基于DeepSeek的美妆GUI Agent实践 65
5.2.1 GUI Agent库的安装与使用 66
5.2.2 使用DeepSeek自动化获取网页端天气信息 68
5.2.3 根据天气信息给出美妆建议 70
5.3 基于DeepSeek的体重管理API Agent实践 72
5.3.1 API Agent的注册与使用 73
5.3.2 实现卡路里计算与运动建议的功能 76
5.4 本章小结 77
第 6 章 DeepSeek的Function Calling与MCP应用实战 78
6.1 DeepSeek自带的Function Calling详解 78
6.1.1 Python使用工具的基本原理 79
6.1.2 DeepSeek工具使用详解 80
6.1.3 DeepSeek工具箱的使用 83
6.1.4 DeepSeek工具调用判定依据 89
6.2 给大模型插上翅膀的MCP协议详解 93
6.2.1 MCP协议目的、功能与架构详解 94
6.2.2 MCP实战1:本地工具服务端搭建 96
6.2.3 MCP实战2:本地客户端搭建与使用 98
6.3 在线MCP服务器的搭建与使用实战 102
6.3.1 在线MCP服务器搭建 102
6.3.2 在线MCP服务的连接和使用 103
6.4 本章小结 105
第 7 章 大模型驱动的即时金融信息采集与分析平台 106
7.1 网络爬取工具Crawl4AI详解 106
7.1.1 大模型传递数据的方式 107
7.1.2 服务于大模型的Crawl4AI 107
7.1.3 Crawl4AI的安装与基本使用 108
7.2 DeepSeek驱动的即时金融信息采集与分析平台实战 109
7.2.1 使用Crawl4AI爬取金融网站 110
7.2.2 对链接内容进行解析 111
7.2.3 使用DeepSeek抽取和分析金融信息 113
7.2.4 实现DeepSeek驱动的即时金融信息采集与分析平台 115
7.2.5 将DeepSeek设置不同的人设并对金融信息进行分析 115
7.3 本章小结 116
第 8 章 DeepSeek核心技术1: KV Cache加持的推理加速 117
8.1 自回归生成模型中的资源计算 117
8.1.1 自回归模型的计算量 118
8.1.2 自回归模型的缓存优化 118
8.2 自回归生成模型中的推理加速详解 120
8.2.1 模型推理中的“贪心生成”与“采样生成” 121
8.2.2 模型推理过程中的冗余计算问题解析 122
8.2.3 初识模型推理中的KV Cache与代码实现 124
8.3 减少空间占用的自回归模型代码实现与详解 126
8.3.1 经典自回归模型详解 126
8.3.2 能够减少空间占用的自回归模型代码完整实现 128
8.3.3 缓存使用与传递过程详解 132
8.4 减少空间占用的生成模型实战与推理资源消耗量化对比 134
8.4.1 模型参数配置与训练数据的准备 134
8.4.2 带有缓存的生成模型训练 136
8.4.3 未运行缓存的生成模型推理资源量化展示 137
8.4.4 在缓存的生成模型推理资源量化展示 139
8.4.5 使用细精度修正模型输出 140
8.5 本章小结 140
第 9 章 DeepSeek核心技术2:MLA注意力机制 141
9.1 从推理角度详解MLA注意力模型与代码实现 142
9.1.1 大模型的推理过程 142
9.1.2 通用大模型的显存占用量化计算 143
9.1.3 手把手MLA注意力公式的总体推导 145
9.2 从缓存角度详解MLA注意力模型与代码实现 146
9.2.1 优化的MLA模型实现1:压缩低秩空间 147
9.2.2 优化的MLA模型实现2:核心注意力矩阵计算 148
9.2.3 优化的MLA模型实现3:对显存KV Cache部分的压缩 149
9.2.4 带有缓存的MLA注意力模型完整实现 149
9.3 MLA注意力模型的完整补充讲解 152
9.3.1 调参、记忆力以及矩阵计算优化 152
9.3.2 MLA、GQA以及MQA差异详解 156
9.4 本章小结 157
第 10 章 DeepSeek核心技术3:MoE模型 158
10.1 MoE架构 158
10.1.1 MoE模型的基本结构 159
10.1.2 MoE模型中的“专家”与“调控”代码实现 160
10.1.3 使用MoE模型还是经典的前馈层 163
10.2 基于MoE模型的情感分类实战 164
10.2.1 基于MoE模型的评论情感分类实战 164
10.2.2 MoE模型中负载平衡的实现 167
10.3 加载MoE架构的注意力模型 169
10.3.1 注意力机制中的前馈层不足 170
10.3.2 MoE可作为前馈层的替代 173
10.3.3 结合MoE的注意力机制 175
10.4 基于MoE与自注意力的图像分类 175
10.4.1 基于注意力机制的ViT模型 176
10.4.2 Patch Embedding与Position Embedding 177
10.4.3 可视化的Vision-MoE的详解 179
10.4.4 V-MoE模型的实现 182
10.4.5 基于图像识别模型V-MoE的训练与验证 182
10.4.6 使用已有的库实现MoE 184
10.5 本章小结 185
第 11 章 DeepSeek核心技术4:MTP与多组件优化 186
11.1 深度学习中的精度计算详解与实战 186
11.1.1 深度学习中的精度详解 187
11.1.2 不同精度的相互转换与混合精度 188
11.1.3 PyTorch中混合精度详解 191
11.1.4 使用混合精度完成模型训练与预测 192
11.2 生成模型的多词元预测 196
11.2.1 MTP的经典架构设计与损失函数 196
11.2.2 DeepSeek中MTP架构 198
11.2.3 多词元预测模型的完整实现 199
11.2.4 多词元预测模型的训练与推理 200
11.3 自回归模型中的单分类与多分类激活函数 203
11.3.1 生成模型中的单分类激活函数 203
11.3.2 生成模型中的多分类激活函数 207
11.4 DeepSeek中的激活函数SwiGLU 209
11.4.1 SwiGLU激活函数详解 209
11.4.2 SwiGLU的PyTorch实现 210
11.4.3 结合经典缩放的SwiGLU 211
11.5 本章小结 212
第 12 章 大模型微调技术与应用 213
12.1 什么是模型微调 213
12.1.1 大模型微调的作用 213
12.1.2 大模型微调技术有哪些 214
12.1.3 参数高效微调详解 215
12.2 大模型微调方法LoRA详解 216
12.2.1 LoRA微调的优势 216
12.2.2 LoRA基本公式推导 217
12.2.3 PyTorch获取内部参数的方法 218
12.3 多模态DeepSeek大模型本地化部署与微调实战 219
12.3.1 多模态DeepSeek大模型的本地化部署 219
12.3.2 微调的目的:让生成的结果更聚焦于任务目标 221
12.3.3 适配DeepSeek微调的辅助库PEFT详解 224
12.3.4 基于本地化部署的DeepSeek微调实战 226
12.4 本章小结 232
第 13 章 大模型蒸馏技术与应用 233
13.1 什么是模型蒸馏 233
13.1.1 模型蒸馏的核心原理与应用价值 234
13.1.2 在线与离线大模型蒸馏的实施方法 234
13.2 基于在线DeepSeek大模型的离线蒸馏 235
13.2.1 模型蒸馏的前置准备 235
13.2.2 通过在线DeekSeek API进行蒸馏处理 236
13.3 基于物理信息神经网络的在线蒸馏 238
13.3.1 在线蒸馏的损失函数与经典微分方程的求解方法 239
13.3.2 基于PINN蒸馏求解微分方程的实战 240
13.4 本章小结 245
第 14 章 后训练算法GRPO详解与实战 246
14.1 基于GRPO的平衡车自动控制实战 247
14.1.1 CartPole强化学习环境设置 247
14.1.2 基于GRPO的CartPole模型训练 248
14.1.3 基于GRPO后的CartPole模型演示 252
14.2 GRPO算法详解 255
14.2.1 从PPO对比GRPO 256
14.2.2 GRPO核心原理与案例演示 258
14.2.3 GRPO原理的补充问答 259
14.2.4 平衡车中的GRPO控制详解 261
14.3 本章小结 263
第 15 章 基于GRPO后训练的智能医疗问诊实战 265
15.1 模型的后训练与逻辑能力 265
15.1.1 大模型的后训练概念与核心目标 266
15.1.2 结果奖励与过程奖励:奖励建模详解 267
15.2 带推理的智能医疗问诊实战 269
15.2.1 推理医疗数据集的准备与处理 269
15.2.2 奖励函数的完整实现 271
15.2.3 基于GRPO后训练的智能医疗问诊实战 273
15.2.4 智能医疗问诊模型的推理展示 276
15.3 本章小结 277
第 16 章 基于A2A、MCP与RAG的跨境电商智能客服实战 278
16.1 基于A2A跨境电商智能客服基本架构设计 279
16.1.1 DTC模式的崛起与智能客服的新要求 279
16.1.2 跨境电商智能客服架构设计 280
16.1.3 用于复杂任务分配、解决与汇总的A2A架构 281
16.2 搭建具备商业问答功能的交流客服Agent 282
16.2.1 基于Qwen3的多语种智能客服基座模型简介 283
16.2.2 真实客服数据集介绍与使用详解 284
16.2.3 使用LoRA微调基座模型 285
16.2.4 使用微调后的智能客服基座模型完成推理 289
16.2.5 原生Qwen3多语种支持与跨境电商智能客服语言设置 290
16.3 给交流客服Agent注入垂直领域知识 292
16.3.1 给客服大模型直接添加知识的方法 293
16.3.2 更高精度的RAG详解与使用示例 295
16.3.3 基于BM25算法的RAG实战 296
16.3.4 基于Conan Embedding向量排序的RAG实战 300
16.3.5 对于智能客服模型垂直领域知识注入的补充讲解 305
16.4 搭建基于DeepSeek的调度Agent 308
16.4.1 使用MCP构建适配智能客服的工具集 308
16.4.2 基于在线DeepSeek的客户意图识别与工具调度Agent 312
16.5 水到渠成的A2A架构跨境电商智能客服实现 316
16.5.1 将交流客服Agent添加到客服工具集 316
16.5.2 客服化身销售:将智能客服与商品推荐相结合 318
16.5.3 A2A与MCP的结合与展望 321
16.6 本章小结 323