





作者:梁志远
定价:129元
印次:1-1
ISBN:9787302686002
出版日期:2025.04.01
印刷日期:2025.03.19
图书责编:王金柱
图书分类:零售
"《大模型轻量化:模型压缩与训练加速》围绕大模型轻量化这一主题,系统地阐述大模型轻量化的基本理论与实现方法,旨在提升模型的部署效率和计算性能。全书分为3部分,共10章。第1部分(第1~5章),介绍大模型的背景与面临的问题,以及Transformer和MoE架构的基本原理;重点讲解模型压缩、训练加速和推理优化等核心技术,包括量化、蒸馏和剪枝等,并通过实际案例验证其效果。第2部分(第6、7章),重点介绍端侧学习与计算引擎优化策略,尤其是动态Batch和异构执行的工程实现。第3部分(第8~10章),针对高性能算子库与手工算子开发,分别以cuDNN、NEON、CUDA等为代表,揭示算子优化的细节,最后,以国产开源模型DeepSeek-V3为例,展现从训练到推理的综合优化方案。 《大模型轻量化:模型压缩与训练加速》提供全面实用的轻量化方法论,结合丰富代码示例与实践案例,适合从事大模型开发与优化的工程师,也为研究人员提供深入探讨的素材与视角,助力解决大模型训练与推理中的实际问题。"
梁志远,博士,毕业于北京航空航天大学。长期从事人工智能、大语言模型的开发,专注于深度学习、自然语言处理、数据分析与智能决策等领域。主持或参与多项科研项目,涵盖模型训练优化、知识蒸馏、自动推理与多模态学习等方向。致力于推动人工智能技术在工业应用、智能交互与数据驱动中的实践与发展。
前 言 在人工智能迅猛发展的浪潮中,大规模神经网络模型凭借其卓越性能,已然成为自然语言处理、计算机视觉等诸多领域的核心竞争力。然而,大模型复杂度与资源需求的急剧膨胀,让如何在确保精度的同时,大幅削减计算成本、提升部署效率,成为了产业界与学术界共同瞩目的焦点。 本书的创作灵感,正是源自业界对于大模型轻量化愈发迫切的需求。近年来,Transformer 和 Mixture of Experts(MoE)等前沿架构引领了深度学习的革新潮流,但也带来了对计算资源的巨额消耗。在此背景下,模型压缩技术如量化、剪枝和蒸馏应运而生,为破解资源瓶颈提供了有力武器,而工程优化策略则进一步夯实了其实践基础。本书紧紧围绕这一主题,全面探讨大模型轻量化技术,包括模型压缩、训练与推理加速、端侧学习与计算引擎优化,结合实际案例与工程实现,助力提升大模型的部署效率与计算性能。 本书共分为3部分: 第1部分(第1~5章),主要阐述了大模型轻量化的基本理论。第1章概述了大模型的兴起背景与技术挑战,以Transformer与MoE架构为例,分析其在性能与计算复杂度上的权衡。第2~5章从理论和实践出发,探讨模型压缩的多种技术路径,通过实际案例说明其在提升效率与降低存储需求方面的具体应用。为帮助读者深入理解,书中附有精心设计的代码示例和测试数据,验证模型轻量化的实际效果。 第2部分(第6、7章),基于第1部分的理论沉淀,深入拓展模型轻量化理论,并以代码实践加以诠释。在第6章介绍了端侧学习、计算引擎优化和资源分配等领域的关键技术。端侧学习章节特别关注联邦学习及其在隐私保护中的应用;计算引擎优化部分则涵盖动...
第 1 部分 大模型概述与核心优化技术
第 1 章 大模型基本概念 3
1.1 大模型的兴起与发展 3
1.1.1 大规模神经网络 4
1.1.2 Transformer编码器-解码器 5
1.1.3 MoE架构 7
1.2 计算资源与性能瓶颈 9
1.2.1 GPU简介 10
1.2.2 TPU简介 12
1.2.3 网络带宽约束与分布式训练 13
1.2.4 大模型的训练时间与计算资源消耗问题 14
1.3 数据与隐私问题 16
1.3.1 急剧增加的数据量 16
1.3.2 数据隐私保护与合规性 19
1.4 模型部署与运维 20
1.4.1 模型部署基本概念 20
1.4.2 云计算与边缘计算 25
1.4.3 端侧部署 29
1.4.4 大模型运行与维护 30
1.5 本章小结 34
1.6 思考题 34
第 2 章 模型压缩、训练与推理 36
2.1 模型压缩概述 36
2.1.1 模型压缩简介 36
2.1.2 常见的模型压缩方法分类 37
2.2 训练加速基础 38
2.2.1 数据并行与模型并行 39
2.2.2 混合精度训练 40
2.2.3 分布式训练框架:Horovod 44
2.3 推理加速基础 49
2.3.1 硬件加速与推理引擎 49
2.3.2 低延迟与高吞吐量平衡 55
2.3.3 推理优化实战:批量推理 58
2.4 性能评估指标 62
2.4.1 计算复杂度与性能指标 62
2.4.2 ... 查看详情
《大模型轻量化:模型压缩与训练加速》围绕大模型轻量化这一核心主题,展开全面而深入的阐述。第一部分介绍大模型的背景及挑战,讲解Transformer和MoE架构的基本原理,让读者对大模型有清晰的认知。聚焦模型压缩、训练加速与推理优化的核心技术,包括量化、蒸馏和剪枝等,并通过实际案例验证其效果,使读者能深刻理解这些技术的价值。
第二部分详述端侧学习与计算引擎优化策略,突出动态 Batch 和异构执行的工程实现。这部分内容为读者揭示了在大模型轻量化过程中,如何通过优化计算资源利用,提高模型的运行效率。
第三部分针对高性能算子库与手工算子开发,以 cuDNN、NEON、CUDA 等为代表,揭示优化细节。并以国产开源模型 DeepSeek-V3 为案例,展示从训练到推理的综合优化方案。不仅为读者提供了具体的实践指导,也展示了国内在大模型轻量化领域的优秀成果。
全书内容丰富实用,结合丰富的代码示例与实践案例,将理论与实践紧密结合。无论是对于从事大模型开发的工程师,还是致力于相关研究的学者,《大模型轻量化:模型压缩与训练加速》都是一本不可多得的佳作。阅读《大模型轻量化:模型压缩与训练加速》,读者将仿佛置身于大模型轻量化的技术殿堂,获得宝贵的知识与经验,助力解决大模型训练与推理中的实际问题,推动人工智能领域的发展。
"