





定价:118元
印次:1-2
ISBN:9787302670513
出版日期:2024.09.01
印刷日期:2025.06.18
图书责编:刘洋
图书分类:零售
" 本书旨在帮助读者理解开源大语言模型的架构、训练和推理过程,以及相关的源代码。主要研究对象是Meta开源的Llama模型。本书从Python Numpy实现单层感知机和神经网络开始,逐步讲解了如何实现Transformer模型和Llama模型。此外,本书还介绍了增量预训练模型、监督微调和人类反馈强化学习等模型训练过程。对于私有知识的加入,书中重点介绍了监督微调,也介绍了RAG中词向量的计算。本书采用循序渐进的方式,通过功能框图、代码分解执行、执行结果显示、背景知识补充等手段帮助读者理解模型和算法。 本书的核心读者群体定位为大语言模型应用的开发人员,特别适合那些想从计算机视觉转向自然语言处理的人。此外,本书还适合作为大学本科生及研究生相关课程的参考教材使用。"
范煜,江苏南通人,毕业于南京航空航天大学,研究员级高级工程师,中国商业联合会数据分析专业委员会专家组成员,南通理工学院教师,上海范思软件有限公司创始人,中国移动集团、51CTO外聘讲师经常在全国各地讲授大数据、数据分析人工智能、大语言模型等方面课程。研发了Fancy Q&A大语言模型应用开发平台。著有《人工智能与ChatGPT》《数据革命:大数据价值实现方法、技术与案例》。兼具人工智能、大数据、软件、工业控制(嵌入式系统和软PLC)技术背景。目前主要从事基于大语言模型的知识库建设与知识问答应用的研究和开发。
在ChatGPT的成功推动下,人工智能(artificial intelligence,AI)技术的主要研究焦点已从计算机视觉逐渐转向自然语言处理(natural language processing,NLP)。这使得原本相对边缘的自然语言处理技术逐渐走向了舞台中心。尽管自然语言处理的研究者相较于计算机视觉(computer vision,CV)领域来说少,但经过几十年的发展,其积累的技术成果也十分丰富。以ChatGPT及其背后的GPT(Generative Pretrained Transformer)模型为代表的大语言模型(LLM)技术的成功,不是一夜之间的突变,而是基于多年技术积累取得的一次重大突破。 但是,并非所有的自然语言处理技术都被大语言模型的开发所采用。一些技术路线已被放弃,一些虽然得到了发展,但已被更优秀的技术所取代。在大语言模型技术的后续发展中,这些被抛弃或替代的技术仍有可能被重新研究和改进。本书旨在是让读者了解主流大语言模型所采用的技术,而不是去开发新的大语言模型。因此,我们主要介绍了GPT系列及开源Llama 2模型所采用的技术,对其他技术并未进行探讨,例如知名的词嵌入(word embeddings)技术Word2Vec。 现在的大语言模型基本上都是基于Transformer架构。相较于标准的编码器-解码器(Encoder-Decoder)结构,如今的GPT系列产品及Llama 1、Llama 2都采用了单解码器结构。本书以Transformer模型架构为基础,重点关注了纯解码器技术方向,并对相关技术进行了详细的阐述。 由于GPT-3.5、GPT...
1.1人工智能的技术构成 002
1.1.1 机器学习和深度学习的区别 002
1.1.2 表示学习与深度学习的关系 003
1.2自然语言处理的发展阶段 004
1.3规则驱动的方法 005
1.4统计方法 005
1.4.1 隐马尔可夫模型 006
1.4.2 条件随机场 007
1.5深度学习方法 008
1.5.1 Word2Vec词嵌入 008
1.5.2 循环神经网络 009
1.5.3 长短时记忆网络模型 009
1.5.4 门控循环单元模型 010
1.6序列到序列模型 011
1.7注意力机制 011
1.8Transformer模型 012
1.9预训练模型 012
1.10大语言模型 014
1.10.1 根据架构分类 014
1.10.2 根据训练方式和预测方式
分类 015
第2章 深度学习基础
2.1深度学习 017
2.2感知机 017
2.2.1 前馈网络 018
2.2.2 权重更新 019
2.2.3 反向传播 021
2.3激活函数 022
2.3.1 常用激活函数 023
2.3.2 新型激活函数 024
2.4优化函数(算法) 026
2.4.1 梯度下降法 026
2.4.2 动量优化算法 027
2.4.3 AdaGrad优化算法 027
2.4.4 RMSProp优化算法 028
2.4.5 Adam优化算法 029
2.4.6 AdamW优化算法 030
2.5权值初始化 030
2.5.1 批归一化 031
2.5....
•本书的内容来源不仅包含网络上的各类教程和文章,也包括原始论文和源代码。
•本书不但适用于大型语言模型应用开发人员,而且对于渴望深度探究ChatGPT背后的运行机制,更高效地运用和优化其功能的实践者,同样具有极高的参考价值。
"