前 言
自然语言处理技术旨在使计算机能理解、处理和生成人类使用的自然语言信息,被誉为人工智能皇冠上的明珠。近年来,大语言模型的卓越性能和泛化能力让研究者认为自然语言处理与人工智能的结合是实现通用人工智能的可能方式,这使得自然语言处理领域再次受到学术界和工业界的广泛关注。本书旨在为大语言模型时代下自然语言处理的初学者及研究者提供一套全面而系统的知识框架。通过本书,读者能全面深刻地掌握自然语言处理基础知识,强化对自然语言处理技术的理解,提升自然语言处理相关技术的实践能力,为日后的学习研究奠定良好的基础。
本书在构思、编写的过程中遵循以下3个原则。
(1)强调经典理论与前沿技术相结合。大语言模型时代下,自然语言处理领域的新技术层出不穷。同时,一些经典任务看似消亡,实则被赋予新的内涵,在相对底层的位置仍发挥着重要的作用。本书立足于大语言模型的时代背景,对当前自然语言处理的经典理论和前沿技术进行全面而深入的介绍,旨在为读者提供对大语言模型时代下自然语言处理技术的全面理解。
(2)内容安排系统全面、由浅入深。本书从自然语言处理领域的关键发展阶段引入,以技术发展脉络为主线进行介绍,内容涵盖自然语言处理的理论知识、核心技术以及综合应用等方面,形成完整系统的知识框架。希望读者能在学习自然语言处理技术的同时,体会自然语言处理领域面临的挑战和未来发展趋势。
(3)注重理论与实践相结合。在理论深度和广度并存的基础上,本书注重知识的实践应用,通过引入典型实例和数据集等引导读者将理论知识应用于实际任务的解决,不仅可以激发读者的学习热情,而且兼顾不同学习能力的读者,让他们更易理解所学内容,增强他们的综合素质。
本书主要从理论基础、核心技术和综合应用技术三方面介绍自然语言处理相关知识,逐步引导读者从基础理论延伸到复杂问题的解决。本书共11章,其中,第1~4章介绍自然语言处理领域的发展历程、机器学习、语言模型和文本表示等理论基础,第5、6章介绍词法分析和句法分析等自然语言处理的经典基础任务,第7~10章介绍信息抽取、自动问答、文本分类与情感分析,以及文本生成等综合应用技术,第11章对大语言模型时代下自然语言处理领域面临的挑战及未来的发展趋势进行总结。本书除第1章和第11章外,在其他章节末尾都提供了对应的习题,帮助读者更好地巩固与深化知识,培养读者解决问题的能力。
各章节的详细内容介绍如下。
第1章为绪论,主要围绕自然语言处理的基本概念、发展历程以及研究内容展开。首先为读者提供自然语言处理领域的总体概览,通过理性主义阶段、经验主义阶段、联结主义阶段讲述自然语言处理的发展脉络,并介绍词法和句法分析、语义分析、文本分类和自动问答等主要研究内容,帮助读者初步认识自然语言处理,产生深入学习的动力。
第2章主要介绍机器学习的基础知识,包括经典机器学习以及神经网络与深度学习等内容。通过引入机器学习类别、机器学习模型、学习准则、优化算法等基础概念,读者可对机器学习的基本概念和模型有一定了解。
第3章首先对语言模型进行基本的概述,之后依次讲述统计语言模型和神经网络语言模型的相关知识,帮助读者深入了解语言模型,为后续章节的学习奠定基础。
第4章详细讲述文本表示的各类方法,包括经典文本表示方法、分布式文本表示方法、任务驱动的文本表示方法,以及基于预训练模型的文本表示方法。
第5章从词的定义和描述引出词法分析的相关理论和技术,从词语规范化、词的切分以及词性标注等内容对词法分析进行讲述,最后介绍词法分析的相关工具和语料。
第6章首先介绍句法分析的基础概念和作用,之后详细介绍成分句法分析和依存句法分析两种典型的句法分析,最后讲述句法分析的相关工具和语料。
第7章首先对信息抽取进行概述,之后详细讲述命名实体识别、关系抽取、事件抽取等内容。
第8章主要讲述自动问答相关内容,从主要数据集、主要方法等角度重点讲述基于知识库的自动问答、基于固定文档的自动问答,以及基于自由文本数据的自动问答。
第9章主要讲述文本分类与情感分析相关知识,从基本概念和基本方法介绍文本分类;之后从基本概念和情感词典出发,分别介绍篇章级、句子级、方面级情感分析,以及隐式情感分析相关的知识。
第10章首先介绍文本生成的相关概念,之后介绍文本生成模型、文本生成任务以及文本生成的评价方法等知识。
第11章深入剖析在大语言模型迅速发展的背景下自然语言处理领域在低资源任务与自然语言推理方面面临的挑战,并展望自然语言处理领域向构建更强大的世界模型迈进的未来趋势,使读者对自然语言处理领域产生更深刻的认识。
本书第1、11章由山西大学谭红叶教授编写;第2、3、4、9章由山西大学廖健副教授编写; 第5、6章由山西大学张虎教授编写;第7、10章由山西大学陈千副教授编写;第8章由山西大学王元龙副教授编写。全书统稿与整理由山西大学谭红叶教授负责。感谢各位老师在编写本书过程中付出的精力与心血。
此外,感谢参与校对和统稿等工作的各位同学:张广军、范越、赵秦壮、张睿轩、韩冬枝、降雨菡等,他们花费了宝贵的时间,在本书的写作过程中提供了至关重要的帮助。
诚挚感谢清华大学出版社的所有团队成员,他们投入了大量精力和时间,以严谨的治学态度铸就了本书。在本书编写过程中我们得到参考文献和资料的宝贵启发,在此也向相关作者表示感谢。
由衷希望本书可以得到广大读者的认可,成为他们学习旅程中的良师益友。同时希望本书可以为自然语言处理领域的人才培养提供帮助,推动自然语言处理领域研究和应用不断深入。
作者
2025年5月
