图书前言

前言

我和本教材主编贲可荣教授与人工智能的缘分有一段类似的经历。我们都是本科学习数学,硕士期间学习数理逻辑和计算机科学理论。攻读博士学位期间,又共同师从陈火旺院士,开展人工智能与软件工程交叉研究。贲可荣教授博士论文研究采用自动推理技术证明程序正确性,属于AI4SE,我的博士论文研究面向智能体的人工智能程序设计语言,属于SE4AI,我们在人工智能方面的“童子功”都属于符号主义学派的范畴。虽然在我们研究生期间,Hopfield网络模型的出现激起了连接主义人工智能的一朵浪花,但符号主义人工智能的主导地位不可撼动,我和贲可荣教授对自己能够在当时的人工智能主航道上学习和工作倍感荣幸。然而,很快我和贲可荣教授共同经历了之后人工智能由热转冷的全过程。后来,我们又作为研究生导师,共同见证了因深度学习带来的连接主义人工智能的再次兴起,符号主义学派似乎被冷落了,大语言模型热潮又一次唤起人们对通用人工智能的憧憬。

学派分野带来的学科区分在人工智能领域十分明显,导致三种人工智能学派你方唱罢我登场。可以预见,自主机器人和具身智能将带来行为主义人工智能的大发展。实现具身智能的关键在于具身智能体对环境的感知、互动、适应、决策和行动,需要有效连接思考、感知与行动三大智能空间,从而推动全自主无人系统的具身智能技术发展。未来人工智能发展需要三种人工智能学派的大合唱,取长补短,走向融合和集成,共同为人工智能的发展做出贡献。为此亟须破解人工智能学科交叉问题,以及复合型人工智能人才培养问题,这里既包括融合三种人工智能学派的知识体系,也包括人工智能对人类未来发展的新挑战新认知。令人敬佩的是,贲可荣教授始终保持着学生时代对人工智能研究的热情投入,以及对人工智能最新发展的敏锐洞察。这种投入和洞察反映在了他主编的这本《人工智能》教材持续迭代升级之中。本书具有如下特点。

一是以人为本,紧跟时代步伐。站在立德树人的角度,融入楷模引领、典型应用、大国工匠、使命担当、批判思维、敢为人先、风险管控等德育元素,结合人工智能学科特点,因势利导,培养学生高尚的道德情操。

二是以融为先,系统设计内容。站在学科交叉的角度,阐述智能感知、智能推理、智能决策和智能行动所涉及的基本概念、基础理论、基本方法,内容涵盖了ACM和IEEECS制定的新版人工智能知识点。体系严谨,选材精练,讲解翔实。

三是以实为要,直面问题建模。站在提升能力的角度,通过每一章节“湿漉漉”的案例让学习者找到感觉,参与其中,提高解决复杂问题的实践能力,每章后的思考题也为学生课后实践提供了拓展空间。

本教材、的前序版本先后评为普通高等学校“十一五”国家级规划教材、“十二五”普通高等教育本科国家级规划教材、首届全国优秀教材二等奖、“十四五”普通高等教育本科国家级规划教材。我希望本教材能够为人工智能课程教学提供范本,更希望在智能时代到来之时,有更多的相关专业本科生、相关学科研究生、人工智能爱好者能够从中受益,成为新时代人工智能大合唱中不可或缺的、生动和谐的声部。

王怀民

国防科技大学教授

中国科学院院士人工智能(第4版)前言人工智能发展历程可以从两个角度来分析。第一,整个人工智能的发展可以看成怎么解决搜索问题的过程,开始是利用暴力搜索,而后希望采取高级搜索来寻找精确解。因为我们面临的问题会越来越复杂,寻找精确解不太可行,只好采取近似搜索的方法。所以使用优化算法、随机算法,以及更为广泛的学习方法。第二,从如何处理知识表示的角度看待人工智能,这触及人工智能的本质和技术难点。基于规则的学习其目的是把人类对事物的理解形式化,从而希望机器能够有效和人类认知对齐以达到智能的目的。迄今为止,这条路径成效有限,转而采取较为可行的基于数据统计的方法,即用统计数据来代表知识表示,然后在数据上运行算法。而深度神经网络提供了一个统计数据的进一步表示,使得系统可以更为有效地进行端对端学习。

思路的改变对人工智能的发展起到了关键作用。例如,模式识别、自然语言处理、语音识别、视觉处理等都从统计方法上获得了巨大的成功。此外,从统计学的数据建模到计算机的算法建模,人工智能则从机器学习中看到了新的路径。

根据人工智能的发展历史,人工智能主要是要处理三个任务: ①识别,可以把识别看作搜索的一个高级形态; ②决策; ③生成。而这三个任务刚好又和机器学习的三大学习范式——有监督学习、强化学习和无监督学习相一致。

1. 感知智能、认知智能和决策智能

按照问题智能处理的水平可将智能分为感知智能、认知智能和决策智能。

感知智能的核心在于模拟人的视觉、听觉和触觉等感知能力,目前用于完成人可以简单完成、重复度较高的工作,如人脸识别、语音识别等。其核心业务目标是提高效率,降低成本。在智能能力方面,主要集中在模式识别层面,重在提升视觉、语音等场景中的效率,不具备理解和推理能力。

认知智能是指系统能推理、会理解,需要具有对信息的认知、理解、推理、存储和转换的能力,即与思维能力密切相关。推理是从已有的知识得出新的知识的思维形式,在推理中可以清楚地看到人类思维的创造性。

决策智能意味着能思考、会决策,在一种不确定的环境中做出合适的行动,或者做出合适的选择和决定的能力。智能应具备对不确定性环境的探索和发现。这里的环境,即指我们试图用智能科学更好地了解、探索、建模和驾驭的物理世界、人类社会等系统。决策智能主要基于对不确定环境的探索,因此需要获取环境信息和自身的状态,从而进行自主决策,并使得由环境反馈的收益最大。

2. 大语言模型

大语言模型主要利用语言数据,而现在则希望使用语言、图像和音频等融合的多模态异构数据。考虑到计算机视觉、自然语言处理和语音识别等也是由机器学习发展起来的,所以,现代人工智能可以理解成通过机器学习及由其驱动而发展起来的计算机视觉、自然语言处理和语音识别等技术来实现多模态数据的现实交互。

大语言模型是指具备数十亿乃至万亿参数,通过高达万亿词元数量的文本语料训练出来的深度神经网络模型。大语言模型在语言理解和生成上取得了出色的成绩,其发展历史可以追溯到2013年的Word2Vec,但直到近年诸如GPT3、LaMDA、PaLM、PaLM2、LLaMA、LLaMA2、CodeLLaMA、WizardMath 等大模型的出现,才使得大语言模型的应用得到普及。广义的大模型则包含语言、声音、视觉等多模态任务,其典型代表是Flamingo和GPT4。大语言模型能够发展到如此高度,得益于充分利用注意力机制进行序列建模的变换器网络(Transformer)架构以及稀疏变换器网络这样的变种。最近,变换器网络架构最终统一了语言、视觉、声音和多模态的建模。大语言模型支持通过提示工程实现应用于特定任务的情境学习,展示了强大的通用能力,并预示了通用人工智能曙光初现。此外,知识更新、事实凭据、复杂推理等对智能系统至关重要,知识图谱在其中发挥着关键作用。

3. 智能系统

智能系统是一类能够模拟人类智能,具有感知、理解、学习、推理、决策和交互等能力的计算机系统。智能系统能够根据环境和目标自主或半自主地进行决策和行动,能够处理复杂、不确定和动态的任务。智能系统的核心目的是利用人工智能方法和技术解决实际问题,其发展过程与人工智能相伴相生。

智能系统具备根据用户需求动态地调整决策和行动的自适应性,能够与人类或其他智能系统进行有效的交互,实现沟通和协作,确保决策与行动可靠并符合预期,并能够以用户可理解的方式对决策和行动进行说明和解释。典型的智能系统有基于规则和逻辑的专家系统、基于统计学习和贝叶斯推断的不确定性推理系统、多智能体系统、基于知识的智能系统等。

典型智能系统架构由交互、需求理解、决策、行动、环境理解、评估和结果生成等组件构成。随着大语言模型能力的涌现,以大语言模型为智能核心的智能系统逐渐兴起并成为主流。

基于大语言模型的智能系统,充分利用了大语言模型的能力,实现智能系统的感知、理解、学习、推理、决策和交互,进而实现广泛的领域适应性、灵活的多任务迁移和友好的多模态交互能力。基于大语言模型的智能系统架构中,大语言模型是智能系统之所以智能的核心所在,提示工程则是智能系统实现智能的直接体现,知识图谱为智能系统的知识更新、事实凭据、复杂推理提供支撑,模型训练与管理、数据管理和微调管理等组件为大语言模型提供基础支撑。

4. 生成式人工智能

2022年年底出现的大语言模型计算范式,推动了人工智能从一个模型解决一个任务迈向一个模型解决所有任务(All in one)的新计算架构发展阶段。这一架构的核心就是生成式人工智能(Generative AI,生成式AI),它以强大的内容合成能力为特征,推动了语言生成和对话式人工智能等领域的突破性进展。生成式AI的发展将进一步推动人工智能技术的普及和深入应用,为社会带来更多的便利和创新。

基础大模型是生成式AI的“大脑”,而正在兴起的整个价值链将支持该技术的训练和使用。专用硬件提供了训练模型所需要的庞大算力,云平台则提升了对这类硬件的利用。MLOps和模型中心供应商则提供企业所需的工具、技术和实践,让企业能够调试使用基础大模型并将其部署到终端用户应用中。

生成式AI是一种能够创造新事物的人工智能形式,可以创建音频、文本、代码、视频、图像和其他数据等内容。生成式AI模型通过数据集进行训练,并能通过研究基本模式来生成新数据。例如,利用生成式AI讲故事,用户只需提供一个开头,生成式AI就可以续写这个故事。生成式AI的突出例子是GPT4语言预测模型。通过对大量互联网数据进行训练,它们能够创建类似人类创建的文本,而且与人类写的文本几乎没有区别。

传统AI就像一个战略大师,能够根据一套规则做出明智的决策。以人机国际象棋大赛为例,计算机懂得所有规则,可以预测对手的动作,并根据预先确定的策略决定自己的棋路。它并没有发明新的下棋方式,只是从已经编程的策略中选出一个合适的策略——这就是传统AI。传统AI的其他例子包括语音助手,如Siri、Alexa和Netflix,以及亚马逊的推荐系统、Google的搜索算法等。传统AI需要遵守某些规则,无法自主创造新内容。

表01对比了生成式AI与传统AI。二者之间的主要区别在于它们的功能和应用场景不同。传统AI主要用于数据分析和预测,而生成式AI则更进一步,可以创建全新的内容。表01AI综合比较表

比 较 要 素传统AI生成式AI主要特点执行特殊任务可以创建新数据研究数据并做出决策或预测使用原始数据创建新的原创内容在一组预定义的规则下工作可以生成文本、图像、音乐和代码学习方法控制式学习不受控制的学习需要标记数据以用于训练不需要标记数据进行训练限制受限于具体任务生成内容的细节不受控无法创新原创内容生成的内容可能不够一致或准确需要大量标记的数据进行训练需要大量数据进行训练典型应用场景人机对战国际象棋OpenAI公司的GPT4Spam Sieve for Mac垃圾邮件过滤器DeepArt绘画转换语音助手(Siri、Alexa)创建内容(故事、艺术、音乐)推荐系统(Netflix、亚马逊)DeepFake(AI换脸)搜索引擎(Google)个别AI响应综上,生成式AI和传统AI技术的主要区别在于,生成式AI能够生成新内容,所生成的新内容通常以“非结构化”形式(如书面文本或图像)呈现,而不是以表格形式排列。

生成式AI将人类绝大多数知识装进数字化知识容器中,重构了人类知识版图,成为大数据时代中一种新型的“知识提供者”。然而,生成式AI的局限性也是显而易见的,它对个体自主思考、判断、学习能力乃至伦理道德观提出了前所未有的挑战。在人类教育史上,每一次伟大的技术创新(如文字、印刷术和互联网技术)都引发了教育领域质和量的飞跃。以ChatGPT为代表的生成式AI技术将实现对传统教育体系的再次迭代升级,促使人类教育目标从知识本位和能力本位走向素养本位。

5. 科学研究的赋能范式

科学研究的赋能范式,DeepMind或Google最近做出了一系列突破性的代表工作。第一个是利用强化学习寻找矩阵相乘中利用加法运算来代替乘法运算,从而达到使用尽可能小的乘法运算的目的,这实际上是一个搜索匹配问题。第二个是蛋白质结构预测AlphaFold,它是在一个三维空间,或者在某个坐标系框架里,找到氨基酸序列的一个坐标对应,当然这里需要满足氨基酸序列原有的结构信息,因此,是在一个约束体系里找到一个位置对应。第三个是芯片设计,这是一个序贯的决策或者一个有顺序关系的排列组合问题。此外,在数学研究中通过AI去找到一些证明启示或新的数学规律。

从这几个例子可以归纳出: 人工智能可以描述为如何求解具有组合结构的高维复杂问题。第一,问题有组合或离散结构的,如对应关系、顺序关系或稀疏特性等。第二,它是高维的,通常规模也很大。我们需要从满足这种结构的不同组合中找到一个最佳的方案或者代价最小的解。这是人工智能在数学上的一个描述,因此,重点是如何解决维数诅咒和规模可扩展性问题。

6. 人工智能技术发展趋势

人工智能在最近十余年有两个最重大的突破。第一个是在2010年前后深度神经网络在视觉图像上的应用产生了第一个人工智能的里程碑突破,可把它理解为视觉+深度学习。第二个里程碑工作ChatGPT则是在前一个突破基础上,深度强化学习在自然语言领域的成功,即语言+强化学习或者多模态数据+深度强化学习。

人工智能创新型突破性技术不断涌现。一是人工智能技术加速演进。人工智能技术经过七十多年的发展,早期是机器学习、专家系统、神经网络等技术不断演进,近十几年随着互联网、大数据的发展,深度学习、强化学习等技术引领了新一轮爆发式增长的高潮。二是大模型开启人工智能新纪元。通用大模型平台为人工智能技术创新和应用提供了强大的算力和训练能力支撑,加速了各类垂直领域行业大模型应用的开发和部署。三是通用人工智能可能会加速到来。2022年12月,OpenAI推出生成式大语言模型GPT3.5,将机器对人类语言的理解推向新高度。2024年2月,OpenAI推出文本生成视频大模型Sora,被称为“世界模拟器”,对真实物理世界的理解和还原能力远超人类想象。这些人工智能取得的新技术突破,使更多人认为像人类一样思考、拥有多种用途的通用人工智能(AGI)将成为可能。

人工智能基础设施建设快速发展。一是人工智能算力需求呈指数级增长。据OpenAI报告指出,从2012年到2018年,AI模型训练的算力增长近30万倍,平均3.5月翻一倍,且呈进一步加速态势。二是人工智能数据资源重要性日益凸显。多模态和跨模态数据集的建设,对人工智能技术发展起到关键支撑作用。

人工智能大规模产业应用将快速展开。传统人工智能技术已经广泛应用。而随着大模型在语义理解、视觉感知和逻辑推理等方面的能力突破,对各行业的颠覆和重塑将会上演。大模型将为未来产业发展注入“智能”,并引发产业竞争新格局。当前全球人工智能产业规模正迅速增长,预计2030年我国人工智能核心产业规模将超过1万亿元。

邱锡鹏团队文章指出,大语言模型未来的改进和扩展空间包括: ①高效大语言模型,已有高效模型架构的工作尚未在大规模参数量下进行验证,高效架构在大规模语言模型预训练下的表现及其改进是未来大语言模型的重要发展方向; ②插件增强的语言模型,集成功能插件已经成为大语言模型快速获得新能力的重要手段,例如,通过集成搜索引擎可以允许模型访问互联网实时信息,通过集成计算器可以帮助模型更精确地执行数学推理,通过集成专业数据库可以使模型具备专业知识问答能力; ③实时交互学习,使得语言模型能够在与用户交互过程中完成实时学习,特别是能够根据用户输入的自然语言指令更新自身知识,是迈向通用人工智能的重要步骤; ④语言模型驱动的具身智能,具身智能与物理世界交互并在环境中完成任务的智能,意味着智能从被动观察学习到探索真实环境、 影响真实环境的转变。语言模型拥有相当的世界知识储备和一定的逻辑推理、因果建模和长期规划等高级认知功能,因而被广泛用于具身任务,并参与环境理解、任务理解、任务序列生成与分发等诸多环节。通过多模态深度融合、强化逻辑推理与计划能力等手段,打造具备强大认知智能的具身系统正在成为大语言模型和机器人领域的研究热点。

张志华教授预测,如果要产生真正的通用人工智能,很可能是利用贝叶斯技术来进行信念推理。贝叶斯推理包括经验贝叶斯、概率图模型等。因为信念是更接近智能的因素,所以在大语言模型基础上信念+贝叶斯学习将值得期待。

2024年6月召开的中国科学院院士大会上,鄂维南院士作了一个以“数学与人工智能”为题的大会报告。他提出,人工智能的众多不同方法可以根据其所用数据量的大小,分为零数据、小数据、大数据和全数据方法。①零数据方法: 逻辑推理、符号计算、专家系统等原则上都不需要数据,逻辑推理方法的主要思路是构造算法和软件模仿人的推理过程,符号表示和符号计算试图把逻辑推理更加形式化、自动化。②小数据方法: 线性回归、逻辑回归、支持向量机等统计学习方法是典型的小数据方法。③大数据方法: 深度学习让大数据充分发挥作用,辛顿(Hinton)团队于2012年赢得ImageNet图像识别比赛冠军是深度学习的典型应用。④全数据方法: 大数据方法考虑的是单个数据集,全数据方法的思路是把所有数据都用起来,如有监督的微调(SFT)技术。

数据隐私、数据泄露、数据安全和伦理道德毫无疑问是当前研究的热点,这包含研究智能系统的可靠性、可解释、公平、偏见、隐私、责任等问题。同时,当前智能系统处在迈向通用和自主的关键时期,研究如何避免智能系统与人类产生冲突,引导智能系统的发展保证人类的福祉,是至关重要的。更紧迫的是伦理责任、道德和公平性等社会问题。如何评估智能系统在社会各层面(如经济、政治、文化等)产生的影响,进而促进积极因素,遏制消极因素,引导智能系统向善、向上,是极有必要的。

本书第3、4、9、10章由张彦铎、卢涛撰写,第6、12章由张献、贲可荣撰写,毛新军参与第8章的撰写,魏娜参与第5章的撰写,杨美妮参与2.5节的撰写,其余各章由贲可荣撰写。全书由贲可荣统稿。何智勇撰写附录B,张献参与撰写附录A,魏娜参与审校及绘图工作,陈志刚教授对全书进行了审校,在此一并致谢。

人工智能(第4版)前言贲可荣2025年1月