前言
想象一个场景: 你和最好的朋友小红一起去餐厅吃饭,你们之间常常不需要说太多话就能理解对方的意图。你们坐下后,小红注意到你目光不自觉地落在了菜单中的烤鸭上,虽然你没有直接说出来,但小红已经知道你对这个菜品感兴趣,于是主动说要点这道菜。小红之所以能够准确地理解你的意图,完全是基于你的非语言线索推测的,没有语言沟通,也能够通过表情变化和眼神交流传达彼此的意图和需求等。
这是我们日常生活中已经习以为常的事情。这种理解他人心理状态的能力,被称为心智理论 (theory of mind,ToM)。近几十年来,很多研究致力于理解这种能力,以及应该怎样测量,等等。视觉心智理论是心智理论概念很重要的一方面,比如开篇的例子中点菜过程中的交流是靠视觉信息传达的。
在科技发展的今天,建模和计算心智理论是一件意义非凡的事。如果人们了解了心智能力的数学表达和计算方法,就有可能创造出像《流浪地球》中MOSS那样的智能体。横空出世的ChatGPT已经很大程度上改变了我们的生活,但是目前研究表明,即使是最先进的大模型,也仍然与人的心智能力相差甚远,这条路存在很多理论障碍有待日后突破。
本书编写的目的就是希望通过全面地介绍心智理论的概念、发展,并且引入视觉心智理论及其计算方式,让读者系统地了解、深入理解这一前沿领域,填补相关图书领域的空白。
作为一个不断演进的领域,视觉心智计算涉及多学科的交叉,涵盖从视觉认知理论到智能体建模的广泛内容。在撰写过程中,我们力求通过清晰的结构和系统的内容,将专业的理论和方法以易于理解的方式呈现给读者。
在本书的编写过程中,我们邀请了诸多同行和朋友给予支持与指导。我们也鼓励读者通过书中的联系方式与我们互动,提出建议或反馈,以便我们不断改进和更新内容。
希望本书能成为探索视觉心智计算领域的有力工具,为研究与应用提供宝贵的参考。
马惠敏
2024年9月
