图书前言

鉴于新一代智能人机交互(HCI)系统和虚拟现实(VR)系统的应用需要,自然人手的三维(3D)跟踪理论和方法研究已经成为国内外广泛关注的热点问题之一,在三维互联网、手语识别、手指鼠标、虚拟物体控制、家电遥控、Windows命令控制、手指绘画、机器人控制等领域得到初步应用。这种成功应用的主要原因在于HCI技术正在从以计算机为中心逐步转移到以人为中心。然而,目前绝大多数新型HCI仍然以数字手套为基本输入设备,其主要优点是: 算法设计简单,精度高,速度快,无需摄像设备,数据采样结果不受光线等外界条件的影响,输入数据量小,可以直接获得手在空间的三维信息和手指的运动信息。其主要缺点是: 影响操作者的沉浸感,且数字手套本身价格昂贵、容易损坏。为了克服这些弊端,研究者通过在手上作标记,进行带标记的手势跟踪研究。但该方法在带来方便和简单的同时,也带来了不便和麻烦。在基于人脸、头部、手臂、人手、人眼以及整个人体的输入方式中,由于在通信和操作中的灵巧性,人手是最有效、用途最多的输入工具。手势是一种自然、直观、易于学习的人机交互手段,以人手直接作为计算机的输入方式,人机间的通信将不再需要中间媒体,用户可以简单地定义一种适当的手势来对周围的机器进行控制;手势是人与人之间的一种非口头交流形式,它包括从用手指示方向和移动物体的简单动作到能够表达感情以及允许彼此交流的复杂手势。考虑到人们拥有做手势的大量经验知识,如果人们能够把这些技能从日常的经验中转换过来并用在人机交互方面上,就可以期盼直观的、操作简便的,并且功能强大的人机接口。

实际上,手势跟踪和交互技术已经引起国内外很多著名IT企业的高度关注。2008年,苹果公司就把手势交互技术引入MacBook笔记本电脑;微软公司已经把手势识别功能引进到Xbox游戏机和Windows;Softkinetic的CEO Michel Tombroff认为:“与3D解决方案的引领者Virtools的合作,对我们来说开发无标识的3D手势识别跟踪是必然的选择。”2010年1月8日,GestureTek在CES 2010大会上宣布其最新专利成果,屡获殊荣的基于手势移动设备的交互应用软件现在已经支持Android操作系统。2010年9月,Intel在旧金山信息技术峰会上展示了Intel的7大研究方向,OASIS(ObjectAware Situated Interactive System)便是其中之一,它旨在研究如何在家庭环境中使用3D物体识别和基于手势的互动。手势跟踪和交互技术已经在手语识别、手指鼠标、虚拟物体控制、家电遥控、Windows命令控制、手指绘画和机器人控制等领域得到初步应用。

然而,相比之下,目前在三维手势跟踪研究方面还比较薄弱,绝大部分研究和应用集中在二维手势。我们认为,随着计算机交互设备和交互技术的不断发展,二维图形用户界面的局限性越来越明显地体现出来。

(1) 从界面的信息表示能力来看,二维图形技术的一个重要的缺点是不能用一种自然的方法表示复杂的多维关系。

(2) 从交互方式而言,在虚拟现实等环境下很难用传统的交互方式来进行自然、和谐的表达,因为用传统方法反而大大增加了用户的交互难度,同时也加重了交互任务的整合工作。

(3) 用户界面的发展历经了批处理、命令行和图形界面三个阶段,三维人机交互界面的研究已经成为一个紧迫的研究课题。

目前,HCI技术正在从以计算机为中心逐步转移到以人为中心,以三维手势作为交互工具的必要性越来越突出:

(1) 交互方式逐渐演化为适应人类的行为习惯,而不是计算机程序,更加强调以人为本;

(2) 使用多种媒体、多种模式进行交互;

(3) 基于多通道和多媒体的自然、高效、智能化、无障碍的HCI将是新一代智能HCI的主要发展方向;

(4) 人类自然形成的与自然界沟通的认知习惯和形式必定是人机交互的发展方向,人机交互正朝着自然和谐的人机交互技术和用户界面的方向发展,而三维人机交互是其中一个重要的研究方向;

(5) 在VR等三维系统中,采用二维手势进行交互是不方便的;

(6) 网络从2D的时代也将逐渐转变为3D网络时代,这是信息时代的呼唤,也是人类和世界科技发展的必然趋势;

(7) 随着三维显示技术的迅速发展,光纤网络的逐渐普及,网络带宽的不断增加,3D网络将成为未来发展的趋势,也具有非常好的市场前景。

在3D网络得以应用的条件下,3D显示技术的进一步延伸,三维物体的数字全息显示将为人们提供巨大的视觉冲击,它能够在近似真实三维空间再现原物体的三维图形,为实现真3D立体显示提供可行的方法,但怎样与之进行交互,尤其以手势作为自然交互工具,怎样将交互与可视化融合到3D网络界面,显然是学者们面临的另一个极富挑战性课题之一。

手势跟踪往往是手势交互的前提和基础,其核心目标是在普通摄像头、自然光照条件、复杂背景和普通PC条件下,在线、实时、鲁棒、精准地逐帧获取用户手势的三维结构及运动参数。这种研究涉及计算机图形图像处理、人机交互理论、计算机视觉、射影几何学、预测估计方法学和软计算理论等众多交叉学科,对其进行深入研究,对于深化智能HCI的理论和应用,尤其是在虚拟现实中的应用,对于推进相关学科的应用研究都具有重要意义。

本书主要研究三维手势跟踪的理论和方法:一是梳理国内外前沿的研究进展和动态,二是揭示在通往研究目标之路上可能面临的关键科学问题和应用实践问题。

本书得到国家自然科学基金(No. 61173079, No. 60973093, No. 61173078,No. 60773109)、山东省自然科学基金重点项目(ZR2011FZ003)以及济南大学学科建设重点项目经费(YTD1103)的资助。本书也是团队成员集体劳动的结晶,尤其感谢团队的徐涛博士、郑艳伟老师、唐好魁老师和历届研究生为本书付出的艰辛努力。在此一并表示感谢。

由于作者研究水平有限,书中错误在所难免,欢迎读者批评指正。

冯志全杨波2013年1月