译 者 序
本书是一本介绍图像和视频处理技术并辅以MATLAB算法实现的书籍。目前介绍图像处理的书籍很多,也有一些介绍视频处理的书籍,但将两者结合在一本书中的还不太多。视频处理是对图像处理的一种扩展,近年来视频的广泛应用也促进了图像技术的推广。另外,学习图像和视频处理技术除了要理解原理,对算法进行实现也很重要。这一方面可帮助读者进一步理解原理,另一方面也有助于借助图像和视频处理技术解决实际问题。MATLAB是面向科学和工程计算的软件平台,用其来展示现图像和视频处理技术既方便又实用。
本书是作为一本实用教材来编写的,没有过多地介绍图像和视频处理技术中的数学公式,而是注重方法的概念和算法的效果。全书每章都以“将学习什么?”开始,介绍本章要分析的主要问题;每章末尾都有“学到了什么?”,总结归纳该章的要点。大多数章在介绍图像和视频处理技术后,还提供了相应的MATLAB教程,以一步一步引导读者实现相应技术的算法,并且可以看到处理的结果。另外,每章都有“了解更多”,给出深入学习或应用的参考(很多章还提供了相应的网站或网页,可以获得更新的 信息)。
本书从结构上看,共有22章和两个附录。全书共有编了号的图323个、表格35个、公式284个,练习题114个。另外还有插图列表、表格列表、参考文献目录和索引术语。全书译成中文约合747千字。本书可作为相关专业本科生和其他专业研究生学习图像技术的课程教材,也可供从事相关领域科技开发和应用的技术人员自学参考。
本书的翻译基本忠实于原来的结构和文字风格。根据中文书籍规范,将序言、前言、致谢、插图列表和表格列表均移到目录前。另外,对原书的索引,考虑中文习惯进行了一些调整,并重新按中文次序进行了排列,以方便使用。
本书作者将全书分为了两个单元:图像处理(第1~19章)和视频处理(第20~22章)。据译者从教学角度看,似可分为4个部分:(1)基础概述(包括第1、2、3、4章),(2)图像处理(包括第5、6、7、8、9、10、11、12、16、17章),(3)图像分析(包括第13、14、15、18、19章),(4)视频处理(包括第20、21、22章)。可使用前两部分作为一门40~48学时的入门图像技术课程的教材,而使用后两部分作为一门30~36学时的后续图像技术课程的教材。
感谢清华大学出版社编辑的精心组稿、认真审阅和细心修改。
最后,作者感谢妻子何芸、女儿章荷铭以及父母家人在各方面的理解和支持。
章毓晋
2013年国际劳动节于北京
通信:北京清华大学电子工程系,100084
电话:(010) 62798540
传真:(010) 62770317
邮箱:zhang-yj@.tsinghua.edu.cn
主页:oa.ee.tsinghua.edu.cn/~zhangyujin/
序 言
今年早些时候,在为办公室搬迁而打包时,我震惊地发现我的很多书(很多情况下是出版商免费送给我用于评估和潜在用途的)都是仿制品:书中的材料都是从多年甚至几十年前的教材中综合和重新包装而来的。Oge Marque的这本书不是仿制品,尽管其许多题材已经存在多年了。她包含经过深思熟虑而汇编出来的材料,与当今成像科学、成像技术、图像理解,尤其是图像处理的学生非常相关。
成像是我主要的专业领域。我对这本书很感兴趣,因为成像和图像处理近年来共同发展。一些成像的方式(计算成像是首先想到的流行语)假定将有(事实上必须)对由传感器系统所收集原始信息的后检测处理。确实,如果没有关键的后处理操作,传感器可能给出对观察者很少或根本没有意义的输出。
归根结底,图像处理在商业化的大规模生产系统中是由特殊的硬件实现的。而在一个成像系统的研究和开发阶段,处理几乎都是使用MATLAB来实现的。Marque的这本书通过直接将所描述的许多处理操作与MATLAB相联系来解决这个问题。
已有大量的文本介绍数字图像处理操作和算法。但是,没有一本书像这本书所做的那样强调人类视觉系统以及它与机器视觉系统之间的相互作用和相互比较。
该书包括丰富的实用材料和一个最新的宝贵参考文献列表,其中有杂志、期刊和网站。我希望看到该书的再版中还有对应的更新列表。对教师有价值的还有她包含许多现代教材所具有的特征,简洁的各章摘要回答了“学到了什么?”的问题。教程圈点文字,引导学生以一个主动学习的过程来了解重要的材料。
我写这个序言不仅是因为我认为这本书很好地考虑了其所预期的图像处理读者,而且因为我看到它影响了我自己学生的思维,这些学生从物理和技术的角度对成像系统感兴趣,但他们必须理解成像系统和图像处理系统之间的联系。
William T. RHODES
William T. RHODES是乔治理工学院电气和计算机工程荣誉退休教授。他在2005年加入了佛罗里达大西洋大学电气工程学院并成为学校成像技术中心的副主任。他是美国光学工程学会和国际光学工程协会的会员,斯普林格光学科学系列的主编和在线刊物“SPIE评论”的主编。
前??言
在三十多年中,使用计算机来仿真人类视觉系统某些属性的前景一直让科学家、工程师和数学家感兴趣,使得图像处理成为应用计算机科学研究中发展最快的领域之一。在过去的15年中,图像和视频处理的领域经历了巨大的增长并变得更流行和方便。这种增长由若干个因素所驱动:广泛使用和价格相对低廉的硬件;各种图像和视频编辑、操作和处理的软件工具;网络的流行和它对视觉信息的高度重视,这是对使用过时胶片相机摄影的一次真正革命;电影工业的发展,以及人们观看、记录、分享电视节目和视频短片方式的突破性变化。
方法/方式
本书对图像和视频处理中最重要的主题提供了一个实用的介绍,并使用MATLAB(和它的图像处理工具箱)作为工具来展示相关技术和算法。“实用”一词在书名中出现并不是指覆盖了这些领域中最新的消费类电子产品;这方面的知识充其量是肤浅的且将在本书出版后不久(甚至在此之前!)被淘汰。“实用”一词应该被解读为“让读者/学生借助从书中获得的知识来制定切实可行的项目,即工作原型”。它还有另一个含义,就是采用“刚刚足够的数学”理念,即更关注书中所描述技术的计算、算法和概念内容,而不是过度的数学形式主义。
因此,本书不仅适合其原有的目标受众作为教材使用(如计算机科学、计算机工程、电子工程和相关课程的高年级本科和低年级研究生),而且也适合使用MATLAB,具有坚实的计算和编程技能,且希望自学图像和视频处理基础的研究者和实践者。
本书主要特点
* 是将图像处理、视频处理以及面向MATLAB的对图像和视频算法和技术进行试验相结合的第一本书。
* 对图像和视频处理技术基本主题的全面、最新、技术上准确和实用的覆盖。
* 37个MATLAB教程可用来作为个人使用MATLAB探究图像和视频处理技术的逐步指南,也可用来由使用本书的教师作为课程的实验室作业。
* 为说明和总结文中描述的主要技术和概念,使用了330多幅图片和30个表格。
* 本书采用了“刚刚足够的数学”理念。许多学生害怕面对非常强调技术的数学方面的图像和视频处理书籍。本书通过在不牺牲解释的完整性条件下仅提供能完全理解一个技术所需的最少量的数学来解决这个问题。
* 本书强调并鼓励实际的实验。在介绍了一个主题后,邀请读者自己操作,从而增强和拓展他们刚学习过的东西并在相同主题下探索新的路径。
* 本书被设计来回答第一次接触这个主题的学生/读者可能提出的最基本问题。它基于我讲授图像和视频处理20年的经历/经验以及一路获得的见解/理解。
* 本书包括许多增强对其主题理解的额外特征(并允许读者更多地学习它们),如练习题和程序设计项目、有用的网站,以及在各章结束处的详尽参考文献列表。
全书一览
本书组织成两个部分:图像处理和视频处理。
第1部分(图像处理)从对领域的介绍和概述开始(第1章),希望激励学生对其余章节的材料贡献时间和精力。第2章介绍与图像表达和图像处理操作相关的基本概念、符号和术语。第3章和第4章分别介绍MATLAB和它的图像处理工具箱,并从此开始构建一系列在其末尾以逐步教程为方式介绍实践活动的章(除第5章)。第5章讨论在图像采集和数字化中涉及的因素。第6章介绍算术和逻辑操作并介绍感兴趣区域(ROI)的处理。第7章介绍几何操作,如大小调整、旋转、剪切和扭曲。第8章~第10章致力于基于点(第8章),基于直方图(第9章)和基于邻域(第10章)的图像增强技术。第11章将图像处理操作扩展到频率域并介绍傅里叶变换和相关的频域图像滤波技术。对图像恢复问题(特别是有噪声和模糊时)的解决在第12章中讨论。第13章详细介绍了数学形态学和它在图像处理中的应用。第14章致力于边缘检测技术。第15章覆盖图像分割。第16章从灰度图像转到彩色图像,介绍有代表性的彩色图像处理技术和算法。图像压缩和编码,包括最现代和相关的标准是第17章的内容。第18章考察特征提取和表达问题,并自然地引到第19章,所得到的特征矢量在那里可用于分类和识别目的。
第2部分(视频处理)从介绍与模拟视频和系统以及数字视频格式和标准的主要概念和术语开始(第20章)。它接下来描述在标准之间转换而出现的技术问题(第21章)。第22章讨论运动估计和补偿技术,展示如何可滤波视频序列,并用一个使用MATLAB解决在视频序列中目标检测和跟踪问题的简单例子来结束。
本书包括两个附录。附录A选择一些在设计图像和视频处理系统中起作用的人类视觉系统特性。附录B提供一个有关在MATLAB中如何开发图形用户界面(GUI)的教程。
教师注意事项
本书可用于一个或两个学期的高年级本科生或研究生入门的图像和视频处理课程。本书中的大多数材料已经在过去20年里很多这样的课程中检验过。下面是对采用本教材教师的建议总汇。
第1部分围绕一个典型的机器视觉系统进行组织,从图像采集到模式识别。第1部分中的所有章(除第16章和第17章)遵循一个自然的顺序,它覆盖了在图像采集、对它们预处理以消除缺陷或改进它们的性质,分割它们为感兴趣的目标,提取目标特征,以及将目标划分到不同类型中的所有步骤。第1章的目标是提供可以用图像处理算法获得的有广度和远景的初步示例,以及构成一个机器视觉系统的系统性观点。有些教师可能希望将这些信息与第2章的材料结合起来作为在该课程早期介绍的主题。
来自第3章和第4章的材料经过细心选择以使本书自成一体,它们给学生提供了学习MATLAB和图像处理工具箱教程所有可能会需要的信息。读者在其后课程中需要与MATLAB相关的帮助还可以参考这两章。只有有限教学时间的教师可以选择仅仅简短地概述这两章,布置对应的教程,并通过让学生学习教程并回答相关问题来监控其学习进度。
第5章简洁地介绍图像感知和采集的主题。它的主要目标是用把一个三维(3-D)真实世界场景转换为一个二维(2-D)数字版本的信息来装备读者。非常强调图像捕获和采集硬件的课程教师可以用详细的参考文献(如关于在可见光谱外工作的传感器、立体视觉相机、相机校正,以及很多其他主题)补充那里的材料。
第6章~第10章很简单明了地涵盖了任何图像处理课程中的基本主题。它们还为感兴趣的讨论、实验室作业和小的项目提供了很多空间。
第11章对某些学生有点挑战,这源自与傅里叶变换相关的数学推导。教师可以使用那章介绍的MATLAB交互频域演示(fddemo),它是一个培养学生对频域滤波技术基本概念的理解信心的有价值工具。第12章构建在第10章和第11章的知识基础上,它聚焦于噪声消除和去模糊技术。有些教师可以选择淡化对噪声模型(12.1节和12.2节)的讨论,而较早地介绍在12.3节~12.5节中描述的空域和频域滤波技术的应用。
第13章自成一体,它给了教师调整层次(从完全跳过它到详细介绍它)而不会对课程中其他主题产生重要影响的灵活性。
第14章和第15章介绍了任何图像处理课程中的两个基本主题。希望在课程里较早介绍其中部分内容或以不同顺序介绍的教师应该可以方便地提取相关的节并将它们移动到不同的时间点。
第16章包含彩色图像处理的信息,且以某种形式与先前的章(特别地与那些有关增强、分割和边缘提取的章)相联系。保持彩色于一个分离的章中而不是将彩色图像处理分布在文本的各处是一个有意识的决定。相信当读者接触到第16章时,他们将能很容易地浏览其中的内容并将注意力放在他们早期从灰度图像中学到的东西与在彩色图像中对应东西的区别上。不同意这个观点的教师可以很容易地将第16章的相应节移提前介绍。
第17章考虑图像压缩和编码,它们是非常广泛和技术上复杂的主题,有些书籍整本都介绍它们。因为本书关注的是使用MATLAB来构建实用的图像处理和机器视觉解决方案,所以将从一个较宽的角度(当今使用的标准、压缩技术的分类和它们的主要特性,等等)来考虑而不试图对这些主题进行深入讨论,因为那样有可能分散注意力而没有多少意义。从务实的角度来看,因为读者的目标是使用MATLAB来处理图像和利用它从很多格式(大多数使用某种形式的压缩)读取和写入图像的能力,所以本书关注的是如何以有意义的方式使用这些能力。教师可以根据其目标用不同的方式进行,从用更多的参考文献扩展第17章(如果图像编码和压缩是课程教学大纲的重要部分)到将整章跳过(如果课程的主要目标是对一个实际问题构建机器视觉方案,其中可能不需要这种类型的知识)。
第18章和第19章紧密联系。它们提供了设计和实现图像处理和机器视觉方案时最关键阶段中两个方面的信息:特征提取和模式分类。依赖于图像的种类和所设计方案的特殊需求,第18章给出了特征提取和表达技术的广泛选择。教师可能会对第19章为所有学生所提供的从相关模式识别、数据挖掘和信息检索领域需要的基本概念感到满意而不需要另外的参考文献。如果课程不对任何这些领域有先修的要求,这点就尤为重要。在第19章结尾的教程是根据对第18章和第19章所介绍算法的选择、设计和微调来构建的。希望在学习到本书的这个位置时,学生不仅流畅掌握了MATLAB和图像处理而且获得了回过头来批判地反思什么可以工作,什么不能工作,以及为什么的能力。
第2部分组织成3章,可以用在一个或两个学期(结合图像和视频处理)课程的后段或在专门涉及视频处理课程的前端。在后一种情况下,教师可以用附加的文献(如对研究生层次课程,视频处理的学术文章和相关主题)对第2部分的材料进行补充。
第20章涵盖了广泛的主题,从基本的模拟视频概念到数字视频标准和编解码器。它提供了在多个方向扩展的空间,从更深入地学习电视广播系统到更详细的分析现代视频压缩框架和标准。第21章涵盖了标准转换的主题,并讨论实现它们的最流行技术。第22章将讨论扩展到包括运动估计和补偿,以及(帧内和帧间)视频滤波技术。它以一个用MATLAB实现的实用项目结尾,该项目是由我从前的一位学生完成的:在一个用固定的相机获得且具有复杂运动背景的视频序列中进行目标检测和跟踪的系统。将这个案例研究包括在内的目的是总结第2部分(和全书)的讨论,提醒读者在此时他们将应该具有足够的知识以完成类似的项目(教师可在课程结束项目中布置)。
在附录A中的材料与图像和视频处理系统非常相关,因为它解释了人类视觉系统特性与其在构建相似系统的设计决策中影响的联系。教师也可考虑将它(或部分)在课程的更早阶段介绍。
附录B是一个对开发MATLAB应用GUI的实用指导。它应该能让学生在它们的MATLAB项目中开发视觉上吸引人、具有交互性和功能性的界面。
还有一个对MATLAB和章末教程的注解。使用MATLAB(和它的特性处理工具箱)十多年后,我完全同意Rudra Pratap [Pra02]所写的话,“MATLAB的易用性是它的主要特征”。MATLAB有一个平缓的学习曲线,允许用户加入到一个交互学习的方式中,在一定程度上提升用户正确应对挑战的技能,并逐步提高。本书中所包含的MATLAB教程也是在这个理念下构思的。
网站
本书配套的网站((http://www.ogemarques.com)包含很多为学生和教师准备的补充材料:书中所有MATLAB教程的代码,所选图片的MATLAB代码,测试图像和视频序列,补充问题,教程和项目(不能制成印刷版),以及一个不断增长和经常维护的网站名单,包括图像处理会议、软件、硬件、研究团体、测试图像库以及更多内容(的链接)。
Oge Marques
致??谢
我深深地感谢许多为此项目(直接或间接)合作过的人。这本书没有他们的帮助是不可能完成的。
我希望感谢许多在图像和视频处理以及相关领域给我以指导的教授、导师和同事,特别是Maria G. Te Vaarwerk、Wim Hoeks、Bart de Greef、Eric Persoon、John Bernsen、Borko Furht和Bob Cooper。
特别感谢我的朋友和同事Hugo Vieira Neto,他在该项目中从早期规划阶段到完成都给予了极大的支持。
我深深感谢Gustavo Benvenutti Borba在创建这本书中大部分图片中的出色工作,他有见地的评论和意见、持续的鼓励,以及很多小时的时间投入是不能用仅若干行的感谢所回报的。
还要感谢Liam M. Mayron在这个项目所有步骤中的鼓励、支持和专业帮助。
这本书没有Jeremy Jacob的宝贵贡献将不能出版,他编写、修订并记录了书和教程中相关的MATLAB代码,并贡献了附录B中的内容。
特别要感谢这些年来MathWorks图书计划(Courtney Esposito、Naomi Fernandes和Meg Vulliez)的支持。
若干个朋友和同事审阅了书中所选部分的草稿:Liam M. Mayron、Hugo Vieira Neto、Mathias Lux、Gustavo Benvenutti Borba、Pierre Baillargeon、Humberto Remigio Gamba、Vladimir Nedovic、Pavani Chilamakuri和Joel Gibson。我想对他们仔细审稿和有见地的意见和建议表示感谢。我已经尽力修改了他们指出的错误并根据他们的建议改进了书里的内容。如果还有任何遗留的错误,它将完全是我的责任而不是他们的。如果你发现了任何错误,请给我发邮件:omarques@ieee.org。我将在以后印刷这本书时改正它们。
我的最大感谢给我的出版商JohnWiley & Sons以及George J. Telecki和他的优秀工作人员。他们在这个项目的整个期间耐心地与我一起工作:Lucy Hitz、RachelWitmer和Melissa Valentine。他们的善良和敬业精神使得此书的出版是一个非常愉快的过程。
感谢Amy Hendrickson(TeXnology Inc.)在有关LATEX方面的专业帮助。
最后但肯定不是最不重要的是,我要感谢我的家庭始终如一的慈爱、耐心和理解。
Oge Marques
