前言
随着人工智能技术的飞速发展,计算机视觉和智能语音已成为两个核心应用领域,深刻影响着各行各业的变革。从自动驾驶、智能监控、医疗诊断,到语音助手、智能客服和语音翻译,人工智能技术正在不断改变我们与世界互动的方式。计算机视觉和智能语音的结合,创造了更智能的设备和系统,让机器不仅能“看”和“听”,还能理解和决策。
目前,计算机视觉已经从传统的图像处理发展到目标检测、图像分割、三维重建等更加复杂的应用,例如,自动驾驶汽车依赖计算机视觉技术来感知周围环境,从而进行自主决策和路径规划; 智能监控系统则通过面部识别、行为分析等技术提高了公共安全监控的效率和智能化水平,而智能语音技术也已不再局限于简单的语音命令识别,它不仅可以理解人类的语言,还能进行情感分析、自然语言处理、语音合成等,被广泛地应用于语音助手、语音翻译、医疗健康、客户服务等各个领域。
然而,尽管计算机视觉和智能语音领域的理论研究和技术已经有了较为坚实的基础,但是许多学习者和开发者在面对计算机视觉与智能语音技术时仍然感到迷茫。许多人认为这些技术需要掌握大量复杂的数学公式和算法,尤其是机器学习与深度学习的内容往往让人望而却步。此外,市面上多数书籍侧重理论研究,而缺少结合实际应用的项目案例,导致许多读者虽然学习了理论知识,却难以将其应用于实际问题的解决中。
本书围绕计算机视觉和智能语音在交通、工业等领域的案例(交通标志识别、车辆违规检测、火灾与吸烟检测、残次品检测等)进行讲解,理论结合实际,采用大量插图,辅以实例,力求深入浅出,帮助读者快速理解计算机视觉若干模型和算法的基本原理与关键技术。本书既适合高等院校的学生学习使用,也适合从事不同行业的爱好者阅读。在内容编排上,本书的每章都具备独立性,能够独立地解决一类实际问题,读者可以根据自身情况进行选择性阅读; 同时各章之间循序渐进地形成有机整体,使全书内容不失系统性与完整性。
第1~5章主要介绍基于OpenCV的计算机视觉和语音识别的基础技术及机器学习技术的应用,例如人脸检测、眨眼检测、实时声源定位、异常行为聚类分析、使用GMMHMM模型识别孤立词等。
第6~12章主要介绍基于深度学习技术(CNN、YOLO、SSD、DeepSORT、Transformer、GAN等)的应用,例如交通标志识别、车辆型号和特征识别、车辆跟踪、车辆违规检测、基于Transformer深度学习模型的中文OCR、老照片自动着色、图像超分辨率、火灾与吸烟检测、生物特征识别等。
第13章围绕工业产品检测的核心任务,详细探讨了相机建模与校准、立体测距及残次品检测三大技术的实现原理与应用场景。
每个章节不仅有理论的阐述,更通过丰富的案例和代码实现,帮助读者将知识转换为实践能力,特别是在项目实现中,提供了详细的代码示例与应用指导。读者将能够在实际操作中逐步提升自己的开发技能,解决真实世界中的复杂问题。
本书的特点在于,它不仅是一本技术指导书,更是一本实践工具书。每个章节都围绕一个或几个具体的应用案例展开,从问题的提出到算法的选择,再到最终的实现和优化,都配有详尽的讲解和操作步骤。此外,书中提供的代码和实例可以在人工智能边缘计算实训设备(AIEkit)上进行部署与实施,这一平台具有操作简便、适合教学的特点,尤其适合学校和培训机构使用。同时,本书也充分考虑到个人读者的需求,提供了在普通计算机上运行代码的解决方案,确保每位读者都能通过实践获得扎实的技能。
资源下载提示
素材(源码)等资源: 扫描目录上方的二维码下载。
视频等资源: 扫描封底的文泉云盘防盗码,再扫描书中相应章节的二维码,可以在线学习。
本书是慧炬科技人工智能研究院、鄂尔多斯应用技术学院数学与计算机工程学院及鄂尔多斯现代产业学院通力合作的研究成果,也是基于群智能与机器学习技术的预测与分类研究项目的重要研究成果。全书由王海军、冯华、刁景涛策划、组织并负责统稿,参与本书编写工作的有王海军、李海波、王俊林、寇志伟、杨瑞红、王琼夏、王鹏菲、刘安奇等,他们对相关章节材料的组织与选编做了大量细致的工作,在此对各位编者的辛勤付出表示由衷的感谢!
感谢清华大学出版社的老师对本书的重视,他们一丝不苟的工作态度保证了本书的质量。
为读者呈现准确、翔实的内容是编者的初衷,但由于编者水平有限,书中难免存在不足之处,敬请专家和读者给予批评指正。
编者
2026年1月
