前言
自 2012年美国俄亥俄州立大学汪德亮教授等提出基于深度学习的鲁棒语音处理以来,语音降噪处理的深度学习方法迅速成为鲁棒语音处理的主流方法之一,在学术界和工业界的共同努力下,得到了快速发展。语音降噪处理的深度学习方法从最开始只能在匹配的噪声、匹配的信噪比环境下取得一个研究点上的突破,发展到能够在复杂的现实噪声场景和极低信噪比环境下获取惊人的性能;从最开始需要深度置信网络进行分层预训练才能训练成功,发展到今天可以没有难度地训练任意深度的深层网络;从最开始算法时延高达数十毫秒,发展到今天在没有性能显著损失的条件下能够满足实时通信的需求;从最开始的单通道(单麦克风)信号处理,发展到今天可以对由任意多个麦克风组成的自组织网络信号进行联合处理;等等。基于深度学习的鲁棒语音处理技术也在快速步入实际使用,并在智能家居、智能车载、智能语音客服、会议记录等应用方面创造了巨大的产业价值。
尽管该技术发展迅速,但是相关的中文书籍匮乏。对此,本书将以中文首次全面介绍基于深度学习的鲁棒语音处理的发展,具体内容包括语音检测、语音增强、语音去混响、多说话人语音分离、鲁棒声纹识别与鲁棒语音识别。本书侧重对历史的回顾,帮助读者梳理该方向的技术发展脉络和趋势;并着重介绍在实际使用中性能突出的代表性方法,帮助读者快速熟悉该方向的主要技术。
全书共分 8章。第 1章是绪论;第 2章介绍深度学习的基础知识和常见的深度网络模型;第 3~ 6章集中介绍基于深度学习的语音降噪处理前端算法,其中,第 3章介绍语音检测,第 4章介绍单通道语音增强,第 5章介绍多通道语音增强,第 6章介绍多说话人语音分离;第 7章和第 8章分别介绍基于深度学习的语音降噪处理在声纹识别和语音识别方面的应用,其中着重介绍基于深度学习的现代声纹识别、语音识别基础知识和前沿技术。
本书是一部专业性较强的著作,主要面向具备一定语音信号处理和机器学习基础、致力于从事智能语音处理相关工作的高年级本科生、研究生和专业技术人员。
作者在编写本书时参考和引用了一些学者的研究成果、著作和论文,具体出处见参考文献。在此,作者向这些文献的著作者表示感谢。在本书的编写过程中得到了西北工业大学一批优秀研究生的协助,他们分别是官善政、李盛强、王谋、白仲鑫、王瑞、王建宇、杨子叶、刘书培、徐梦龙、李梦真、朱文博、梁成栋、谭旭、唐林瑞泽、陈俊淇、龚亦骏、姚嘉迪、陈益江、王杰、陈星(排名不分先后)。
本书获西北工业大学精品学术著作培育项目资助(项目号为 21GH030801)。
基于深度学习的鲁棒语音处理是一个理论性强、实用面广、内容新、难度大的研究方向,同时这个方向又处于快速发展中,尽管作者在编写过程中力求涵盖最前沿的技术,通过简明、通俗的语言将这门技术介绍给读者,但因作者水平有限,不妥之处在所难免,敬请广大读者批评指正。
张晓雷
2021年 4月