PyTorch语音识别实战
实战语音唤醒、音频特征抽取、语音情绪分类、Whisper语音转换、鸟叫多标签分类、多模态语音文字转换

作者:王晓华

丛书名:人工智能技术丛书

定价:69元

印次:1-2

ISBN:9787302655657

出版日期:2024.03.01

印刷日期:2024.09.30

图书责编:夏毓彦

图书分类:零售

电子书
在线购买
分享
内容简介
作者简介
前言序言
资源下载
查看详情 查看详情 查看详情

《PyTorch语音识别实战》使用PyTorch 2.0作为语音识别的基本框架,循序渐进地引导读者从搭建环境开始,逐步深入到语音识别基本理论、算法以及应用实践,是较好的一本语音识别技术图书。本书配套示例源码、数据集、PPT课件等资源。 《PyTorch语音识别实战》分为13章,内容包括语音识别之路、PyTorch 2.0深度学习环境搭建、音频信号处理的理论与Python实战、音频处理常用工具包Librosa详解与实战、基于DNN的语音情绪分类识别、一学就会的深度学习基础算法、基于PyTorch卷积层的语音情绪分类识别、词映射与循环神经网络、基于Whisper的语音转换实战、注意力机制与注意力模型详解、鸟叫的多标签分类实战、多模态语音转换模型基础、GLM架构多模态语音文字转换实战。 《PyTorch语音识别实战》内容详尽、示例丰富,适合作为语音识别初学者、深度学习初学者、语音识别技术人员的必备参考书,同时也非常适合作为高等院校或高职高专深度学习、语音识别等课程的教材。

王晓华,高校计算机专业讲师,研究方向为云计算、大数据与人工智能。其创作的部分图书:《从零开始大模型开发与微调:基于PyTorch与ChatGLM》《PyTorch 2.0深度学习从零开始学》《Python机器学习与可视化分析实战》《谷歌JAX深度学习从零开始学》《Spark 3.0大数据分析与挖掘:基于机器学习》《TensorFlow深度学习应用实践》《TensorFlow语音识别实战》《TensorFlow 2.0深度学习从零开始学》《深度学习的数学原理与实现》。

前 言 随着信息科技的日新月异,人工智能已经成为新时代经济发展的引擎,而深度学习作为其背后的强大推动力,正在无声无息地改变着我们的生活。语音识别,作为人工智能领域中一颗璀璨的明珠,从智能家居到自动驾驶,从语音助手到无数其他的创新应用,它正在持续地拓展其应用边界,改变着人与机器的交流方式。 本书旨在为读者揭开语音识别的神秘面纱,通过深入浅出的讲解和丰富的实践案例,带领读者走进语音识别的奇妙世界。我们不是只停留在理论的探讨,而是通过大量的实战案例,让读者亲手体验深度学习的魅力,掌握语音识别的核心技术。 本书以应用实战为出发点,结合最新的语音识别深度学习框架进行深入浅出的讲解和演示。作者将以多角度、多方面的方式手把手地教会读者如何进行代码编写,同时结合实际案例深入剖析其中的设计模式和模型架构。 总之,本书是一本理论与实践相结合、全面覆盖语音识别领域、培养创新思维和解决问题能力的专业书籍。通过本书的学习和实践,作者期望每一个读者都能全面掌握深度学习的程序设计方法和技巧,为未来的实际工作做好充分准备。 本书特点 (1)内容与结构的系统性。本书从语音识别的基本概念、发展历程讲起,逐步深入到音频信号处理、深度学习算法、多模态语音转换模型等核心领域。每个章节的内容安排都能做到逻辑清晰、循序渐进,保证了知识的连贯性和易读性,使读者能够在学习的过程中建立起完整的知识体系。 (2)前沿性与创新性。本书站在学术的最前沿,详细介绍基于深度学习的端到端语音识别、多模态架构的语音识别与转换等最新技术。同时,通过介绍GLM架构等多模态语音文字转换的实战内容,展示语音识别技术的创新应用,让读...

暂无课件

样章下载

暂无网络资源

扫描二维码
下载APP了解更多

目录
荐语
查看详情 查看详情
目    录

第1章  语音识别之路 1

1.1  何谓语音识别 1

1.2  语音识别为什么那么难 2

1.3  语音识别之路—语音识别的发展历程 3

1.3.1  高斯混合-隐马尔科夫时代 4

1.3.2  深度神经网络-隐马尔科夫时代 5

1.3.3  基于深度学习的端到端语音识别时代 6

1.3.4  多模态架构的语音识别与转换 7

1.4  基于深度学习的语音识别的未来 8

1.5  本章小结 8

第2章  PyTorch 2.0深度学习环境搭建 9

2.1  环境搭建1:安装Python 9

2.1.1  Miniconda的下载与安装 9

2.1.2  PyCharm的下载与安装 12

2.1.3  Python代码小练习:计算softmax函数 15

2.2  环境搭建2:安装PyTorch 2.0 16

2.2.1  Nvidia 10/20/30/40系列显卡选择的GPU版本 16

2.2.2  PyTorch 2.0 GPU Nvidia运行库的安装 16

2.2.3  PyTorch 2.0小练习:Hello PyTorch 19

2.3  实战:基于特征词的语音唤醒 20

2.3.1  数据的准备 20

2.3.2  数据的处理 21

2.3.3  模型的设计 24

2.3.4  模型的数据输入方法 24

2.3.5  模型的训练 25

2.3.6  模型的结果和展示 26

2.4  本章小结 27

第3章  音频信号处理的理论与Python实战 28

3.1  音频信号的基本理论详解 28

...

"众多实战案例,带你快速掌握语音识别应用开发
基于特征词的语音唤醒实战
短时傅里叶变换实战
梅尔频率倒谱系数实战
基于音频特征的声音聚类实战
基于深度神经网络的语音情绪识别实战
基于卷积神经网络的语音情绪识别实战
基于循环神经网络的文本内容情感分类实战
基于Whisper的语音转换实战
拼音汉字转化实战
鸟叫的多标签分类实战
多模态语音文字转换实战"