目前,python语音识别越来越流行,今天本系列文章开始,我们将一起探索自动语音识别、语言处理技术所包含的核心算法、模型及未来的发展趋势。本篇文章我们主要讨论语音识别的基本概念。并理解语音识别技术的流程。
(一) 自动语音识别技术ASR
自动语音识别,简称ASR。这项技术是使人与人,人与机器更顺畅交流的关键技术。
随着人们对生活的仪式感的追求,移动设备、可穿戴设备、智能家居设备、车载信息娱乐系统也变得越来越流行。在这些设备和系统上,以往鼠标、键盘这样的交互方式就不再延续像用在电脑上一样的便捷性了。而语音作为人类之间自然的交流方式,在这些设备和系统上就成为了更受欢迎的交互方式了。
如果有一个语音到语音翻译系统其实就可以完美消除这个交流壁垒。这样的话就算语言不通人们也可以自由地进行交流。比如我们现在这里看到的就是一个典型的语音到语音的翻译系统,可以看到,语音识别是这个流水过程中的第一环。
(二) 人机交流场景
我们说语音技术可以极大地提升人机交流的能力,其中最流行的应用场景就有大家所熟知的语音搜索、个人数码助理、游戏、起居室交互系统和车载信息娱乐系统。
对于语音搜索而言,它能使用户直接通过语音来搜索餐馆、行驶路线和商品评价的信息。这极大地简化了用户输入搜索请求的方式。目前,语音搜索类的应用在各类品牌和系统的手机上都已非常流行。
第二个个人数码助理已经作为原型产品出现了十年,siri系统就是从它变得流行起来的。自那以后,很多公司都发布了类似的产品。我们把这种系统简称PDA。PDA系统知晓我们在移动设备上的信息,了解一些常识并记录了用户与系统的交互历史。有了这些信息后,PDA可以更好的服务用户。比如,可以完成拨打电话、回答问题和音乐搜索等工作。而用户所需要做的只是直接向系统发出语音指令即可。
在融合语音技术之后,游戏的体验将得到很大的提升。例如,玩家可以和游戏角色对话以询问信息或者发出指令。
最后,起居室交互系统和车载信息娱乐信息在功能上十分相似。这种系统允许用户使用语音与之交互,我们可以通过他们来播放音乐、询问信息或者控制系统。当然,由于这些系统的使用条件不同,设计这样的系统时会遇到不同的挑战。
(三) 语音对话系统的组成
在上述的所有应用场景和系统讨论的都是语音对话系统。如下图所示,语音对话系统通常包括四个主要组成部分的一个或多个:语音识别系统将语音转化为文本、语音理解系统提取用户说话的语义信息、文字转语音系统将内容转化为语音、对话管理系统将前面的三个系统连接起来并完成与实际应用场景的沟通。这些内容对建立一个成功的语音对话系统都是很关键的,我们的关注重点主要是在语音识别系统。
下面展示的语音识别系统的典型结构,语音识别系统主要由图中四个部分组成:信号处理和特征提取、声学模型、语言模型和解码搜索部分。信号处理和特征提取部分是以音频信号作为输入,通过消除噪声和信道失真对语音进行增强,为后面的声学模型提取合适的有代表性的特征向量。声学模型将声学和发音学的知识进行了融合,以特征提取部分生成的特征作为输入,并为可变长特征序列生成声学模型的分数。语言模型估计通过从训练语料,通常是文本形式,学习词之间的相互关系,来估计假设词序列的可能性,又被称作语言模型分数。如果了解了领域或任务相关的先验知识,语言模型分数通常可以估计得更准确。解码搜索对给定的特征向量序列和若干假设词序列计算声学模型分数和语言模型分数,将总体输出分数最高的词序列当做识别结果。在这里,我们主要讨论声学模型。
关于声学模型,有两个主要问题,分别是不定长的特征向量序列和丰富多变的音频信号。不定长的问题通常由动态时间规整方法和隐马尔可夫模型方法来解决。而丰富多变性主要是由于说话的人的各种复杂特性,比如音色、风格、速度等,还有加之环境噪声、周围人声、方言差异等引起。所以,一个成功的语音识别系统必须能够音符所有可能性的变化因素。
这样的话,我们从特定领域任务向真实应用转变时,就会遇到一些困难。就像上图当中所展示的,一个时下实际的语音识别系统需要处理大量的词汇,可能是数百万量级的,自由式对话,带噪声的远场自发语音和多语言混合的问题。由于有了真实世界任务的需求,当今正在解决的语音识别相关的问题,如最右侧所示,就比过去已经解决的问题要难很多。
(四) 传统声学模型
下面我们就来介绍一下传统的声学模型。语音识别建模对语音识别来说是不可或缺的一部分,因为不同的建模技术通常意味着不同的识别性能,所以这是各个语音识别团队重点优化的方向。也正是因为如此,语音识别的模型也层出不穷,在声学模型里面又涵盖了HMM、DNN、RNN等模型。简单来说,声学模型的任务就是描述语音的物理变化规律,而语言模型则表达了自然语言包含的语言学知识。而其中语音信号作为整个系统的输入就显得比较重要了。语音信号计算机中是采用PCM编码按时间序列保存的一连串数据。计算机中最原始语音文件是wav,可以通过各种录音软件录制,其中录制通道表示很多音频都有左右2个通道,在语音识别中通常有一个通道的数据就够了。
再来说说我们做信号处理的目的----获得频率成分的分布,而语音作为非平稳信号要实现就要通过分帧来实现。这时候还有一个操作叫做加窗,加窗的目的是让一帧信号的幅度在两端渐变到 0。渐变对傅里叶变换有好处,可以提高变换结果的分辨率。加窗的代价是一帧信号两端的部分被削弱了,没有像中央的部分那样得到重视。弥补的办法是,帧不要背靠背地截取,而是相互重叠一部分。
这样通常加窗之后我们可以实现特征数的降维以及提取出比原始语音更具表征力的特征。以上可以理解为若干帧对应一个音素,若干音素对应一个单词,如果我们想要识别对应的单词状态,我们只要知道对应的帧状态就行,用计算机能识别的方式最简单的就是概率匹配,这些概率我们就可以通过声学模型获得,所以要做的就是通过训练获得合适的模型参数以拟合好的匹配效果。
(五) 语音识别三步
语音识别大体上包含前端处理,特征提取,模型训练,解码四个模块。其中前端处理包括了,语音转码,高通滤波,端点检测等。
上图是目前语音识别的基本流程,输入的语音数据流经过前端处理(语音格式转码,高通,端点检测),语音格式转码是将输入的语音数据转成pcm或者wav格式的语音,端点检测是检测出转码后语音中的有效语音,这样对解码速度和识别率上都会改善。经过前端处理之后的得到的分段语音数据送入特征提取模块,进行声学特征提取。最后解码模块对提取的特征数据进行解码,解码过程中利用发音字典,声学模型,语言模型等信息构建WFST搜索空间,在搜索空间内寻找匹配概率最大的最优路径,便得到最优的识别结果。
(六) 主流声学建模技术
近年来,随着深度学习的兴起,使用了接近30年的语音识别声学模型HMM(隐马尔科夫模型)逐渐被DNN(泛指深度神经网络)所替代,模型精度也有了突飞猛进的变化,整体来看声学建模技术从建模单元、模型结构、建模流程等三个维度都有了比较明显的变化。其中,深度神经网络超强的特征学习能力大大简化了特征抽取的过程,降低了建模对于专家经验的依赖,因此建模流程逐步从之前复杂多步的流程转向了简单的端到端的建模流程,由此带来的影响是建模单元逐步从状态、三音素模型向音节、字等较大单元演进,模型结构从经典的GMM-HMM向DNN+CTC(DNN泛指深度神经网络)转变,演进的中间态是DNN-HMM的混合模型结构。
(七) 混合高斯模型(GMM)
让我们先来看看GMM混合高斯模型。简单来说,当使用混合高斯随机变量的分布用于匹配真实世界的数据,比如语音特征时,就形成了混合高斯模型。GMM作为描述基于傅里叶频谱语音特征的统计模型,在传统的语音识别系统的声学建模中发挥了重要作用。GMM的优势使得期望最大化算法可以被有效地用来训练模型,以更好的匹配语音特征。原始的语音数据经过变换后会成为特征序列,在忽略时序信息的条件下,GMM就非常适合拟合这样的语音特征。也就是说,可以以帧为单位,用GMM对语音特征进行建模。
(八) 通信模型(HMM)
但是呢?如果把语音顺序信息考虑进去,GMM就不再是一个好模型了,因为它不包含任何顺序信息。这时隐马尔可夫模型就更加通用了,因为它可以对时序信息进行建模。但其实,当给定HMM的一个状态后,若要对属于该状态的语音特征向量的概率分布进行建模,GMM仍不失为一个好的模型。使用GMM对HMM每个状态的语音特征分布进行建模,有许多明显的优势。只要混合的高斯分布足够多,那么GMM可以拟合任意精度的概率分布,并且他可以通过EM算法很容易拟合数据。GMM参数通过EM算法的优化,可以使其在训练数据上生成语音观察特征的概率最大化,在此基础上,若通过鉴别性训练,基于GMM-HMM的语音识别系统的识别准确率可以得到显著提升。尽管GMM有着众多优势,但它也有一个严重的不足,那就是GMM不能有效地对呈非线性或近似非线性的数据进行建模。这就意味着隐藏在语音特征下的真正结构的复杂度,比直接描述现有特征,使其作为语音声学模型的能力比GMM更好,我们要求这种模型要能更加有效地挖掘隐藏在长窗宽语音帧中的信息。这时我们就可以将随机变量的概念延伸到随机序列,它可以是离散的也可以是连续的,非常符合我们的要求,而这种状态就是马尔可夫序列的基本状态,由它衍生出的模型叫做HMM隐马尔可夫模型。大家现在看到的这整个结构就是一个典型的通信系统,而这种系统就特别适合隐马尔科夫模型来进行估计计算了。那么下节课我们就会把重点放在HMM上来做介绍。
本文章就到这里暂时告一个段落,我们下一篇文章再见。
数据分析咨询请扫描二维码
在如今的数据驱动时代,掌握数据分析的工具和方法不仅是提高工作效率的关键,也是开拓职业机会的重要技能。数据分析涉及从数据的 ...
2024-11-08在现代商业环境中,企业正在逐步认识到数据挖掘技术在客户行为分析中的重要性。通过深度分析客户数据,这项技术不仅可以帮助企业 ...
2024-11-08数据挖掘分析是从大量数据中发现隐藏模式和有用信息的过程。尤其是在图数据挖掘中,提供了分析复杂关系和结构的独特视角。图数据 ...
2024-11-08在当今快速发展的商业环境中,提高运营效率已成为企业取得成功的关键因素。企业需要通过优化工作流程、利用技术创新和提升员工技 ...
2024-11-08Python 是一门非常适合初学者学习的编程语言。其简洁明了的语法、丰富的功能库,以及广泛的应用领域,使其成为学习编程的理想选 ...
2024-11-08在当今快速变化的商业环境中,金融数字化已经成为中小企业(SMEs)发展的关键驱动力。通过采用数字工具和技术,中小企业能够提高 ...
2024-11-08中小企业在全球经济中扮演着重要角色,然而,面对数字化浪潮,这些企业如何有效转型成为一大挑战。数字化转型不仅是技术的升级, ...
2024-11-08选择合适的数据分析方法是数据分析流程中的关键环节。它影响最终结论的准确性和可信度。在这个过程中,需要综合考虑数据的性质、 ...
2024-11-08在当今数据驱动的商业环境中,数据分析师扮演着至关重要的角色。他们帮助企业从大量数据中提取有用的洞察,从而推动决策制定和战 ...
2024-11-07在现代商业环境中,商务数据分析师扮演着至关重要的角色。作为联系业务需求与数据洞察之间的桥梁,数据分析师需要具备一系列技能 ...
2024-11-07在现代商业环境中,商务数据分析师扮演着至关重要的角色。作为联系业务需求与数据洞察之间的桥梁,数据分析师需要具备一系列技能 ...
2024-11-07在现代商业环境中,数据挖掘发挥着至关重要的作用。它不仅帮助企业从庞大的数据集中提取有价值的信息,还为企业的决策和业务运营 ...
2024-11-07数据分析可视化是一种通过图形化方式展现数据的技术,它使复杂的数据变得直观易懂,从而帮助我们更好地做出决策。在这个快速发展 ...
2024-11-07数据分析是一项至关重要的技能,尤其在当今数据驱动的世界中。Python以其强大的库和简单的语法成为了数据分析领域的佼佼者。本文 ...
2024-11-07在现代数据驱动的环境中,数据分析师扮演着至关重要的角色。他们需要掌握多种工具,以满足数据分析、处理和可视化的需求。无论是 ...
2024-11-07作为一名业务分析师,你将发现自己处于企业决策和数据驱动战略之间的桥梁位置。这个角色要求掌握一系列技能,以便有效地将数据转 ...
2024-11-07CDA中科院城市环境研究所(厦门)内训圆满成功 2017年9月12日-15日,CDA数据分析师在中科院城市环境研究所(厦门)进行了 ...
2024-11-07数据分析是现代商业和研究领域不可或缺的重要工具。无论是为了提高业务决策的准确性,还是为了发掘隐藏在数据中的潜在价值,了解 ...
2024-11-06数据分析是一个精细且有序的过程,旨在从海量数据中提取有用的信息,为决策提供有力支持。无论你是新手还是有经验的分析师,理解 ...
2024-11-06在当今竞争激烈的商业环境中,业务分析师(Business Analyst, BA)的角色变得愈加重要。随着企业对数据驱动决策的依赖加深,业务 ...
2024-11-06