目前,python语音识别越来越流行,今天本系列文章开始,我们将一起探索自动语音识别、语言处理技术所包含的核心算法、模型及未来的发展趋势。本篇文章我们主要讨论语音识别的基本概念。并理解语音识别技术的流程。
(一) 自动语音识别技术ASR
自动语音识别,简称ASR。这项技术是使人与人,人与机器更顺畅交流的关键技术。
随着人们对生活的仪式感的追求,移动设备、可穿戴设备、智能家居设备、车载信息娱乐系统也变得越来越流行。在这些设备和系统上,以往鼠标、键盘这样的交互方式就不再延续像用在电脑上一样的便捷性了。而语音作为人类之间自然的交流方式,在这些设备和系统上就成为了更受欢迎的交互方式了。
如果有一个语音到语音翻译系统其实就可以完美消除这个交流壁垒。这样的话就算语言不通人们也可以自由地进行交流。比如我们现在这里看到的就是一个典型的语音到语音的翻译系统,可以看到,语音识别是这个流水过程中的第一环。
(二) 人机交流场景
我们说语音技术可以极大地提升人机交流的能力,其中最流行的应用场景就有大家所熟知的语音搜索、个人数码助理、游戏、起居室交互系统和车载信息娱乐系统。
对于语音搜索而言,它能使用户直接通过语音来搜索餐馆、行驶路线和商品评价的信息。这极大地简化了用户输入搜索请求的方式。目前,语音搜索类的应用在各类品牌和系统的手机上都已非常流行。
第二个个人数码助理已经作为原型产品出现了十年,siri系统就是从它变得流行起来的。自那以后,很多公司都发布了类似的产品。我们把这种系统简称PDA。PDA系统知晓我们在移动设备上的信息,了解一些常识并记录了用户与系统的交互历史。有了这些信息后,PDA可以更好的服务用户。比如,可以完成拨打电话、回答问题和音乐搜索等工作。而用户所需要做的只是直接向系统发出语音指令即可。
在融合语音技术之后,游戏的体验将得到很大的提升。例如,玩家可以和游戏角色对话以询问信息或者发出指令。
最后,起居室交互系统和车载信息娱乐信息在功能上十分相似。这种系统允许用户使用语音与之交互,我们可以通过他们来播放音乐、询问信息或者控制系统。当然,由于这些系统的使用条件不同,设计这样的系统时会遇到不同的挑战。
(三) 语音对话系统的组成
在上述的所有应用场景和系统讨论的都是语音对话系统。如下图所示,语音对话系统通常包括四个主要组成部分的一个或多个:语音识别系统将语音转化为文本、语音理解系统提取用户说话的语义信息、文字转语音系统将内容转化为语音、对话管理系统将前面的三个系统连接起来并完成与实际应用场景的沟通。这些内容对建立一个成功的语音对话系统都是很关键的,我们的关注重点主要是在语音识别系统。
下面展示的语音识别系统的典型结构,语音识别系统主要由图中四个部分组成:信号处理和特征提取、声学模型、语言模型和解码搜索部分。信号处理和特征提取部分是以音频信号作为输入,通过消除噪声和信道失真对语音进行增强,为后面的声学模型提取合适的有代表性的特征向量。声学模型将声学和发音学的知识进行了融合,以特征提取部分生成的特征作为输入,并为可变长特征序列生成声学模型的分数。语言模型估计通过从训练语料,通常是文本形式,学习词之间的相互关系,来估计假设词序列的可能性,又被称作语言模型分数。如果了解了领域或任务相关的先验知识,语言模型分数通常可以估计得更准确。解码搜索对给定的特征向量序列和若干假设词序列计算声学模型分数和语言模型分数,将总体输出分数最高的词序列当做识别结果。在这里,我们主要讨论声学模型。
关于声学模型,有两个主要问题,分别是不定长的特征向量序列和丰富多变的音频信号。不定长的问题通常由动态时间规整方法和隐马尔可夫模型方法来解决。而丰富多变性主要是由于说话的人的各种复杂特性,比如音色、风格、速度等,还有加之环境噪声、周围人声、方言差异等引起。所以,一个成功的语音识别系统必须能够音符所有可能性的变化因素。
这样的话,我们从特定领域任务向真实应用转变时,就会遇到一些困难。就像上图当中所展示的,一个时下实际的语音识别系统需要处理大量的词汇,可能是数百万量级的,自由式对话,带噪声的远场自发语音和多语言混合的问题。由于有了真实世界任务的需求,当今正在解决的语音识别相关的问题,如最右侧所示,就比过去已经解决的问题要难很多。
(四) 传统声学模型
下面我们就来介绍一下传统的声学模型。语音识别建模对语音识别来说是不可或缺的一部分,因为不同的建模技术通常意味着不同的识别性能,所以这是各个语音识别团队重点优化的方向。也正是因为如此,语音识别的模型也层出不穷,在声学模型里面又涵盖了HMM、DNN、RNN等模型。简单来说,声学模型的任务就是描述语音的物理变化规律,而语言模型则表达了自然语言包含的语言学知识。而其中语音信号作为整个系统的输入就显得比较重要了。语音信号计算机中是采用PCM编码按时间序列保存的一连串数据。计算机中最原始语音文件是wav,可以通过各种录音软件录制,其中录制通道表示很多音频都有左右2个通道,在语音识别中通常有一个通道的数据就够了。
再来说说我们做信号处理的目的----获得频率成分的分布,而语音作为非平稳信号要实现就要通过分帧来实现。这时候还有一个操作叫做加窗,加窗的目的是让一帧信号的幅度在两端渐变到 0。渐变对傅里叶变换有好处,可以提高变换结果的分辨率。加窗的代价是一帧信号两端的部分被削弱了,没有像中央的部分那样得到重视。弥补的办法是,帧不要背靠背地截取,而是相互重叠一部分。
这样通常加窗之后我们可以实现特征数的降维以及提取出比原始语音更具表征力的特征。以上可以理解为若干帧对应一个音素,若干音素对应一个单词,如果我们想要识别对应的单词状态,我们只要知道对应的帧状态就行,用计算机能识别的方式最简单的就是概率匹配,这些概率我们就可以通过声学模型获得,所以要做的就是通过训练获得合适的模型参数以拟合好的匹配效果。
(五) 语音识别三步
语音识别大体上包含前端处理,特征提取,模型训练,解码四个模块。其中前端处理包括了,语音转码,高通滤波,端点检测等。
上图是目前语音识别的基本流程,输入的语音数据流经过前端处理(语音格式转码,高通,端点检测),语音格式转码是将输入的语音数据转成pcm或者wav格式的语音,端点检测是检测出转码后语音中的有效语音,这样对解码速度和识别率上都会改善。经过前端处理之后的得到的分段语音数据送入特征提取模块,进行声学特征提取。最后解码模块对提取的特征数据进行解码,解码过程中利用发音字典,声学模型,语言模型等信息构建WFST搜索空间,在搜索空间内寻找匹配概率最大的最优路径,便得到最优的识别结果。
(六) 主流声学建模技术
近年来,随着深度学习的兴起,使用了接近30年的语音识别声学模型HMM(隐马尔科夫模型)逐渐被DNN(泛指深度神经网络)所替代,模型精度也有了突飞猛进的变化,整体来看声学建模技术从建模单元、模型结构、建模流程等三个维度都有了比较明显的变化。其中,深度神经网络超强的特征学习能力大大简化了特征抽取的过程,降低了建模对于专家经验的依赖,因此建模流程逐步从之前复杂多步的流程转向了简单的端到端的建模流程,由此带来的影响是建模单元逐步从状态、三音素模型向音节、字等较大单元演进,模型结构从经典的GMM-HMM向DNN+CTC(DNN泛指深度神经网络)转变,演进的中间态是DNN-HMM的混合模型结构。
(七) 混合高斯模型(GMM)
让我们先来看看GMM混合高斯模型。简单来说,当使用混合高斯随机变量的分布用于匹配真实世界的数据,比如语音特征时,就形成了混合高斯模型。GMM作为描述基于傅里叶频谱语音特征的统计模型,在传统的语音识别系统的声学建模中发挥了重要作用。GMM的优势使得期望最大化算法可以被有效地用来训练模型,以更好的匹配语音特征。原始的语音数据经过变换后会成为特征序列,在忽略时序信息的条件下,GMM就非常适合拟合这样的语音特征。也就是说,可以以帧为单位,用GMM对语音特征进行建模。
(八) 通信模型(HMM)
但是呢?如果把语音顺序信息考虑进去,GMM就不再是一个好模型了,因为它不包含任何顺序信息。这时隐马尔可夫模型就更加通用了,因为它可以对时序信息进行建模。但其实,当给定HMM的一个状态后,若要对属于该状态的语音特征向量的概率分布进行建模,GMM仍不失为一个好的模型。使用GMM对HMM每个状态的语音特征分布进行建模,有许多明显的优势。只要混合的高斯分布足够多,那么GMM可以拟合任意精度的概率分布,并且他可以通过EM算法很容易拟合数据。GMM参数通过EM算法的优化,可以使其在训练数据上生成语音观察特征的概率最大化,在此基础上,若通过鉴别性训练,基于GMM-HMM的语音识别系统的识别准确率可以得到显著提升。尽管GMM有着众多优势,但它也有一个严重的不足,那就是GMM不能有效地对呈非线性或近似非线性的数据进行建模。这就意味着隐藏在语音特征下的真正结构的复杂度,比直接描述现有特征,使其作为语音声学模型的能力比GMM更好,我们要求这种模型要能更加有效地挖掘隐藏在长窗宽语音帧中的信息。这时我们就可以将随机变量的概念延伸到随机序列,它可以是离散的也可以是连续的,非常符合我们的要求,而这种状态就是马尔可夫序列的基本状态,由它衍生出的模型叫做HMM隐马尔可夫模型。大家现在看到的这整个结构就是一个典型的通信系统,而这种系统就特别适合隐马尔科夫模型来进行估计计算了。那么下节课我们就会把重点放在HMM上来做介绍。
本文章就到这里暂时告一个段落,我们下一篇文章再见。
数据分析咨询请扫描二维码
在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19阿里P8、P9失业都找不到工作?是我们孤陋寡闻还是世界真的已经“癫”成这样了? 案例一:本硕都是 985,所学的专业也是当红专业 ...
2024-12-19CDA持证人Louis CDA持证人基本情况 我大学是在一个二线城市的一所普通二本院校读的,专业是旅游管理,非计算机非统计学。毕业之 ...
2024-12-18最近,知乎上有个很火的话题:“一个人为何会陷入社会底层”? 有人说,这个世界上只有一个分水岭,就是“羊水”;还有人说,一 ...
2024-12-18在这个数据驱动的时代,数据分析师的技能需求快速增长。掌握适当的编程语言不仅能增强分析能力,还能帮助分析师从海量数据中提取 ...
2024-12-17在当今信息爆炸的时代,数据分析已经成为许多行业中不可或缺的一部分。想要在这个领域脱颖而出,除了热情和毅力外,你还需要掌握 ...
2024-12-17数据分析,是一项通过科学方法处理数据以获取洞察并支持决策的艺术。无论是在商业环境中提升业绩,还是在科研领域推动创新,数据 ...
2024-12-17在数据分析领域,图表是我们表达数据故事的重要工具。它们不仅让数据变得更加直观,也帮助我们更好地理解数据中的趋势和模式。相 ...
2024-12-16在当今社会,我们身处着一个飞速发展、变化迅猛的时代。不同行业在科技进步、市场需求和政策支持的推动下蓬勃发展,呈现出令人瞩 ...
2024-12-16在现代商业世界中,数据分析师扮演着至关重要的角色。他们通过解析海量数据,为企业战略决策提供有力支持。要有效完成这项任务, ...
2024-12-16在当今数据爆炸的时代,数据分析师是组织中不可或缺的导航者。他们通过从大量数据中提取可操作的洞察力,帮助企业在竞争激烈的市 ...
2024-12-16