摘要:本文简要介绍了语音识别技术的理论基础和分类方法、所使用的关键技术以及面临的困难和挑战。 最后讨论了语音识别技术的发展前景和应用。
关键词:语音识别; 特征提取; 模式匹配; 模型训练
CLC 分类号:TP312 文档识别码:A 文章编号:1007-9599 (2010) 05-0000-01
语音识别技术综述
刘宇1,2,马艳丽1,董贝贝1
(1.河北北方大学信息科学与程学院,张家口075000;2.天津大学电子信息程学院,天津300072)
摘要:本文简要介绍了语音识别技术的理论基础、分类模式、所采用的关键技术以及面临的困难和挑战,并展望了语音识别技术的发展前景和应用。上一部分讨论过。
关键词:语音识别;字符拾取;模式匹配;模型训练
1.语音识别技术的理论基础
语音识别技术:是一种让机器通过识别和理解的过程将语音信号转换成相应的文本或命令的先进技术。 语音识别以语音为研究对象。 它是语音信号处理的一个重要研究方向,也是模式识别的一个分支。 它涉及生理学、心理学、语言学、计算机科学和信号处理等多个领域,甚至涉及人类。 肢体语言(比如一个人说话时的表情、手势等能够帮助对方理解的动作),最终目的是实现人与机器之间的自然语言交流。
虽然不同语音识别系统的具体实现细节不同,但所使用的基本技术是相似的。 典型的语音识别系统主要包括三个方面:特征提取技术、模式匹配准则和模型训练技术。 此外,还涉及到语音识别单元的选择。
(1)语音识别单元的选择
选择识别单元是语音识别研究的第一步。 语音识别单元分为三种类型:单词(句子)、音节和音素。 选择哪一种取决于具体的研究任务。
词(句)单元广泛应用于中小词汇量的语音识别系统英语培训,但由于模型库太大、训练模型任务重、模型匹配算法复杂等原因,不适合大词汇量系统。难以满足实时性要求。
音节单元在汉语语音识别中比较常见,主要是因为汉语是单音节结构的语言,而英语是多音节结构的语言,汉语虽然有大约1300个音节,但如果不考虑声调,大约有408个无调性音节,这是一个数量比较大。 很少。 因此,对于中、大词汇量的汉语语音识别系统,采用音节作为识别单位基本是可行的。
过去,音素单元主要用于英语语音识别研究,但目前中、大词汇量的中文语音识别系统也越来越多地使用。 原因是汉语音节仅由声母(含零声母22个)和韵母(共28个)组成,韵母的声学特性差异很大。 在实际应用中英语识别语音,声母常常根据后续韵母的差异,形成细化的声母。 虽然这增加了模型的数量,但也提高了区分容易混淆的音节的能力。 由于协同发音的影响英语识别语音,音素单元是不稳定的,因此如何获得稳定的音素单元还有待研究。
(2)特征参数提取技术
语音信号蕴藏着丰富的信息,但如何提取对语音识别有用的信息呢? 特征提取就是完成这项作。 它对语音信号进行分析处理,去除对语音识别无意义的冗余信息,获得影响语音识别的重要信息。 对于非特定人语音识别,希望特征参数能够反映尽可能多的语义信息,并尽量减少说话人的个人信息(对于特定人语音识别学英语,则相反)。 从信息论的角度来看,这就是信息压缩的过程。
线性预测(LP)分析技术是目前广泛使用的特征参数提取技术,许多成功的应用系统都采用基于LP技术提取的倒谱参数。 然而,线性预测模型是纯模型,没有考虑人类听觉系统的语音处理特性。
基于感知线性预测(PLP)分析提取的梅尔参数和感知线性预测倒谱在一定程度上了人耳对语音的处理特性,并将一些研究成果应用于人类听觉感知中。 实验证明,利用该技术,语音识别系统的性能得到了一定程度的提升。
一些研究人员也尝试将小波分析技术应用于特征提取,但目前的性能很难与上述技术相比英语识别语音,需要进一步研究。
(3)模式匹配与模型训练技术
模型训练是指按照一定的准则从大量已知模式中获取代表模式本质特征的模型参数,而模式匹配是指按照一定的准则获取未知模式与模型库中的模型的最佳匹配。标准。
语音识别中使用的模式匹配和模型训练技术主要包括动态时间规整技术(DTW)、隐马尔可夫模型(HMM)和人神经元网络(ANN)。
DTW是一种较早出现的模式匹配和模型训练技术。 它采用动态规划方法成功解决了语音信号特征参数序列不等序列比较的问题,在孤立词语音识别中取得了良好的性能。 但由于它不适合连续语音大词汇量语音识别系统,因此已被HMM模型和ANN所取代。
HMM模型是语音信号时变特征的参数表示。 它通过两个相互关联的随机过程来描述信号的统计特征,其中一个是具有有限状态的隐藏(不可观测)Markor链,另一个是与Markor链的每个状态相关联的随机观测向量。 过程(可观察)。 隐藏的 Markor 链的特征是通过可观察的信号特征来揭示的。 这样,语音等时变信号的某一段特征就可以通过相应的状态观测符号的随机过程来描述,而信号随时间的变化则可以通过隐马尔可夫的转移概率来描述链。 模型参数包括 HMM 拓扑、状态转换概率和一组描述观察到的符号的统计特征的随机函数。 根据随机函数的特点,HMM模型可以分为离散隐马尔可夫模型(使用离散概率密度函数,简称DHMM)、连续隐马尔可夫模型(使用连续概率密度函数,简称CHMM)和半隐马尔可夫模型。连续隐马尔可夫模型。 Huff模型(SCHMM,结合了DHMM和CHMM的特点)。 一般来说,当训练数据充足时,CHMM 优于 DHMM 和 SCHMM。 针对HMM模型的训练和识别已经开发出有效的算法,并且不断改进以增强HMM模型的鲁棒性。
人神经网络在语音识别中的应用是当前研究的另一个热点。 人神经网络本质上是一种自适应非线性动态系统,它人类神经元活动原理,具有自学习、关联、比较、推理和泛化能力。 这些能力是HMM模型所不具备的,但ANN也不具备HMM模型的动态时间归一化性能。 因此,现在有人在研究如何将两者的优点有机结合起来,以提高整个模型的鲁棒性。
2. 语音识别的难点及对策
目前语音识别的难点主要表现在:
(1)语音识别系统的适应性差主要体现在对环境的依赖性强,即在某种环境下采集的语音训练系统只能在该环境下应用,否则系统性能会急剧下降; 另一个问题是无法正确响应用户的错误输入,使用不方便。
(2)高噪声环境下语音识别很难取得进展,因为此时人的发音变化很大语音识别技术概述,比如声音变高、语速变慢、音调和共振峰发生变化等。就是所谓的伦巴第效应英语培训,必须找到新的方法。 信号分析和处理方法。
(3)语言学、生理学、心理学等方面已经有很多研究成果,但如何量化、建模并利用这些知识进行语音识别仍然需要研究。 语言模型、语法和词汇模型在中大词汇量的连续语音识别中非常重要。
(4)我们对人类听觉理解、知识积累和学习机制以及大脑神经系统控制机制的认识还很不清楚。 其次,将该领域的现有成果应用到语音识别中还存在困难。 的过程.
(5)语音识别系统从实验室演示系统向商业产品转化的过程中,还存在很多具体问题需要解决,包括识别速度、识别拒绝问题、关键词(句子)等技术细节检测技术。
3、语音识别技术的前景与应用
语音识别技术发展到今天,语音识别系统对非特定人群英语识别语音,特别是中小词汇量词的识别准确率已经大于98%,而针对特定人群的语音识别系统的识别准确率则更高。 。 这些技术已经能够满足常见应用的要求。 由于大规模集成电路技术的发展,这些复杂的语音识别系统现在可以制作成专用芯片并进行批量生产。 在西方经济发达国家,大量语音识别产品已进入市场和服务领域。 一些用户机、机、手机已经具备语音识别拨号功能,语音记事本、语音智能玩具等产品也具备语音识别和语音合成功能。 人们可以利用语音识别口语对话系统,通过网络查询相关机票、出行、银行信息,并取得良好的效果。
语音识别是一门跨学科的学科。 语音识别正逐渐成为信息技术中人机界面的关键技术。 语音识别技术与语音合成技术的结合,使人们能够摆脱键盘,通过语音命令进行操作。 语音技术的应用已成为竞争激烈的新兴高科技产业。
参考:
[1]科大讯飞语音识别技术专栏。 语音识别产业新发展。 企业专栏。 Communications World,2007.2:(共l12期)
[2]任天平,门茂申. 语音识别技术应用进展。 科技广场。 河南科学技术,2005.2:19-20
[3]于铁城. 科大讯飞语音识别技术专栏。 语音识别的发展现状。 企业专栏。 通讯世界,2006.2(共122期)
[4] 陈尚勤等. 现代语音识别。 西安:电子科技大学出版社,1991
[5] 王秉熙等. 语音识别的实用基础知识。 北京:国防业出版社,2005
[6](美国)L.罗宾娜。 语音识别的基本原理。 北京:清华大学出版社,1999