1.青岛大学毕业论文(设计)提案报告题目:孤立词语音识别的并行实现文献综述2010年3月22日语音识别是解决机器“理解”人类语言问题的技术。 语音识别技术作为智能计算机研究的主导方向和人机语音通信的关键技术,一直受到各国科学界的广泛关注。 如今,随着语音识别技术研究的突破,其对计算机发展和社会生活的重要性日益凸显。 利用语音识别技术开发的产品应用广泛,如声控交换机、信息网络查询、家庭服务、服务、医疗服务、银行服务、业控制、语音通讯系统等,并已渗透到各个领域。几乎渗透到社会各个行业。 广义的语音识别根据不同的任务可以分为四个方向:说话人识别、关键词检测、语言识别和语音
二、识别 1、说话人识别技术是利用语音来区分说话人进行身份识别和认证的技术。 关键词检测技术用于一些有特定要求的情况,只关注那些包含特定单词的句子。 语言识别技术是对语音片段进行分析处理以确定其所属语言类型的技术。 它本质上是语音识别技术的一个方面。 语音识别就是人们通常所说的以语音内容为识别对象的技术。 它是这四个方面中最重要、研究最广泛的方向英语识别语音,也是本文讨论的主要内容。 1.1 语音识别技术现状 1.1.1 语音识别的应用 随着语音识别技术的不断发展,世界上第一个多语言会话式语音识别系统E-talk 诞生了。 这是世界上唯一的中英文混合语言的识别系统,可以说普通话、粤语和英语,还可以
3、对不同口音的适应能力强,因此可以广泛被不同文化背景的用户使用,特别是语言差异较大的中国广大用户。 由于E-talk能够极大地提高作效率,降低运营成本,为用户提供更便捷的增值服务,我们相信它将成为电信、证券、金融、金融等行业高度引用的电子商务应用。重视客户服务的旅游业。 目前,飞利浦推出的语音识别自然对话平台SpeechPear和SpeechMania已在国内呼叫中心成功应用。 SpeechPearl中的每个识别引擎都可以提供高达20万词的超大容量词汇库,尤其是在词汇量大、识别准确率高的情况下。 以及各种电信增值业务的灵活性等要求。
4、应用广泛。 1.1.2 语音合成信息服务被用户接受语音合成技术将视觉文本信息转换为可听声音信息,其应用具有良好的经济效益和社会效益前景。 尤其是汉语语音合成技术的应用,全球超过10亿人使用汉语,其市场需求、应用前景和经济效益显而易见。 语音技术已逐步应用于电信语音信息服务领域的智能手机查询系统,并得到快速推广。 在高度普及的今天,如果能够通过拨打的方式查询所需信息,无疑会给人们的日常生活带来极大的便利。 中文语音合成技术应用到语音服务领域将对现有的查询系统产生革命性的影响。 语音技术与互联网已经成功融合。互联网网关是网络与Internet网络之间的一种信息交换方式。
5.系统。 简而言之,它可以让手机用户通过网络轻松访问互联网。 利用语音合成技术的信息服务已被用户广泛接受,为用户的生活提供了极大的便利。 1.1.3 面向对象的语音编码 长期以来,解决信息传输效率问题一直是通信网络发展的关键问题,极其重要。 目前,科学研究人员通过两种方式研究了这一课题。 一是研究新的调制方法和技术,提高信道传输信息的比特率。 该指标是每赫兹带宽传输的位数; 二是对信息源进行压缩。 编码码率,例如标准PCB编码,3.4KHz频段信号需要以64KHz编码码率传输,压缩这个码率可以明显增加通道传输的通道数。这对于任何频率资源有限的传输环境。
6. 重要,尤其是在无线通信技术决定未来通信发展命运的今天。 事实上,压缩语音编码的比特率与语音存储、语音识别和语音合成等技术直接相关。 语音编码技术的进步对新型通信业务的发展有着非常明显的影响,如IP业务、实时长途业务、交换机的人智能接口等。因此,咨询委员会第15组国际电报委员会(CCITT)对语音编码标准提出了许多紧急建议,以促进通信网络的发展。 由于VLDSI的发展,实施该技术的成本已经从在昂贵的渠道中采用发展到在一般渠道中可以接受的水平。 因此,编码技术越来越受到人们的重视。当前,数字移动通信和个人通信(PCN)是人们高度重视的通信方式。 压力是重要问题之一
7、降低语音编码率,形成面向对象的语音编码技术。 自1938年提出PCM以来,数字语音编码技术得到了很大的发展,其编码方法也有了很大的发展,如1968年提出的线性预测编码(LPC)和20世纪70年代末出现的隐马尔可夫技术(HMM)。 以及矢量量化(VQ)等。 1.1.4口语机器受到重视。 口语的一个重要目的是帮助聋哑人与正常人进行交流,近年来越来越受到人们的关注。 首先,聋哑人戴上一副特制的手套,计算机识别他打出的手语。 然后,通过语音合成系统可以将图像信息成语言信息。同时,该系统还可以完成将正常人的语言成聋哑人的手语。 只要将正常人所说的文字输入计算机,经过程序的分析处理,就会以手语的形式表达出来。
8、具有情感和动作的三维图像,最终通过器达到聋哑人与正常人沟通的目的。 口语的研究在许多其他方面都具有重要价值,例如使用手势控制计算机,甚至使用手势进行导航。 1.2 语音识别技术的发展 1.2.1 利用神经网络训练韵律模型。 由于人神经网络具有良好的自学习和自适应能力英语培训,因此将其应用于语音合成系统中韵律模型的研究具有重要意义。 将神经网络模型与现有的文语音转换系统有机结合,可以改变传统文语音转换系统的韵律模型,使其更具适应性和可训练性,显着提高合成语音的自然度,增加系统数量灵活、风格多样。 1.2.2 发现语音知识的数据挖掘数据挖掘是一种在大量数据库中发现隐藏的新知识的计算技术方法。
9、通过建立定性语音模型,将数据分析和挖掘结果转化为逻辑规则或以视觉形式表达。 因此,将数据挖掘与人机交互界面紧密联系起来英语培训,将为计算机语音信号处理的研究提供巨大的推动力,为语音信号处理提供新的研究途径。 1.2.3 文字-视觉语音转换系统开发成功。 文本-视觉语音转换技术的出现是多媒体技术快速发展的产物,也迎合了社会发展的需求。 它给人们的生活增添了新的 {MOD}彩,让计算机变得更加人性化,让人与计算机之间的交流变得更加容易。 相信在不久的将来,它将广泛应用于科技、商业、娱乐等诸多领域,并逐渐走进我们每个人的生活。 1.3 语音识别技术的研究方向 1.3.1 连续自然语音的识别与理解
10. 识别和理解研究计算机如何理解人类语言。 目的是让计算机能够理解人们所说的话。 当我们使用计算机时,我们需要告诉它它应该做什么,它就会按照它理解的执行。 尽管自然语音识别和理解的理论研究已经进一步完善,计算机的功能、容量和速度也有了很大的提高,但研究仍然局限于孤立音节的识别和理解。 人类流利的自然发音并不是孤立音节发音的简单组合。 它是在一定时间范围内连续输出的语音流。 因此,需要对连续语音进行处理。 连续语音识别与理解技术需要解决的困难有很多,对其进行研究是语音技术未来的目标之一。 1.3.2 高度自然且富有表现力的合成语音 提高合成语音的自然度仍然是高性能文本到语音转换的重中之重。就中文而言
11、语音合成方面,目前单词、短语层面上已经基本解决了合成语音的清晰度和自然度。 但在句子乃至章节层面,自然度问题比较大。 未来文语音转换系统的发展趋势是采用基于上下文相关设计的合成思想,能够最大限度地保留说话者原有的发音特征,辅以先进的分层语言韵律模型,通过分散的统计模型。 方法覆盖语义语音之间的内在联系,使系统能够输出具有高度自然度和表现力的合成语音。 然而,目前的合成系统普遍存在合成输出语音机器味浓、上下文知识层次模型研究不完善等问题。 因此,获得高度自然且富有表现力的合成语音也是未来语音技术的研究目标之一。 1.3.3 语音技术与多媒体技术的结合伴随着
12、随着音频技术的不断发展,人类对语音信号的需求不再只注重可懂度和准确性。 语音合成技术的研究方向一直是合成语音之美,同时输出辅助视频特征,实现虚拟托管。 人体效果,通过添加包括人体头部建模、唇形同步技术、表情因素等视频信息在内的视觉效果,可以更好地体现语音合成系统的表现力和感染力。 因此,我们完全有理由相信,语音技术与多媒体技术的有机结合将使合成系统展现出广阔的应用前景。 1.3.4 语音技术与网络技术的结合 目前,语音技术已逐步应用于电信语音信息服务和互联网消息发送与接收领域。随着网与互联网的融合,网络信息的增加项目和时效性要求逐步提高,建立适合票交易、航班状态查询、自动报税等服务。
13.语音系统已成为可能,用户可以通过传统的语音和传真在互联网上获取无尽的信息。 这些服务将彻底解决传统数字记录和回放技术无法解决的海量信息库实时生成和存储以及动态变化信息的问题。 因此,语音技术与网络的完美结合具有强大的生命力。 1.3.5 多语言语言是人们交流的具。 不同的民族有自己不同的语言。 不同语言之间的交流在当今开放的信息社会和互联网时代非常重要。 因此,多语言文本-语言合成具有独特的价值。 例如,自动和音频电子邮件等应用中已经提出了对多语言语音合成的需求。 即使是中文合成,也存在多方言文本到语音的转换问题。如果所有语言共享一个合成算法或语音合成器,一个理想的多语言合成系统将是最好的,但现有的
14. 大多数语音合成系统是针对某种语言或多种语言开发的。 使用的算法和规则与某种语言密切相关,因此很难推广到其他语言。 例如,中西语言差异很大,目前国内的系统都是采用中英语转换。 他们的韵律控制规则完全不适合英语,而且主要是由汉语普通话合成的。 即使延伸到广东,华人和上海人都相当困难。 可见,要真正解决多语言文本语音合成,必须从文本处理到语音合成发展新的思路。 因此,开发多语言语音合成转换系统具有重要的理论和现实意义。 语音信号输入预处理特征q提取训练1J”参考模式判别识别结果库模式1匹配*规则-K 2主要研究内容和方法语音识别技术是利用计算机从语音中提取特征。
15、获取最能表征语音特征的有用信息,并利用该信息来判断语音所代表的内容或说话人身份的技术。 因此,有必要研究语音波形的幅度、频率等特征。 我们可以将语音识别的研究内容大致分为语音提取、特征提取、语音识别、内容分析、内容匹配。 在特征提取之前,一个重要的问题是消除噪声、空白声音和不同声音长度的影响。 根据语音识别技术的发展历史,语音识别方法大致可分为基于说话人的语音识别方法、基于语音内容的语音识别方法、基于统计的语音识别方法和基于网络的语音识别方法。 三种基本设计3.1 语音识别系统原理 使用C语言实现基于马尔可夫模型的数据特征提取,并在此基础上实现对特定语音实例的语音识别;
16、将函数写入可供其他模块调用的函数,为进一步实现语音识别系统提供基础; 培养和提高文献查阅和知识综合应用的开发能力。 语音识别本质上是一个模式识别过程。 将未知语音的模式与已知语音的参考模式一一进行比较,将最佳匹配的参考模式作为识别结果。 图1是基于模式匹配原理的自动语音识别系统的示意框图。 图1 语音识别系统原理框图 (1)预处理模块:对输入的原始语音信号进行处理,滤除不重要信息和背景噪声,并对语音信号进行端点检测、语音分帧和预加重等处理。 (2)特征提取模块:负责计算语音的声学参数,计算特征,以提取反映信号特征的关键特征参数,供后续处理。现在比较常用的特征参数包括
17、线性预测(LPC)参数、线谱对(LSP)参数、LPCC、MFCC、ASCC、感觉加权线性预测(PLP)参数、动态差分参数和高阶信号谱特征等。 1、其中,梅尔频率倒谱系数(MFCC)参数因其良好的抗噪性和鲁棒性而被广泛使用。 (3)训练阶段:用户多次输入训练语音,经过预处理和特征提取后得到特征向量参数英语识别语音,建立或修改训练语音的参考模式库。 (4)识别阶段:提取输入语音的特征向量参数后,将相似度度量与参考模式库中的模式进行比较,结合一定的判别规则和专家知识(如构词规则、语法规则等)进行识别。 ) 得到最终的识别结果。 3.2 语音识别的几种基本方法。 当今语音识别技术的主流算法主要基于动态时间规整(DT)。
18.W)算法、基于非参数模型的矢量量化(VQ)方法、基于参数模型的隐马尔可夫模型(HMM)方法、基于人神经网络(ANN)和支持向量机的语音等。根据此过程中,首先实现了用MATLAB的过程,然后用C语言重写了具体的MATLAB程序,以方便系统之间的移植。 四. 项目预期进展计划第1周-第2周:查阅和研究相关文献,完成文献综述。 第3-6周:了解基于马尔可夫模型的语音数据特征提取和语音数据特征识别的基本原理; 学习所需的C语言技术; 进行初步实验。第7-9周:通过初步原理实验后,根据具体应用需求,编写和调试功能将更加全面。
19、语音识别程序; 实现基本的特征提取和识别功能。 第10-12周:进一步优化程序,实现功能实用的应用程序,完成外文文档。 第13-14周:系统和程序测试,系统输入、处理、输出的综合测试。 总结实验报告,撰写论文,完成毕业设计初稿。 第15周:完成程序设计说明,完善所有设计图纸和程序,并准备答辩。 五参考文献 1 胡光瑞,语音处理与识别,上海科技文献出版社,1994.2 赵力,语音信号处理,机械业出版社英语识别语音,2003.3 程培清,数字信号处理教程(第三版),清华大学出版社,2007.4 Binner L ,Rabiner Lawrenee学英语,阮平旺,庄丙黄,语音识别基本原理,清华大学出版社,1999.5 王丙熙,曲丹英语识别语音,彭旋,实用语音识别基础M.北京:国防业出版社,2005.6 詹新明,黄南山,杨灿,语音识别技术研究进展,现代计算机,2008.7 高新涛,陈百利(完整版)语音识别提案报告,语音识别技术发展现状及应用前景,甘肃科技纵横,2007。