指人与计算机之间进行汉语口语对话的系统。 目前中文连续语音理解的研究还没有具体成果英语在线转换语音,但在中文单词和简单密码的语音识别方面已经取得了很多进展英语在线转换语音,并且一些系统已经投入使用。 一些系统还内置了语音合成功能。
中国科学院声学研究所从20世纪50年代末开始进行汉语语音识别研究英语培训,并研制出了汉语单音识别装置。 20世纪60年代英语在线转换语音,对汉语清晰度进行了系统测试,取得了基础数据。 20世纪70年代末和80年代初,采用模型匹配的方法预先存储说话者的语音模板,计算机可以识别数十种密码,包括数字、算术符号和少数操作命令,实现单次呼叫语音识别。
1980年,清华大学计算机系采用模式匹配方法,使计算机能够识别中国十几个主要城市的地名。 语音输入地名,屏幕显示汉字; 同时可口语查询清华大学内部; 在此基础上,1984年建成“8000声控查号系统”并已投入使用。 用户查询号码,操作员向计算机重复该单位的名称。 号码显示在屏幕上英语在线转换语音,并通过语音合成自动将号码报给用户。 方法是:每个操作人员预先喊出每个单元的名称,并存储在软盘上作为模板。 操作员上班时更换自己的软盘。 用户查号码时,接线员会输入要查的单位名称、所属地区、部门等。例如,用户查清华大学的号码时,接线员需要说出这三个字。名称为“海淀区”、“大学”、“清华大学”,屏幕上会显示海淀区、高晓、清华大学、282451的汉语拼音。 如果操作员检查无误,则按“报号”按钮,系统会自动将号码报给用户; 还有“更正”、“清除”、“列表”等功能键,以避免错误,确保报告给用户的数字准确。 。 同时搭建了“连续数字语音识别系统”,只需存储0到9位数字的语音样本即可识别连续数字。 三位数识别率达90%。
目前该领域的研究仍集中在模式匹配语音识别上,对中文连续语音流的语音理解还需要进一步探索。 (参见自然语言语音理解系统)
语音合成中国科学院声学研究所于1983年与瑞典皇家理学院语音通讯与音乐声学系合作建设了“中文文字到语音转换系统”。 对语音频谱进行分析,建立语音的区分特征,编制语音规则和音韵规则(包括轻声和二话)。 采用汉语拼音(主元音后加特定调号)键盘或光电朗读输入方式输入文字,计算机可采用合成语音读出; 并可以根据句型调整语调,还可以对句子中的任意单词进行强调。 重读。 利用字素转换,合成语音的词汇量不受限制,可以根据输入文本朗读。
清华大学计算机系于1984年建成“无限词汇汉语语音合成系统”,机内存储元音、辅音、过渡音的压缩波形参数。 使用键盘时,输入汉语拼音(加四声)语音播报系统、文字播报系统、音标、发音,计算机即可调出相应的参数英语培训,得到近似的语音波形合成语音输出。 能读懂汉语所有音节和句子。
目前合成语音的自然度还不够理想。 近年来,中国社会科学院语言研究所从声学语音学和发音语音学方面对汉语语音特征进行研究,包括辅音过渡、滑音、连声变化、重读、节奏等。 .,以提高合成语音的自然度。 在复合元音的合成方面已经取得了一定的成果。
参考书目
中国社会科学院语言研究所语音研究室:《实验语音知识演讲》,连载于《中国语言》学英语,1979年第1、2、4、5、6期。