自动语音识别技术

1成果简介

自动语音识别(Automatic Speech Recognition 简称"ASR")技术的目标是让计算机能够“听写”出不同人所说出的连续语音，也就是俗称的“语音听写机”，是实现“声音”到“文字”转换的技术。

自动语音识别通常有以下几种分类方法：
     (1) 按系统用户情况分：特定人和非特定人识别系统；
     (2) 按系统词汇量分：小词汇量、中词汇量和大词汇量系统；
     (3) 按语音输入方式分：孤立词、连接词、连续语音系统等；

(4) 按输入语音发音方式分：朗读式、口语（自然发音）式；

(5) 按输入语音方言背景情况分：普通话、方言背景普通话、方言语音识别系统；

(6) 按输入语音情感状态分；中性语音、情感语音识别系统。

语音识别技术适用于家用电器和电子设备，如电视、计算机、汽车、音响、冷气等的声控遥控器，电话、手机或PDA上的声控人名拨号、数字录音机的声控语音检索标签、儿童玩具的声控等；也可用于个人、呼叫中心，以及电信局应用的信息查询与服务等领域。

2应用说明

（1）带语音信箱的接线员

“关键词检出器”技术是一种自动语音识别（ASR）技术。它应用于一些具有特定要求的场合，由于速度、高检出率或其他特定的要求，人们并不需要系统识别出整个句子，更不需要理解整个句子，而只关注那些包含特定词（称为“关键词”）的句子。比如，对一些特殊人名、地名和词语进行电话监听，又比如通过人名进行自动分机接驳服务等。

带语音信箱的接线员是利用关键词检出器的API开发出来的一个具体应用，是国内领先的智能自动语音识别总机系统，可实现24小时无人值守的电话自动转接，并具备语音信箱功能。用户在使用时，只要说出要找的对象，系统就会方便、准确、实时地检出自然语音中的人名或部门名称，并迅速转接至所指定的分机或者其他联系电话，极大地方便了用户，大大降低了总机系统的服务成本，提高了使用效率。

（2）口语学习系统

口语学习系统的原理是基于语音音素及其他参数的提取与分割，将使用者的语音音素系列与标准模型的语音音素序列进行自动比对，并将比对结果通过视图形象而直观地给出，从而对学习者的语音给出恰当的评价(比如对每个音素给出一个得分等)，以帮助其改进和提高口语发音，使其接近或达到语音的标准水平。由于利用可视化的朗读评分等人机交互的方式，而且通过视觉、听觉等综合手段，反复提示和帮助用户接近标准发音，因而能显著提高口语学习者的学习兴趣。

口语学习系统可广泛应用于多种电脑设备和网络环境：

l 可集成到语言学习软件和VCD中；

l 可与复读机、MP3 配套使用，用户可直接对着麦克风朗读，也可把录音与标准模型对照，提供了更方便和全面的口语训练方案；

l 支持网络远程服务，系统可实时处理众多用户通过网络传来的语音，用户可随时上网选择自己所需的内容进行个性化的学习和训练；

l 用户可通过电话或者网络，接入口语学习测试系统，在系统的引导下，测试用户的日常对话整体能力、正确性和流畅性，非常适合教育机构、商业企业、政府部门方便、可靠、客观地考核各类人才的口语能力和会话水平，应用于优秀人才聘用、工作能力考察、设定入学和毕业标准、评估教学成效等领域。

（3）声控拨号器

声控拨号器(Voice Dialer)是基于Pocket PC的汉语声控拨号器。声控拨号器应用了与说话人无关(即非特定人)的语音识别技术，用户无需在线训练，也无需预先录制声控标签，就能通过语音方便、快捷拨号，好学易用。

声控拨号器的姓名列表，由Pocket PC联系人姓名(部分或全部)构成。此姓名列表用户可以自主修改，包括添加自定义姓名的读音，如用昵称来代替姓名原来的读音；允许对联系人姓名中的多音字进行读音选择。同时，声控拨号器对用户读音的识别结果，提供了多个候选让用户选择，在噪音情况下有效提高了识别成功率。

声控拨号器具有如下特点:

l 非特定人，无需训练；

l 识别率高，识别速度快；

l 与联系人信息保持同步；

l 支持汉字/拼音形式的联系人姓名；

l 联系人姓名读音可定制；

l 可浏览拨号器的姓名列表；

l 模型小，参数可定制。

3合作方式

商谈。

4联系方式

清华大学科技处

联系人：程为民　　联系电话：010-62782104-135

邮箱：chengwm@tsinghua.edu.cn

地址：北京市清华大学东门外华业大厦1103室　　　邮编：100084