1成果简介
自动语音识别(Automatic Speech Recognition 简称"ASR")技术的目标是让计算机能够“听写”出不同人所说出的连续语音,也就是俗称的“语音听写机”,是实现“声音”到“文字”转换的技术。
自动语音识别通常有以下几种分类方法:
(1) 按系统用户情况分:特定人和非特定人识别系统;
(2) 按系统词汇量分:小词汇量、中词汇量和大词汇量系统;
(3) 按语音输入方式分:孤立词、连接词、连续语音系统等;
(4) 按输入语音发音方式分:朗读式、口语(自然发音)式;
(5) 按输入语音方言背景情况分:普通话、方言背景普通话、方言语音识别系统;
(6) 按输入语音情感状态分;中性语音、情感语音识别系统。
语音识别技术适用于家用电器和电子设备,如电视、计算机、汽车、音响、冷气等的声控遥控器,电话、手机或PDA上的声控人名拨号、数字录音机的声控语音检索标签、儿童玩具的声控等;也可用于个人、呼叫中心,以及电信局应用的信息查询与服务等领域。
2应用说明
(1)带语音信箱的接线员
“关键词检出器”技术是一种自动语音识别(ASR)技术。它应用于一些具有特定要求的场合,由于速度、高检出率或其他特定的要求,人们并不需要系统识别出整个句子,更不需要理解整个句子,而只关注那些包含特定词(称为“关键词”)的句子。比如,对一些特殊人名、地名和词语进行电话监听,又比如通过人名进行自动分机接驳服务等。
带语音信箱的接线员是利用关键词检出器的API开发出来的一个具体应用,是国内领先的智能自动语音识别总机系统,可实现24小时无人值守的电话自动转接,并具备语音信箱功能。用户在使用时,只要说出要找的对象,系统就会方便、准确、实时地检出自然语音中的人名或部门名称,并迅速转接至所指定的分机或者其他联系电话,极大地方便了用户,大大降低了总机系统的服务成本,提高了使用效率。
(2)口语学习系统
口语学习系统的原理是基于语音音素及其他参数的提取与分割,将使用者的语音音素系列与标准模型的语音音素序列进行自动比对,并将比对结果通过视图形象而直观地给出,从而对学习者的语音给出恰当的评价(比如对每个音素给出一个得分等),以帮助其改进和提高口语发音,使其接近或达到语音的标准水平。由于利用可视化的朗读评分等人机交互的方式,而且通过视觉、听觉等综合手段,反复提示和帮助用户接近标准发音,因而能显著提高口语学习者的学习兴趣。
口语学习系统可广泛应用于多种电脑设备和网络环境:
l 可集成到语言学习软件和VCD中;
l 可与复读机、MP3 配套使用,用户可直接对着麦克风朗读,也可把录音与标准模型对照,提供了更方便和全面的口语训练方案;
l 支持网络远程服务,系统可实时处理众多用户通过网络传来的语音,用户可随时上网选择自己所需的内容进行个性化的学习和训练;
l 用户可通过电话或者网络,接入口语学习测试系统,在系统的引导下,测试用户的日常对话整体能力、正确性和流畅性,非常适合教育机构、商业企业、政府部门方便、可靠、客观地考核各类人才的口语能力和会话水平,应用于优秀人才聘用、工作能力考察、设定入学和毕业标准、评估教学成效等领域。
(3)声控拨号器
声控拨号器(Voice Dialer)是基于Pocket PC的汉语声控拨号器。声控拨号器应用了与说话人无关(即非特定人)的语音识别技术,用户无需在线训练,也无需预先录制声控标签,就能通过语音方便、快捷拨号,好学易用。
声控拨号器的姓名列表,由Pocket PC联系人姓名(部分或全部)构成。此姓名列表用户可以自主修改,包括添加自定义姓名的读音,如用昵称来代替姓名原来的读音;允许对联系人姓名中的多音字进行读音选择。同时,声控拨号器对用户读音的识别结果,提供了多个候选让用户选择,在噪音情况下有效提高了识别成功率。
声控拨号器具有如下特点:
l 非特定人,无需训练;
l 识别率高,识别速度快;
l 与联系人信息保持同步;
l 支持汉字/拼音形式的联系人姓名;
l 联系人姓名读音可定制;
l 可浏览拨号器的姓名列表;
l 模型小,参数可定制。
3合作方式
商谈。
4联系方式
清华大学科技处
联系人:程为民 联系电话:010-62782104-135
邮箱:chengwm@tsinghua.edu.cn
地址:北京市清华大学东门外华业大厦1103室 邮编:100084