1 成果简介
清华大学电子工程系语音信号处理与芯片设计实验室是国内最早专门从事语音技术研究单位之一。 目前拥有多项核心技术包括:大词汇量连续语音识别、语音关键词检测、语种识别、说话人识别、中低速语音压缩编码、语音增强、交互式语言学习、回声消除、麦克风阵列处理、固定音频检索,以及语音专用芯片系统(System on Chip, SoC)设计和片上嵌入式识别算法等。这些研究研究成果是在863、自然科学基金、信息产业部、国际合作等项目的支持下取得的。实验室现有1名教授与3副教授,20余名博士、硕士研究生,从事智能语音处理技术与语音芯片方面的研究与开发工作。
2 应用说明
成果一:系列语音芯片
基于8位微控制器(MCU)核语
音芯片,能识别约20条特定人、
非特定人语音命令,识别率为95%,具有语音提示与语音回放功能。
基于16位微控制器(MCU)核+矢量处理器专用语音芯片,能识别约200条特定人、非特定人语音命令,识别率为98%,具有语音提示与语音回放功能。
基于16位数字信号处理器(DSP)核语音芯片,能够识别约600条非特定人语音命令,识别率为98%。三种芯片都开始批量生产,主要用于智能语音交互玩具、语音拨号和长时录音
电话、MP3语音点歌、语言学习机等。科技日报介绍了有关成果。
成果二:电话语音说话人识别
在漏报率为6.3%情况下,40秒电话语音说话人开集识别辨认率达到96.8%,获得了部级3等奖。电话语音语种识别:针对汉语、英语、俄语及其它语种四种情况下,开集语种识别率为90%以上。固定音频检测:快速高性能固定音频检测,检测正确率大于97%。基于单麦克风和双麦克风语音增强和回声消除系统。有关成果在国家的一些部分得到应用。
成果三:北京自然博物馆的智能熊猫口语对话系统
小朋友可以通过口语对话了解熊猫的各种习性。与清华大学出版社合作研发了交互式英语学习系统,对英语语音发音进行客观评价和发音错误定位。成果通过教育部鉴定,并在全国高校英语口语教学中得到应用。
成果四:多麦克风阵列信号处理技术
实现说话人定位和噪声消除。基于8位MCU核的双麦克风输入语音芯片,具有听音辩位功能,分辨率小于15度。语音增强功能,可以远距离进行人机交互。
成果五:基于DSP或ARM9的说话人识别专用芯片
即声纹识别专用芯片,可以作为声纹锁应用。办公室环境下,说话人识别率大于99%,说话人确认等错率小于1 %。结合个人语音确认信息,说话人确认等错率小于0.1%。
成果六:资讯和电话语音关键词检测技术
广播语音关键词检测等错率小于15%,电话语音关键词检测等错率约为25%。基于内容的语音检索系统,可以实现互联网上跨语音文件检索和信息挖掘。
成果七:智能语音玩具交互系统
用于多种语音玩具中,包括福娃中的语音交互系统。基于手机和PDA平台上名字拨号系统和语音命令控制系统,1000个命令词识别率为97%。人性化服务机器人系统,可以实现说话人定位、说话人身份确认、无语法的人机对话。基于内容的语音检索系统,可以实现互联网上跨语音文件检索和信息挖掘。
3、获奖、专利及产业化情况
获得3项国家发明专利,部级三等奖1项。语音芯片获得中国华录集团投资并产业化生产。
4、合作方式
面议
5、联系方式
联系方式:
清华大学科技处 张虎 联系电话:010-62782239-319 手机:13911625927
|