首页 > 新闻中心 > 行业动态

九游会·(j9) - 中国官方网站 | 真人游戏第一品牌|语音识别要取代传统键盘 还需解决几个难题

发布时间:2025-02-21 17:47:22    次浏览

10月18日,罗永浩一场“相声”捧红了低调的科大讯飞,有段子手调侃道,这场“相声”的最大受益者可能不是锤子科技,而是科大讯飞。事实上,因为老罗的现场演示和极力推荐,这家长期专注于语音识别的公司开始被人们所关注。10 月 19 日早盘科大讯飞高开 4 个百分点,百度指数也上升到了公司有史以来的最高点。不可否认的是,因为老罗的现场演示,一些普通用户开始意识到,原来语音输入竟能如此高效。之前虽然许多人都听说过或偶尔用过语音输入,但并没有形成长期的使用习惯。而老罗这次的推荐让大家看到,语音输入似乎上升到了可以取代键盘输入的高度。不过,以目前语音识别技术的现状来看,它能否取代传统键盘还有待探讨。要回答这个问题,需要从语音输入的准确率及使用障碍这两个方面进行综合分析。 根据官方介绍,科大讯飞的语音输入把语音转成文字,准确率高达 97% ,连标点符号都很准。并且讯飞产品的另一个亮点在于对方言的识别,比如对川普、粤普都能识别自如,甚至可以直接对四川话、粤语进行识别。而在未来,据说它还会对少数民族语言比如维语、藏语等做优化,目前虽然已经做了一部分,但显然没有普通话做得好。不过如此高的识别率仅仅是对于中文而言,如果是遇上英语的话就可能比较惨了。据讯飞透露,这是因为目前公司只专注于中文,还没有上线英文搜索引擎。而国内其它做语音识别的公司同样也面临着这样的问题,比如阿里巴巴。10 月 13 日,阿里在杭州云栖小镇举办了一年一度的云栖大会,这次会议的一大亮点是现场没有速记员,而是采用了“云速记”的智能机器翻译人,可以实时将演讲人的发言打在屏幕的下方,就如同电视剧、电影中的字幕一样。 官方介绍称,这个“云速记”对马云杭州腔的普通话,识别率至少已经在 95% 以上,并且还能不断自动纠错,如果没有人工干预校准的话,这已经是一个相当优秀的成绩。尽管如此,这个翻译机器人仍会产生一些误差。比如最尴尬的一个误差便是将马云所说的“nationally”英文单词翻译成了“男生弄乱”。英语老师出身的马云被誉为最具有国际视野的中国企业家之一,尤其是在他那个年龄层的企业家中,他的英语发音是相当不错的。但“云速记”机器人没能根据语义语境识别出夹杂在中文中的英文单词。有趣的是,当“云速记”闹出了这么污的错误时,会场的哄笑也让马云尴尬了几秒。可见国内大部分语音识别方案,仅对中文有较高的识别率,对于英文则有些无能为力了。而在英文识别方面,微软等国外公司显然具有更大的优势。前几天,微软发表文章称,公司对语音识别技术在产业标准 Switchboard 语音识别基准测试中实现了词错率( word error rate , 简称 WER )低至 5.9% 的突破 ,创造了该领域内错误率最低纪录,首次达到了与专业速记员持平并优于绝大多数人的表现。值得注意的是,微软的这一语音识别技术也仅对英语有较高的识别率,对中文的识别率并没有那么高。整体来看,无论是科大讯飞、阿里还是微软,他们的语音识别技术都已达到了较高的水平,但共同的问题是对非母语或多种语言混合的语句识别率并不高,这可能是未来语音识别技术需要解决的一大难题。 另外,语音识别要取代传统键盘,还有一个使用障碍的问题。在智能手机、智能手表等移动终端上,语音转文字确实极大地提升了这些小屏设备的输入效率。但问题是,并不是所有场合都适合使用语音输入。比如在办公室、图书馆等相对安静的环境或一些公共场合,会不太方便拿出手机对着屏幕讲话;当你和比较亲密的人聊天时,有些话语似乎也不适合用口头表述出来;当你和朋友谈及一些私密信息时,你或许不会使用语音直接说出来;当你和一群朋友聚餐时,你也不太可能便用语音和网友聊天,却可以一个人静静地坐在某个角落打字。总的来说,语音识别如果要取代传统键盘,首先要解决识别率的问题,这个许多公司都做得很好了,只需加强对多语言混合语句的识别就行了。相比之下,更为关键的问题在于解决人使用语音与机器对话的心理障碍,这可能是语音输入现阶段面临的最大难题。