澎湃Logo
下载客户端

登录

  • +1

依图科技入局语音识别,欲借助高精确度算法促进行业透明化

澎湃新闻记者 海阳
2018-12-12 09:23
来源:澎湃新闻
科学湃 >
字号

智能语音已然成为人工智能细分领域中的一块兵家必争之地。12月11日,上海依图网络科技有限公司(下称依图科技)发布了依图短语音听写算法(API),正式向语音识别进军。依图科技首席创新官吕昊在发布会上表示,虽然语音识别在日常生活中已得到一定规模的应用,但相关技术发展仍然不够,未来还有十分巨大的发展空间。

依图成立于2012年,在人工智能领域的主攻方向包括计算机视觉、自然语言理解、语音识别、人工智能芯片。此前,这家“独角兽”企业最为人所知的成就集中在人脸识别领域:今年6月份,依图科技第二次获得了NIST比赛人脸识别冠军。同一时间段内,依图科技接连获得高成资本、工银国际、浦银国际、兴业国信资管的融资,融资金额总计3亿美元。

近年来,围绕着智能语音的竞争日趋激烈。智能家电、智慧交通、可穿戴设备等应用领域百花齐放,其背后的支柱是作为基础的语音识别API。在依图入局之前,国内语音识别API中不仅有着科大讯飞、云知声等专攻语音的科技公司,以BAT为代表的互联网巨头也先后进军市场,推出了各自的API及硬件产品。

据中国语音产业联盟日前发布的《2017-2018中国智能语音产业白皮书》显示,2014年至2018年,中国智能语音产业规模由30亿元增长至159.7亿元,年平均增长率接近40%。市场目前依然保持垄断的竞争格局,科大讯飞和百度分别以44.20%和27.80%占据市场份额前两位。

然而在吕昊看来,当前技术下的语音识别效果还远没有达到理想水平。这意味着即使入局时间较晚,后来者也有望借助技术优势撬动市场。吕昊直言,目前各个厂商都宣传自己产品有着97%、98%的识别准确率,但是这一数据的由来却无从得知。在实际使用中,主流语音识别API仅在特点场景下效果较好,而在一些复杂场景——如电话、语音节目、远场中,既有产品的精确度大都差强人意。上升到人机交互方面,目前的技术更是局限于进行一些基于规则的对话,“非常不智能。”

在发布会现场,依图科技科学家吴双发布了一项测试数据。该测试将目前市场主流语音API应用于总时长约50小时,共计60万字的数据集,从而得出各家语音API在不同场景下的字错率水平。一般认为,语言识别转文字后,字错率低于3%时不会影响可读性,而超过15%则毫无可读性。在这次测试中,依图语音API的字错率领先于全部同类产品,且这一比较优势在复杂场景下更为显著。

具体而言,在识别难度较低的手机近场录音中,所有API字错率都在15%的安全线下。混响场景下,依图语音的字错率为4.9%,同类产品中有部分已经跌出15%。而在远场演讲场景中,只有依图语音与讯飞听见的字错率维持在10%以下,其余产品全部不可用。将所有场景下的表现综合计算之后,吴双得出的最终数据显示,依图语音的平均字错率为8.27%,在所有同类产品中排名第一。

“在所有开放平台当中,语音转写的同步接口当中,我们这一款产品应该是有自信在市场上得到比较多的使用的,体验应该会非常好。”吕昊在发布会上如此表示。

值得注意的是,上述测试的公开数据集已由依图科技在网络上发布,供用户下载复现。同时,依图还推出一款名为“听写大会”的小程序,让用户可以直观地体验各类算法的水平差异。在录入一段足球解说黄健翔在2006年世界杯上的解说词后,仅有依图语音所识别的内容可用。

这一行为颇有“拆台”之嫌。但在吕昊看来,行业的不透明是导致阻碍语音识别发展的重要原因。在发布会上,吕昊直言,依图语音API从研发到诞生仅花了一年左右的时间,研发过程谈不上花了大力气,得出的结果令团队本身也很吃惊。从资源支持角度来看,科大讯飞等行业先行者已细耕语音识别多年,百度等互联网巨头则在数据量上有着“不知道多少个量级”的优势。这些反差意味着,目前一片繁荣的语音识别市场技术水平仍有不足,未来提升空间可谓巨大。

“这个信息发布出来是让大家更清楚现状,然后更能激励这个行业的从业者,继续推进发展。“吕昊表示。吴双则给出了推动行业发展的三点建议:首先是建立公开的API接口,令所有品牌的算法都可以被用户调用,令更多人来评测算法性能。其次是建设公开的、多样化的测试数据集,以支持算法开发。最后是公开语音识别平台之间可重复的评测结果,科学地推进解决方案的进步。

在发布会上,依图还联合微软Azure推出依图语音开放平台,并携手华为发布“智能语音联合解决方案”,将依图领先的语音识别技术提供给广泛的第三方应用开发者,共同推动行业进步。

依图预计,在未来6个月到12个月,语音识别技术的算法性能将呈指数级增长,更多的场景将被解锁,为行业应用带来更大的价值。但从技术层级来看,语音识别只是只是语言智能的敲门砖。在将字错率降到3%以下之后,等待着业界的还有语义理解、语音合成、逻辑推理等难题。直到这些问题都得到解决,人们所设想的能够聊天对话的智能音箱才会成真。

“我希望那天可以早点到来,但是坦白地讲,路漫漫。”吴双说道。

    责任编辑:李跃群
    校对:丁晓
    澎湃新闻报料:021-962866
    澎湃新闻,未经授权不得转载
    +1
    收藏
    我要举报

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈