下载客户端

依图科技入局语音识别，欲借助高精确度算法促进行业透明化

澎湃新闻记者海阳

2018-12-12 09:23

来源：澎湃新闻

智能语音已然成为人工智能细分领域中的一块兵家必争之地。12月11日，上海依图网络科技有限公司（下称依图科技）发布了依图短语音听写算法（API），正式向语音识别进军。依图科技首席创新官吕昊在发布会上表示，虽然语音识别在日常生活中已得到一定规模的应用，但相关技术发展仍然不够，未来还有十分巨大的发展空间。

依图成立于2012年，在人工智能领域的主攻方向包括计算机视觉、自然语言理解、语音识别、人工智能芯片。此前，这家“独角兽”企业最为人所知的成就集中在人脸识别领域：今年6月份，依图科技第二次获得了NIST比赛人脸识别冠军。同一时间段内，依图科技接连获得高成资本、工银国际、浦银国际、兴业国信资管的融资，融资金额总计3亿美元。

近年来，围绕着智能语音的竞争日趋激烈。智能家电、智慧交通、可穿戴设备等应用领域百花齐放，其背后的支柱是作为基础的语音识别API。在依图入局之前，国内语音识别API中不仅有着科大讯飞、云知声等专攻语音的科技公司，以BAT为代表的互联网巨头也先后进军市场，推出了各自的API及硬件产品。

据中国语音产业联盟日前发布的《2017-2018中国智能语音产业白皮书》显示，2014年至2018年，中国智能语音产业规模由30亿元增长至159.7亿元，年平均增长率接近40%。市场目前依然保持垄断的竞争格局，科大讯飞和百度分别以44.20%和27.80%占据市场份额前两位。

然而在吕昊看来，当前技术下的语音识别效果还远没有达到理想水平。这意味着即使入局时间较晚，后来者也有望借助技术优势撬动市场。吕昊直言，目前各个厂商都宣传自己产品有着97%、98%的识别准确率，但是这一数据的由来却无从得知。在实际使用中，主流语音识别API仅在特点场景下效果较好，而在一些复杂场景——如电话、语音节目、远场中，既有产品的精确度大都差强人意。上升到人机交互方面，目前的技术更是局限于进行一些基于规则的对话，“非常不智能。”

在发布会现场，依图科技科学家吴双发布了一项测试数据。该测试将目前市场主流语音API应用于总时长约50小时，共计60万字的数据集，从而得出各家语音API在不同场景下的字错率水平。一般认为，语言识别转文字后，字错率低于3%时不会影响可读性，而超过15%则毫无可读性。在这次测试中，依图语音API的字错率领先于全部同类产品，且这一比较优势在复杂场景下更为显著。

具体而言，在识别难度较低的手机近场录音中，所有API字错率都在15%的安全线下。混响场景下，依图语音的字错率为4.9%，同类产品中有部分已经跌出15%。而在远场演讲场景中，只有依图语音与讯飞听见的字错率维持在10%以下，其余产品全部不可用。将所有场景下的表现综合计算之后，吴双得出的最终数据显示，依图语音的平均字错率为8.27%，在所有同类产品中排名第一。

“在所有开放平台当中，语音转写的同步接口当中，我们这一款产品应该是有自信在市场上得到比较多的使用的，体验应该会非常好。”吕昊在发布会上如此表示。

值得注意的是，上述测试的公开数据集已由依图科技在网络上发布，供用户下载复现。同时，依图还推出一款名为“听写大会”的小程序，让用户可以直观地体验各类算法的水平差异。在录入一段足球解说黄健翔在2006年世界杯上的解说词后，仅有依图语音所识别的内容可用。

这一行为颇有“拆台”之嫌。但在吕昊看来，行业的不透明是导致阻碍语音识别发展的重要原因。在发布会上，吕昊直言，依图语音API从研发到诞生仅花了一年左右的时间，研发过程谈不上花了大力气，得出的结果令团队本身也很吃惊。从资源支持角度来看，科大讯飞等行业先行者已细耕语音识别多年，百度等互联网巨头则在数据量上有着“不知道多少个量级”的优势。这些反差意味着，目前一片繁荣的语音识别市场技术水平仍有不足，未来提升空间可谓巨大。

“这个信息发布出来是让大家更清楚现状，然后更能激励这个行业的从业者，继续推进发展。“吕昊表示。吴双则给出了推动行业发展的三点建议：首先是建立公开的API接口，令所有品牌的算法都可以被用户调用，令更多人来评测算法性能。其次是建设公开的、多样化的测试数据集，以支持算法开发。最后是公开语音识别平台之间可重复的评测结果，科学地推进解决方案的进步。

在发布会上，依图还联合微软Azure推出依图语音开放平台，并携手华为发布“智能语音联合解决方案”，将依图领先的语音识别技术提供给广泛的第三方应用开发者，共同推动行业进步。

依图预计，在未来6个月到12个月，语音识别技术的算法性能将呈指数级增长，更多的场景将被解锁，为行业应用带来更大的价值。但从技术层级来看，语音识别只是只是语言智能的敲门砖。在将字错率降到3%以下之后，等待着业界的还有语义理解、语音合成、逻辑推理等难题。直到这些问题都得到解决，人们所设想的能够聊天对话的智能音箱才会成真。

“我希望那天可以早点到来，但是坦白地讲，路漫漫。”吴双说道。

责任编辑：李跃群

校对：丁晓

澎湃新闻报料：021-962866

澎湃新闻，未经授权不得转载

我要举报

#人工智能