澎湃Logo
下载客户端

登录

  • +1

3天写出程序到4亿用户:听讯飞输入法设计者讲语音识别未来

澎湃新闻记者 王心馨 发自北京
2016-11-29 06:43
来源:澎湃新闻
能见度 >
字号

2010年6月8日,乔布斯在一年一度的苹果开发者大户(WWDC)上发布了苹果手机中的经典机型iPhone 4。当时,有成千上万的人观看了乔布斯的演讲和新智能手机的发布会。这当中就包括身在大洋彼岸的翟吉博。

翟吉博。资料图

那一年,他刚从摩托罗拉公司跳槽到科大讯飞研究院。看完发布会后,作为技术宅的翟吉博尽管也被iPhone4惊艳,但在与同事的一次讨论中,他还是提出了自己的疑问。用双手在3.5英寸的触摸屏上输入文字,效率可想而知。如果用语音来输入文字,是否会大大解放双手,提高输入效率的同时还能提升用户体验。

为了验证自己想法的可行性,翟吉博花了3天的时间,写出了讯飞输入法的最初DEMO(测试版)。现在,经过6年的发展,讯飞输入法已经从DEMO成长为拥有4亿用户、 1.1亿活跃用户的应用。翟吉博也从一名程序员成长为科大讯飞移动互联事业部的产品总监。值得一提的是,搜狗CEO王小川曾在搜狗十周年生日庆典上透露,他们的用户数量为5.2亿。百度给出的数据是5亿用户。

“讯飞创业团队的高层,一直认为语音技术是未来的一个趋势。这个判断是没有错的,包括行业里一些比较有影响力的公司和个人也是这样认为的。比如比尔·盖茨。我个人当时的想法是,首先我非常看好智能手机,特别是苹果出来之后,我觉得这个设备本身肯定会颠覆,也肯定会大火。但瓶颈在于,如果能把手机上输入效率问题解决,应该是更有价值的一件事情。”翟吉博在接受澎湃新闻(www.thepaper.cn)专访时说。

成立于1999年12月30日,前身为安徽中科大讯飞信息科技有限公司,是中国科技大学校企之一的科大讯飞(002230)一直是语音识别、语音合成技术领域里的佼佼者。他们的技术多次在国外比赛中,击败微软、谷歌等公司,获得第一。他们也是最早随着互联网浪潮,开始以语音为接入口,布局人工智能产业的公司。

可能是因为公司高层大都出身技术领域,这家公司的对外宣传一直保持相对地低调。如果不是今年锤子科技创始人罗永浩在发布会上,一次未经安排的使用,讯飞输入法的“网红潜质”可能一直不会被大众所知。

如今,借着人工智能的东风,科大讯飞希望自己之前布局的语音技术能与更多领域发生关系,他们企图用语音撕开人工智能的应用市场。

完整的语音技术落地体系

在学习了上万张图片后,谷歌的人工智能系统成功地从图片中识别了一张猫脸。这个经过神经网络训练的系统也由此出名。人工智能领域里的图像识别技术也开始被普通大众所熟知。

如果说图像识别是给人工智能加上眼睛的话,语音输入则是给人工智能加上了嘴巴。眼睛和嘴巴,究竟哪个重要?相对于图像识别已经在安防、金融领域里的多样化应用,语音的未来又在哪里?

“语音绝对不是唯一入口。但是如果要加修饰语,我觉得它是一个重要或者是主要入口。我认为未来的人机输入交互,肯定是多元的。因为人与人的交互,包含了有手势、表情、声音等。但语言确实是人跟人之间传递信息的最主要载体。所以这基于这个逻辑,我觉得语音对于人机交互来说是积极的。”翟吉博告诉澎湃新闻。

目前,科大讯飞在语音领域里的布局颇深。首先是实现语音技术的不断创新。

与谷歌、Facebook、微软等公司纷纷设立自己的研究院相似,科大讯飞也有自己的研究院。科大讯飞轮值总裁胡郁告诉澎湃新闻,整个研究院团队中拥有中国近60%的人工智能专家。研究院还与国内外顶尖大学、实验室的教授、专家联系紧密,将研究触角伸至最前端的科学成果。更为重要的是,作为创新中枢神经的讯飞研究院,已经有了一套产学研用一体化系统。

“我原先也在研究院就职。研究院布局的技术可能并不是当下就能用的,它的作用更像是原材料,他们研究的领域是更前沿的东西。由于当下环境问题,一些技术可能是无法立刻兑现的,但他们看得是更长远的打算,在等待机会爆发。”翟吉博说。

其次是语音技术的不断落地。有了源头技术的不断创新,科大讯飞也在积极思考如何让语音技术落地。除了已经成为网红的讯飞输入法,在科大讯飞最新的年度发布会上,胡郁向外界展示了他们希望通过语音将万物互联的雄心。比如,家居领域就是其重点布局的一个领域。在科大讯飞的构想中,未来通过一个类似遥控器的话筒,你就可以用语音操控客厅里的所有电器,甚至还可以用语音在家进行购物下单。目前,他们的语音近场识别距离已经达到5米,语音识别率达到97%。除了正常语音输入外,翟吉博在今年的发布会上还演示了用手势、图片等辅助输入的方法。

语音的未来在哪里?

古话说,众人拾柴火焰高。科大讯飞在多领域里应用的落地走了一条双赢的路——技术开源。这也与谷歌、Facebook的路径相似。

“讯飞输入法的团队主要做手机、直接消费者的产品和技术更新。但我们也选择将讯飞语音的部分技术开源给其他合作伙伴,让他们在垂直领域里布局。用讯飞的技术和各自垂直领域里的合作伙伴做集成,我们觉得这是合理的。”翟吉博告诉澎湃新闻。

与京东的合作就是一个例子,2015年,两家公司推出了智能音响“叮咚”,宣布进军智能领域。除此之外,他们与汽车厂商也在合作,建立车联网的语音输入系统。

至于语音的未来,翟吉博认为会在不同的智能设备上,比如虚拟现实的头盔。“接下来我们还会继续看好一些新的设备或者是产品,比如虚拟现实的头盔。我们会在里面做一些社交的文字输入。现在许多游戏是用眼睛,或者是手柄去操作,但我相信未来会有声音进来。未来,声音的传感器会成为智能硬件的标配。”翟吉博说。

采访中,尽管对未来充满期待,但翟吉博对未来还是保持了理科生的冷静。“我刚才说到这些,其实还是依赖于一个硬件和整个系统,看这些各个层面怎么样去考虑解决问题。语音只是作为其中一块参与到这里面,共同来解决一些问题。”翟吉博说。

一夜爆红之后

经过老罗的‘推送’,讯飞输入法在用户的好评口碑中爆发。据科大讯飞移动互联事业部市场总监李强军的介绍,在锤子发布会后,讯飞输入法在苹果中国所有类目的APP排行榜上一度窜至第二名,工具类更是登顶第一名。

“其实,在老罗之前,讯飞输入法已经有很多用户了。只是在发布会后,更多的人跳出来说,这个输入法,我们早就在用了。但也确实感谢他们,帮我们带来了更多的新用户。”翟吉博说。

除了用户数量的增加,翟吉博对于一夜成“网红”后带来的感受最深的是采访的增加。“在年初,我们计划让吉博在6个平台上做分享。之前很多采访是我们要求去做的,但老罗的发布会后,更多的变成了媒体来请我们做采访。”李强军说。

尽管成绩耀眼,这位毕业于上海交通大学的湖北学霸在采访中却向澎湃新闻讲述了讯飞输入法“命悬一线”的故事。

当最初的DEMO获得上级的鼓励后,翟吉博的团队均由技术人员构成,包括4-5个技术人员,2个实习设计。但到了2011年,翟吉博的团队却面临了险些要解散的危险,只剩下一个技术人员和他自己本人。

“2011年的上半年,可能是在第二季度左右,团队的流失比较严重,不管是内部资源调整,还是人员的个人原因,当时真正专注在做输入法的只有一个人,然后产品也是一个人设计。这样的情况维持了两三个月左右。后来想想其实是蛮危险的一件事。”翟吉博说,如果当时的团队投入停滞了,可能讯飞输入法就错过了市场红利的最佳窗口期,也不会有现在4亿用户的成绩。

6年时间里,随着讯飞输入法的走红,翟吉博也完成了自己的职业转换,从最初的程序员角色变成了现在了产品总监。他告诉澎湃新闻,这个过程中,他由于工作原因放弃了自己的一些兴趣爱好,例如足球和跑步,但有一点是一直在坚持的。

“现在太忙了,已经很少看英超、意甲。但遇到一些新的产品和技术,我还是希望自己能像当初在学校里一样,用自己的办法、动手去搞清楚。”翟吉博说。

    澎湃新闻报料:021-962866
    澎湃新闻,未经授权不得转载
    +1
    收藏
    我要举报

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈