澎湃Logo
下载客户端

登录

  • +1

大模型如何开启输入法的“iPhone时刻”?对话讯飞输入法总经理程坤

2023-10-29 07:01
来源:澎湃新闻·澎湃号·湃客
字号

讯飞输入法13周年再启航,定义下一代生成式AI输入法。

作者 | 香草

编辑 | 漠影

大模型时代需要什么样的输入法?

进入21世纪第3个十年,人工智能迎来“智慧涌现”的大模型时代,键盘打字、整句联想、斗图……这些“传统”的功能可能已经无法满足广大用户的个性化需求。

如何在产品形态已经很成熟的情况下,不断解构用户场景、挖掘用户持续发展的需求,是头部玩家的永恒命题。

在13周年之际,讯飞输入法发布“面向下一代输入法的生成式AI”,并带来全新的13.0版本,开启生成式AI输入时代。

基于大模型的AI能力,讯飞输入法13.0支持60多款应用,覆盖6大表达场景,并率先开启人机交互界面革新,推出全新的卡片式推荐区“活力视界”,在屏幕与按键之间采用双行显示,支持自由组合卡片功能,将传统的文字呈现方式升级为“Feed流”式的交互体验。

据悉,讯飞输入法的“AI创作助手”于今年8月首次推出并开启内测。据讯飞官方数据,经过两个多月的上线验证,基于星火大模型的“AI创作助手”月累计请求量已超过6000万次,用户点赞率超过85%。此次升级,“AI创作助手”再次进化,致力于帮助用户“智慧表达”和“智能连接”。

那么,讯飞输入法13.0究竟能够为用户带来什么样的生成式AI新体验?“生成式AI输入法”与传统输入法相比,核心能力有哪些?大模型时代下,输入法未来的发展趋势是什么?

智东西与讯飞输入法总经理程坤、讯飞输入法产品总监赵明路进行了深入交流,并第一时间试用了讯飞输入法13.0,从中寻找这些问题的答案。

01.

60+应用覆盖6大场景

把深、厚、大的能力隐藏在薄页面中

2010年,讯飞推出第一代讯飞输入法,开启了中文输入法的语音输入时代。

而现在,伴随着“生成式AI”浪潮的到来,各个领域都迎来了“智慧涌现”的大模型时代,输入法领域自然也发生着巨变。

下一代输入法应该是什么样的?具备智慧表达、智能连接两大能力,自适应、自进化两大特征的“生成式AI输入法”,是讯飞输入法团队在这个新时代交出的首份答卷。

基于这两大能力和特征,讯飞输入法13.0提供了20余款AI创作助手,覆盖6大场景、60多款应用。

讯飞输入法13.0在人机交互上也进行了革新,上线业界首创的“活力视界”交互界面,在屏幕与按键之间采用双行显示,以创新式的卡片设计,实现Feed流式的交互体验。

▲用户可在菜单面板开启“活力视界”界面

与传统的文字候选栏相比,“活力视界”创新组合了Emoji(表情符号)、花样字、斗图等多样化的候选建议,甚至输入之外的扩展服务,内容展示更加多元。

▲“活力视界”为用户提供斗图、Emoji等候选建议

从产品设计的角度来看,赵明路认为,一个好的产品应该用简单的界面为用户提供多维的价值。

“活力视界”作为连接传统界面设计和全新AI功能服务之间的线索,通过一个简单的两行视窗,将产品背后丰富的AI能力矩阵呈现在用户面前。

对于用户来说,讯飞输入法从交互方式上看起来,可能并没有太大的变化,用户也不需要花费较大的学习成本去理解其中的层级结构。只要用户能更便捷地使用服务,在使用中能感受到“更懂我”,就是讯飞想要达到的效果。

▲赵明路解读讯飞输入法13.0的产品创新

程坤告诉智东西,生成式AI输入法的意义和价值,可以从两个层面来理解,也就是智慧表达和智慧连接这两大能力。

1、智慧表达:有大脑、有思想、有灵魂的输入法

首先,从用户角度来看,生成式AI技术相当于为输入法加上了“大脑”。

上一代输入法只能做文字输入,而现在通过生成式AI赋能,输入法不仅能帮助用户把灵感更好地表达出来,还能激发更多创意。

智慧表达能力主要分为三个场景,在用户输入的各个时机,即输入前、输入中、输入后,以不同的方式完善用户的表达。

一是在输入前智能生成。基于对上下文内容的理解,结合不同表达需求智能生成内容,主动替用户表达。

例如,当用户处于聊天、发布、评论、评价等不同场景的输入框时,“活力视界”右端的推荐栏会自动根据场景需求,提供不同的功能。

智东西分别选取了朋友圈、微博、淘宝、小红书这四个应用场景体验,讯飞输入法均自动提供了相应风格的文案。

▲讯飞输入法在朋友圈、微博、淘宝生成不同风格的文案

同样的,在文案生成后,用户可以通过下方的指令切换不同的风格。例如讯飞输入法生成下面这段小红书文案后,我希望它能提供一个更简短的版本,点击“语言简练点”即可重新生成更符合需求的文案。

▲使用讯飞输入法生成小红书文案(动图有加速)

二是在输入中智能补全。基于用户已经输入的内容,讯飞输入法13.0能帮助用户补全句子或续写文章。

在补全句子后,用户可以继续在下方选择第二次指令,如引用名言、增加Emoji、改变语气等。

▲扩写句子后,用户可点击下方指令为文字增加Emoji

三是在输入后智能润色。基于用户在聊天、评论、发布等不同场景中输入的内容,结合用户表达习惯或需求,对用户的表达进行应情应景的智能润色。

▲智能润色后,用户点击下方指令可二次生成不同风格文字

2、智能连接:理解用户意图,以用户为中心连接万物

其次,从输入法品类角度来看,生成式AI能够帮助输入法从工具型应用向服务型应用转型,无论是输入法App内还是跨App应用,都能将用户与其输入后想要的服务连接起来。

智能连接能力主要体现在连接输入场景内外多元服务上,在不同的场景主动为用户提供不同的功能选择。

其中比较具有代表性的功能是AI剪贴板。用户无需输入任何内容,只需复制想要回复的消息,“活力视界”窗口就会自动弹出AI剪贴板功能,并提供智能回复等选项。

▲只需复制消息,AI剪贴板就可以提供智能回复

此外,在AI剪贴板中右滑,可以看到拆词、翻译、搜索等更多功能,点击“翻译”即可自动翻译剪贴板中的内容。

▲AI剪贴板自动翻译用户剪贴板内容

AI剪贴板提供的翻译功能,也是讯飞输入法智能连接能力的体现——连接输入场景之外的内容与服务,用户无需切换至翻译应用,即可获得文字翻译功能。

02.

推出首个输入法认知大模型

打造“1+N+X”生态的重要一环

10月24日,讯飞发布星火认知大模型V3.0,与70天前刚刚发布的星火大模型V2.0相比,文本生成、语言理解、多模态等七大能力全面提升,全面对标ChatGPT。

讯飞采取了“1+N(重大行业)+X(细分行业及产品)”的生态体系战略,而讯飞输入法,则是其中的“N”环节里,“智慧输入”这一赛道的应用,是整个生态系统布局的重要一环。

在星火大模型V3.0的基础上,讯飞为输入法量身定制了首个输入法认知大模型,涵盖文本生成、多语言语音、多模态生成等生成式AI能力矩阵。

首先,文本生成能力是讯飞输入法的基础与核心能力,也是智慧涌现开始的地方。

在多语言语音能力上,讯飞输入法在去年率先发布了语音个性化方言免切换系统,对整个方言语音系统的使用有极大促进。从今年6月到9月,短短三个月内,讯飞输入法闽南话的使用率提升了1177%。

在此基础上,今年,讯飞输入法额外构建了多语言语音大模型,将识别、翻译、语种分类多任务聚合,达到信息共享互通的目的,实现语种免切换识别、语音到目标语种自动翻译以及领域识别效果增强。

目前,讯飞输入法13.0多语种自动识别覆盖了37种语言,端到端语音翻译超过13个,在多语言识别的通用效果上也提升了30%。

在多模态生成能力上,基于讯飞星火多模态大模型,输入法认知大模型将多模态对齐到统一语义空间中,通过两种方式,即多模态理解和多模态生成两种任务的协同训练,来实现多模态的协同。

目前,讯飞输入法逐渐开始落地应用多模态生成式AI的能力,如AI皮肤、AI头像、AI造字等,为输入法的个性化带来更多可能性。

▲讯飞输入法AI皮肤、AI头像、AI造字界面

除了最基本的生成化特点以外,讯飞认为,新一代输入法认知大模型还应具备个性化、场景化、自进化的特点。

在自进化和场景化方面,研发团队结合对比学习,构建了大量正例和负例用于训练Reward Model(奖励模型),并提出了4种Reward Model训练方法,可以在不需要外接人工干预的情况下,实现大模型的常态化自更新。

上一代的输入法其实已经具备很多功能,包括不同的输入模式、不同的键位、多种外部功能等。如果对每个功能和项目都进行单独建模,整个系统融合起来的难度是很大的。

针对这个问题,讯飞输入法研发团队提出名为ALL-IN-ONE的统一模型架构,利用Prompt(提示词)做任务引导,将不同的任务进行分解耦合训练。除了提高整个系统的稳定性,对可用性、安全性也有很大的提升。

▲科大讯飞AI研究院副院长丁克玉解读统一建模与自进化

在个性化方面,面向C端时,大模型的个性化问题一直是业界难题,因为企业无法为每个用户构建一个专属的大模型。

对此,讯飞输入法研发团队提出了Low-Rank个性化定制方法,通过将模型尺寸降低到认知大模型的十万分甚至百万分之一,来使小规模的个性化模型能够在手机等移动设备上顺利运行。

具体来说,Low-Rank通过使用场景和相关的用户操作记录下来,在端侧训练小模型,既实现了个性化,又保障了用户信息的安全。

03.

13年坚持聚焦用户需求

开启输入法领域的“iPhone时刻”

今年3月,英伟达CEO黄仁勋曾在演讲中说,AI的“iPhone时刻”正在到来。

而讯飞输入法,想要开启输入法领域的“iPhone时刻”。

13年前,讯飞推出第一代讯飞输入法,开创了中文语音输入法的先河。赵明路称,这其实就是一个小小的“iPhone时刻”。

数据显示,与去年同期相比,讯飞输入法日语音渗透率提升18%,日语音调用量提升35%,00后用户占比提升17%,日活跃用户规模提升10%,用户规模保持高速增长,产品核心指标蝉联行业第一。

▲讯飞输入法产品核心指标提升数据

作为一款十几年的“老产品”,尤其是在输入法市场规模增长缓慢的情况下,讯飞输入法能够做到年化10%的活跃用户增幅,离不开团队持续13年对用户需求的深入观察,以及对新兴技术的持续跟进。

▲讯飞输入法内容生态总监卢洁解读用户洞察

回顾讯飞输入法13年的发展历程,程坤告诉智东西,有几个特别的节点对讯飞输入法的发展非常关键。

首先是2010年,讯飞输入法诞生的日子。当时,这款产品的名字还叫“讯飞语音输入法”,是首款中文语音输入法,它开启了上一代输入法的“语音输入时代”。

其次是2012年,讯飞输入法率先将DNN(深度神经网络)应用到语音识别任务中,相对于传统的模型算法使识别效果获得大幅提升,标志着语音输入从“可用”向“好用”发展。

2016年,讯飞与锤子手机合作,首次在万人体育场演示语音输入,使语音输入为更多人所知,用户量也获得爆发式增长,月活突破1亿,达到1.1亿规模。

2018年作为一个起点,讯飞输入法开始全面拥抱年轻人,先后上线了有趣的、DIY功能、交流社区以及内容开放平台,开始由提升效率向表达个性的方向发展。

而如今在2023年,伴随着新生用户的需求增长和大模型时代新技术的赋能,讯飞输入法探索在产品功能、内容生态多方面应用生成式AI技术,想要开启输入法的生成式AI时代。

赵明路告诉智东西,如果要用一句话来形容讯飞输入法13.0与12.0相比最大的革新,那就是——全面拥抱生成式AI。

赵明路称,用户的需求、技术的发展,始终是讯飞输入法团队不断创新、不断进行产品迭代的最大驱动力。

星火大模型提供坚实的技术底座,对用户需求的敏锐洞察提供产品创新的动力,在技术和产品的双向驱动下,讯飞输入法筑起“护城河”,成为输入法品类中的佼佼者。

生成式AI输入法不会是终点。在讯飞输入法研发团队看来,它更像是一个分水岭,一个新的发展趋势。

程坤谈道,从长远来看,未来,每个人都会有一个智能助理。输入法作为一个既被高频使用,又能跨场景、跨应用的品类,能够连接不同应用之间的“孤岛”,同时又将大模型理解、推理、生成、多模态等优势能力发挥出来。

无论是交互界面上的重塑,还是AI功能的增加和深入,都有可能成为继语音输入后,下一个融入每个人生活中难以割舍的用户习惯。

04.

结语:输入法开启生成式AI输入新时代

输入法是智能手机、平板、电脑、智慧屏等带屏智能终端所必备的软件产品,渗透到每一位用户的日常生活中。

在大模型时代,正如程坤所说,生成式AI在输入法中的应用落地是一个必然的趋势。不仅是讯飞,市面上其他头部输入法厂商也都在做相关的尝试。

不同于传统的拼音、手写或语音输入,生成式AI输入无论是在内容的玩法、表达的多样性,还是在服务连接能力上,都能提供更多的想象空间。输入法不再是一个冷冰冰的工具,而是更懂用户、为每个用户量身定制的个性化产品。

(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)

原标题:《大模型如何开启输入法的“iPhone时刻”?对话讯飞输入法总经理程坤》

阅读原文

    本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

    +1
    收藏
    我要举报

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈