澎湃Logo
下载客户端

登录

  • +1

日本正在打造自己的日语版“ChatGPT”

辛雨/中国科学报
2023-09-15 07:43
未来2% >
字号

日本超级计算机Fugaku已经开始消化日语文本,以开发日本版的ChatGPT。图片来源:Kyodo News via Getty

日本正在打造自己的聊天机器人ChatGPT。据《自然》消息,日本政府联合NEC、富士通、软银等大型科技公司投入数亿美元,开发日语的大型语言模型(LLM)。

专门研究自然语言处理的日本东北大学研究员Keisuke Sakaguchi认为,目前的大型语言模型智能系统在英语方面表现出色,但在日语方面往往表现不佳。

ChatGPT之前的模型GPT-3训练的绝大多数文本都是英语。由于日语的句子结构与英语完全不同,因此,ChatGPT必须将日语翻译成英语才能找到答案,然后再将答案译回日语。

书面日语由两组48个基本字符和2136个常用汉字组成。由于日语的复杂性,ChatGPT有时会生成大多数人从未见过的极其罕见的字符,以及奇怪的未知单词。

一个有用的LLM需要准确反映日本文化习俗。为了衡量LLM对日本文化的熟悉程度,研究人员推出了Rakuda—— 一个衡量LLM回答有关日本主题的开放式问题能力的排名。结果发现,日本最好的LLM在Rakuda上排名第四,GPT-4排名第一。

研究日语模型的东京大学物理学家Passaglia表示,LLM远远落后于GPT-4,但将来未必不能达到或超过GPT-4的水平。“这不是技术上无法克服的问题,只是资源问题。”

创建LLM需要使用日本超级计算机Fugaku,主要用于训练日语输入。与GPT-4和其他专有模式不同,它将与其他开源LLM一起向所有用户提供其代码。

日本文部科学省正在资助创建一个针对科学需求的人工智能项目,该LLM的开发成本至少为300亿日元,预计将于2031年公开发布。超级计算机制造商NEC在5月份开始使用基于日语的生成式人工智能,并声称它将创建内部报告所需时间缩短了50%、将内部软件源代码缩短了80%。

与此同时,软银投资约200亿日元开发基于日语文本的生成式人工智能,并计划明年推出自己的LLM,其目标是帮助企业实现业务数字化、提高生产率。

日本研究人员希望开发出一个精确、有效的人工智能聊天机器人促进本国的科学发展,弥补日本与世界其他地区之间的差距。东京庆应义塾大学医学院医学技术研究员Shotaro Kinoshita表示,如果日文版的ChatGPT能够表述准确,有望为那些想学习日语或进行日本研究的人带来好处,从而产生积极影响。

    责任编辑:吴跃伟
    澎湃新闻报料:021-962866
    澎湃新闻,未经授权不得转载
    +1
    收藏
    我要举报

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈