澎湃Logo
下载客户端

登录

  • +1

知乎周源:国内大模型面临高质量中文语料资源短缺挑战,应加快开发利用

澎湃新闻记者 范佳来
2024-03-04 22:31
来源:澎湃新闻
10%公司 >
字号

全国政协委员、知乎创始人兼CEO周源

“2024年将迎来中国全功能接入互联网30周年的重要里程碑。历经近三十载的繁荣发展,众多杰出的互联网平台企业凭借科技创新,自初期的摸索逐步深入到日常生活的方方面面。”

澎湃新闻记者获悉,在2024年全国两会上,全国政协委员、知乎创始人兼CEO周源带来五份提案,分别聚焦大模型产业、科技人才供给、互联网平台经济等多个领域。

“互联网平台企业作为我国民营经济的重要组成部分,已经成为保障民生、促进创新、活跃市场、推动高质量发展的生力军。在国家经济转型升级和高质量发展的关键时期,提振互联网平台企业的信心,激发其创新活力,将为国家科技创新和经济发展注入新的动力。”周源表示。

在《关于补齐优质中文语料数据短板 推动我国大模型产业高质量发展的提案》中,周源表示,截至2023年年底,中国累计发布200多个人工智能大模型,其中有20多个大模型产品获批向公众提供服务。尽管国内在大模型领域取得一定的成就,但仍面临着一些挑战,其中最显著的问题之一是高质量中文语料资源的短缺。

周源称,据相关数据显示,2021-2026年中国数据量规模将由18.51ZB增长至56.16ZB,年均复合增长率达到24.9%,高于全球平均水平。虽然国内存量数据资源丰富,但目前中文优质数据仍然稀缺,如ChatGPT训练数据中文资料比重不足千分之一,而英文资料占比超过92.6%。

对此,周源建议,相关政府部门和监管机构针对数据合规应建立相应的监管机制,推动完善AIGC监管立法,保护和规范人工智能领域的数据合规。对大模型的数据采集来源、处理方法、合规性等进行监督和审查。此外,应加强对大模型的社会影响和风险评估,及时发现和解决可能存在的问题。

其次,要加快高质量中文数据集的开发与利用。数据作为新型生产要素已经成为驱动全球数字经济的动力引擎,国内数据要素市场起步较晚,标准、权属、交易、商业模式、监管等相关环节还有待完善。

在《关于激发互联网平台企业创新活力 促进民营经济高质量发展的提案》中,周源表示,互联网重塑了人们的工作模式、生活形态,甚至改变了思维方式,是中国科技创新体系的核心力量,为推动创新驱动发展战略提供了强大动力。

对此,周源建议,要加强政策法规保障,提振互联网平台企业发展信心,要加快促进民营经济发展立法进程。要科学设置监管政策,完善市场准入负面清单制度,明确禁止和限制进入的领域。对于尚未纳入监管范围的产业,应遵循“法无禁止即可为”的原则,支持互联网平台企业探索未知领域,为培育未来产业奠定坚实基础。

要完善科技创新机制,激发互联网平台企业创新热情。优化产业和科技扶持资金和项目的组织方式,更大比例吸收科技创新型互联网平台企业及其产业科学家、企业家深度参与;提供税收优惠和政府引导基金支持,降低互联网企业研发成本,激发其持续投入研发的热情。

在《关于以高质量技能人才供给 推动新质生产力快速发展的提案》中,周源表示,新质生产力的源头在科技创新,落脚点在产业升级,关键因素在人才支撑。加快形成新质生产力,不仅需要“高精尖缺”科技人才,还要有一大批高素质技术技能人才、大国工匠、能工巧匠等。

人工智能技术为技能培训行业带来更多的创新机会,促进技能培训行业更加丰富的应用场景落地。他建议,应该鼓励并引导培训机构和教师更加积极主动适应和掌握AI技术,提升自身的专业能力和教育素养,借助人工智能技术和AI大模型的发展,促进高质量技能人才培养效率和有效供给。

    责任编辑:是冬冬
    图片编辑:蒋立冬
    校对:施鋆
    澎湃新闻报料:021-962866
    澎湃新闻,未经授权不得转载
    +1
    收藏
    我要举报

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈