下载客户端

有意见 | OpenAI大模型要么开源，要么训练数据版权得到保障

2024-04-09 15:47

来源：澎湃新闻·澎湃号·湃客

近日，OpenAI和谷歌被指涉嫌使用YouTube视频的转录文本来训练其人工智能模型，这一行为可能侵犯了YouTube创作者的版权。

据报道，OpenAI通过使用其Whisper语音识别工具，转录了超过一百万小时的YouTube视频内容，并将这些数据用于训练其GPT-4模型。同时，谷歌也被曝出使用YouTube视频来训练自家的人工智能模型。然而，这两家公司的行为似乎并未得到所有创作者的授权。

如果可以随意使用创作者的公开内容进行AI训练，那么创作者的权益将如何得到保障？

“有意见”留言板

@媒体搬运工：大模型就像是“饕餮”，对于数据有着先天的嗜好，互联网上的论坛、贴吧、短视频等都是大模型眼中的“大餐”。对于这种可以抓取的信息，需要从法规上进行规范，而不是借助用户条款。

@辣腿堡不加酱：用于训练人工智能模型的这些数据来源是否可追溯，如果是公开展示的内容是否可直接用于训练，这些都需要进一步规范，而不是问及就含糊其辞

特别声明

本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

澎湃矩阵

新闻报料

互联网新闻信息服务许可证：31120170006

增值电信业务经营许可证：沪B2-2017116

反馈