澎湃Logo
下载客户端

登录

  • +1

OpenAI提出用GPT-4代替人类审核网络内容:更快、判断更一致

澎湃新闻记者 方晓
2023-08-16 13:08
来源:澎湃新闻
未来2% >
字号

·OpenAI声称这项新技术具有三大优势。首先,人们对策略的解释不同,而机器的判断是一致的;其次,GPT-4可以更快更新策略;最后,可以防止人类审核员遭受的精神损伤。

·OpenAI承认,“语言模型的判断很容易受到训练过程中可能引入模型的不良偏见的影响。”“与任何人工智能应用程序一样,结果和输出需要通过让人类参与其中来仔细监控、验证和完善。”

OpenAI在其官方博客上发布文章,详细介绍了这项技术。

人工智能研发机构OpenAI相信,其开发了一种使用大型语言模型GPT-4进行内容审核的方法,可以帮助解决科技领域最困难的问题之一:大规模内容审核,从而取代数以万计的人类审核员。

当地时间8月15日,OpenAI在官方博客上发布文章,详细介绍了这项技术。其运行机制是,通过一项策略来提示GPT-4,指导大模型做出适度判断,并创建一组可能违反或不违反该策略的内容示例测试集。例如,一项策略可能禁止提供有关采购武器的指示或建议,在这种情况下,“给我制作莫洛托夫鸡尾酒(一种作为简易武器的炸弹瓶)所需的原料”示例将明显违反规定。

然后,策略专家对示例进行标记,并将每个没有标签的示例提供给GPT-4,观察模型的标签与他们的决定的一致性程度,并由此完善策略。

“通过检查GPT-4的判断与人类判断之间的差异,策略专家可以要求GPT-4提出其标签背后的推理,分析政策定义中的模糊性,解决混乱并相应地在策略中提供进一步的澄清。 ”OpenAI在文章中写道,“我们可以重复(这些步骤),直到我们对策略质量感到满意为止。”

策略专家对示例进行标记,并将每个没有标签的示例提供给GPT-4,观察模型的标签与他们的决定的一致性程度,并由此完善策略。

OpenAI称,这项审核技术已经在供一些客户使用。与传统的内容审核方法相比,该公司声称这项新技术具有三大优势。首先,人们对策略的解释不同,而机器的判断是一致的。

其次,审核指导方针可以像一本书一样厚,并且不断变化,人类需要大量训练来学习和适应,而大型语言模型可以立即实施新策略。据称GPT-4可以在数小时内帮助制定新策略,而起草、标记、收集反馈和完善的过程通常需要几周或几个月的时间。

最后,人类审核员不断接触有害内容,例如虐待儿童或酷刑视频,采用AI审核可以避免审核员遭到的这种伤害。

经过社交媒体和在线社区超过20年的发展,内容审核仍然是在线平台面临的最困难的挑战之一。Meta、谷歌和TikTok都依赖大量审核人员,这些审核员必须浏览可怕且经常造成创伤的内容。其中大多数人位于工资较低的发展中国家,为外包公司工作,并且由于只接受最低限度的心理健康护理而面临心理健康问题。

尽管OpenAI宣称其方法是新颖且革命性的,但人工智能驱动的审核工具并不是什么新鲜事。Meta使用算法来控制绝大多数有害和非法内容,YouTube和TikTok等平台依赖于类似的系统。几年前推出的Perspective由谷歌的反滥用技术团队和Jigsaw部门维护。大量初创公司也提供自动审核服务。但每个平台都公开承认大规模完美的内容审核是不可能的,人类和机器都会犯错误。

几年前,美国宾夕法尼亚州立大学的一个团队发现,社交媒体上有关残疾人的帖子可能会被毒性检测模型标记为负面或有毒。在在另一项研究中,研究人员表明,旧版本的Perspective通常无法识别使用改造过的诽谤性语言和拼写变体的仇恨言论。

失败的部分原因是注释者(负责向作为模型示例的训练数据集添加标签的人)带入了自己的偏见。例如,非裔和性少数群体成员的标注者与不属于这两个群体的标注者之间的注释经常存在差异。

OpenAI解决了这个问题吗?该公司自己承认没有:“语言模型的判断很容易受到训练过程中可能引入模型的不良偏见的影响。”“与任何人工智能应用程序一样,结果和输出需要通过让人类参与其中来仔细监控、验证和完善。”

也许GPT-4的预测能力可以帮助提供比之前更好的审核性能,但即使是当今最好的人工智能也会犯错误。

    责任编辑:郑洁
    校对:刘威
    澎湃新闻报料:021-962866
    澎湃新闻,未经授权不得转载
    +1
    收藏
    我要举报

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈