澎湃Logo
下载客户端

登录

  • +1

Devin再次震撼谷歌,但却是以被质疑造假的方式

2024-04-25 10:59
来源:澎湃新闻·澎湃号·湃客
字号

原创 小岩 新火种

作者:小岩

编辑:彩云

我们常说有人的地方就有江湖,就会存在炒作,扒皮和虚伪。没想到,到了人工智能这里,也是一样。

4月9日,一位自称有35年软件工程师经验的网络博主卡尔逐帧复现了人工智能软件师Devin的演示视频,并据此提出4点质疑。他认为Devin所展示的编程能力存在一定欺骗性,并且“所处理的任务并非随机,而是演示者精心选择的刻意呈现”。

这个Devin极其特别,被称为“全球首个AI人工智能软件师”,它被质疑造假,这件事足以震惊整个硅谷,乃至全球AI领域。

细扒全球首个AI程序员的上线经过...

我们先来了解一下Devin的来历。

Devin是由Cognition Labs于今年3月12日发布的一项AI编程产品,它最大的宣传点是“全球首位AI工程师”。

主创介绍,Devin在长程推理和规划上面下了很大功夫,可以规划和执行需要数千个决策才能完成的复杂软件工程任务。具体来说有6大功能:端到端构建和部署程序,可以解决的不只是代码问题,还包括与之相关的整个工作流;自主查找并修复bug;训练和微调自己的AI模型;修复开源库;为成熟的生产库做贡献;超强学习能力,实时补足知识和能力短板。Devin完整技术报告中显示,在SWE-bench基准测试中,无需人类辅助,Devin可解决13.86%的问题。

这个数据看似平平无奇,但其实已经超过了此前所有AI大模型的成绩。要知道,目前数一数二的GPT-4,在同个测试中的成绩只有1.74%,且必须配备一个人类,提示它要处理哪些文件。

Cognition Labs始终没开放公测,但陆陆续续给出了一些内测名额。耐人寻味的是,很多人在当时上手体验过了,还给出了很高的评价。譬如热衷AI的沃顿商学院教授Ethan Molick试过后就大大赞赏了Devin,认为其新颖的实时交互方式是最值得关注的。他要求Devin开发一个解释“创业公司融资中的股权稀释”的网站,随后透露,AI还无法在没有任何帮助的情况下,自主且无差错地完成这项工作。

被认为是炒作!所谓专业实力,不过是“自导自演”。

可反转就这么毫无预兆的出现了。

在Cognition官网发布的长达1分50秒的演示视频里,Devin只需一句指令,就能实现端到端地处理整个开发项目。视频中还表示,它具备自主学习新技术,端到端构建和部署应用,自主查找以及修复代码问题等方面的能力。此外。,Devin还可以按照用户需求同时执行多步骤工作流程,程序员们可以实时观察其进度,发现错误时,跳出指令就能修正。

但博主卡尔却站出来质疑,认为这些宣传是不实的。Devin在操作过程中看似修复了许多问题,但这些问题很多都是Devin的“自导自演”。他认为,在上述演示视频的2.936秒处,屏幕左上角显示“他们搜索过这个任务”,这意味着演示视频中Devin处理的任务并非随机,而是演示者选择的,甚至还出现了“自己现写bug然后当场修复”的骚操作。

除此之外,Devin还有很多其他的槽点:譬如号称能解决任何Upwork任务,但演示中解决的问题并不是prompt要解决的那一个,简直是在做无用功。或者看起来在修复bug,但是这些bug毫无意义,因为真正的人类程序员根本就不会犯那种错误。还有些时候,Devin就是在做没有意义的事情,很多事情简单两步就能搞定,但它却花里胡哨的一顿操作,把简单的问题复杂化。

至于Devin修改代码的真实水平,也只能说是一言难尽。在演示视频中,Devin花费了足足6个小时才完成了任务,而这些内容,博主卡尔仅用了半个多小时就完成了。

大瓜激起千层浪!专业人士普遍认为:博主的质疑有理有据。

博主卡尔的质疑在圈内引起了极大的热度和热烈的讨论,这件事在推特和YouTube的热度居高不下,成为了网友们争论的焦点。

一个月前,Devin的诞生成功引起了整个AI圈的注意;如今,Devin的塌房再次吸引到了全AI圈的目光。

而事件背后所承载的影响力也是深远的。要知道,Devin背后的公司Cognition AI手握10块IOI金牌的活招牌,还在推出Devin当月宣布成功融资2100万美金。

Cognition AI背后的团队成员共10人,核心团队共有3人,分别是Scott Wu,Steven Hao和Walden Yan,团队非常年轻。全体成员共拥有10枚国际信息学奥林匹克竞赛(IOI)金牌,很多成员在青少年时期也参加过信息学国际奥林匹克竞赛等。在发布“全球首个AI程序员Devin”这一信息后,Cognition AI备受外界关注。公开资料显示,此前,Cognition AI已经获得了彼得·蒂尔的Founders Fund基金领投的2100万美元A轮融资。一旦造假事件落下实锤,所能带来的后坐力无疑是巨大的。

对于博主卡尔的质疑,网络上的口径大多是站在了博主一边,很多网友都对Devin的造假嗤之以鼻。有人还调侃,“Devin至少掌握了看起来很忙的技巧”,很多专业人士也认为卡尔的质疑有理有据。

仔细复盘一下,大家会发现Devin和Cognition AI的疑点早已存在。直到今天Devin 都没有开放使用,只能通过邮箱提交申请。所以,外界对Devin的认知,基本都来自官方给出的演示视频,以及少数第三方开发和产品人员的评价,很少有人有机会可以对其进行真正的体验和测评。

所以,我们有理由相信,从呈现出的结果来看,Devin的确有虚假炒作,过度包装的嫌疑。如果是头部巨头发布新产品新工具,诸如微软Copilot这样的,都会提供充足的上下文。Devin显然没有做到,甚至连对程序的逻辑理解都不到位。

但从另一个角度来说,AI程序助手的发展经历阵痛和挫折在所难免,我们不能因此就质疑整件事情的意义。Devin的功能固然被虚假夸大了,但这并不能否认AI编程的发展趋势。AI程序员的存在确实可以协助人们独立完成简单的开发工作,甚至可以脱离一名真正程序员的帮助,能减少大量不需要创新的重复劳动,例如批量修改代码的命名风格,代码的依赖关系等。程序员们依然需要各类代码辅助工具的帮助,这是大势所趋。

图片来源于网络

文字资料参考:

https://baijiahao.baidu.com/s?id=1796288440437763473

https://www.thepaper.cn/newsDetail_forward_27052244

本文由新火种原创,旨在传递行业信息,不构成任何投资建议,转载请后台回复关键词【转载】,违规转载法律必究。

联系我们

原标题:《Devin再次震撼谷歌!但却是以被质疑造假的方式...》

阅读原文

    本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

    +1
    收藏
    我要举报

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈