- +1
会写诗的AI,拧不开矿泉水瓶:我们在虚拟世界“造神”,却在物理世界碰壁

|我们惊叹于AI妙笔生花、代码无瑕的才华,却总在机器人把咖啡洒满桌布、被充电线逼到死机的那一刻,瞬间清醒:原来,这不过是硅基生命的一次‘降维打击’未遂。
有没有感觉一些所谓的智能产品其实都挺傻的。
比如扫地机器人,每天勤勤恳恳在家转圈,但想让它卡住,只需要一根充电线。
然后它就开始原地疯狂打转,直到没电。
有没有发现一个矛盾:AI在虚拟世界里能写诗、能写代码,看起来非常聪明
可一旦想让它进入现实,比如帮我去厨房倒杯水,它就立马失灵了。
它根本不理解物理世界。
一、AI活在真空里
大模型本质上只干了一件事:预测下一个词。
你说上半句,它能接下半句,语言天赋的确惊人。
但不幸的是,它所有的聪明都建立在文字这个虚拟符号上,却从未触碰过真实世界的一粒灰尘。
图灵奖得主杨立昆曾说,只会文字接龙的AI,没有未来。
必然,他提出的方向是让AI建立一种内部世界模型,能够感知环境、理解状态、预测后果,并根据目标规划行动。
区别于当前AI,不只是回答问题,而是能在某种程度上模拟如果我这么做,会发生什么。
我们来具象一下这种区别:
一瓶没开封的矿泉水,和一杯盛满热咖啡的杯子,同时被放在桌子边缘。
一个婴儿可能不懂区别,但任何一个成年人都会本能地紧张,因为大脑瞬间就脑补出了两种后果
水瓶掉下去是咚一声闷响,而且水不会溢出来
咖啡掉下去则是啪一声炸开,液体四溅。
这种预判,来自我们从小被重力、惯性、液体流动性反复教育出来的物理常识。
但AI没有这种常识。
它能写出流体力学的博士论文,但判断不了一杯水被打翻后的运动轨迹。
今年5月,一篇发表在arXiv上的综述论文指出:
世界模型的核心作用是让智能体能够在“脑海”中预测自身行为的后果,而无需在真实环境中执行。
目前AI对物理世界理解的这种缺失,导致任何想要进入现实世界的机器人都像个盲人。
二、指向同一个方向
今年以来,科技巨头们好像都指向了一个方向,AI必须从数字世界转向物理世界。
6月初的台北GTC大会上,英伟达发布了Cosmos 3,全球首款完全开源的全模态物理AI世界模型。
它能够以领先的物理精度原生理解和生成文本、图像、视频、环境声音和动作。
黄仁勋说,物理AI的ChatGPT时刻已经到来,Cosmos3将物理AI的训练和评估周期从数月缩短到数天。
就像我们前文说的,它让机器人在动手之前可以先思考,在虚拟环境中模拟行动后果,选出最优方案再执行。
谷歌DeepMind也在做了同样的事。
他们开发的Genie 3世界模型,已经能以每秒24帧的速度生成持久的3D交互式环境。
今年5月,DeepMind把谷歌街景数据接入了Genie,用户输入一个真实地点,就能生成可交互的沉浸式场景。
这相当于给AI提供了一个虚拟训练场,在模拟环境中反复试错,不用在现实世界中承担后果。
三、底层问题的争论
正当产业忙着落地时,关于什么叫世界模型的争论也随之而来。
到底什么叫世界模型?
今年6月初,斯坦福AI科学家李飞飞专门写了一篇长文回应这个问题。
她的结论很直接:世界模型是现在AI领域最重要、也最被滥用的术语之一。
她做了一个功能分类:渲染器、模拟器、规划器。
一个能生成火焰视频的模型、一个能模拟燃烧过程的物理引擎、一个能规划行动路径的决策系统,现在都被叫作世界模型。
但它们实际在做三件完全不同的事。其中,模拟器受到的关注最少,却最为关键,它是连接看起来像和物理上对的桥梁。
杨立昆更是认为大语言模型这条路走错了,基于JEPA架构的世界模型才是通往AGI的唯一可行路径。
两位AI领域顶级学者不约而同押注世界模型,世界模型正在成为AI下一个十年的核心战场。
四、道阻且长
英伟达测算,物理AI对应制造与物流产业的重塑空间约50万亿美元。
但机遇越大,挑战也越艰巨。
真实物理世界的数据极度稀缺,国内具身数据不过百万小时量级,和大语言模型动辄万亿级别token数据的训练量比起来,差距悬殊。
合成数据可以填补部分空白,却无法完全还原真实世界的复杂和不确定。
李飞飞也承认,从原始像素数据端到端稳定训练世界模型,至今仍是巨大的技术挑战。
杨立昆同样如此,他的JEPA架构虽然理论优美,但工程落地的路还很长。
但整体方向是清晰的。
AI正在经历一场蜕变,像刚学走路的孩子,笨拙也固执,但终究会理解并触碰这个真实的世界。
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。





- 报料热线: 021-962866
- 报料邮箱: news@thepaper.cn
互联网新闻信息服务许可证:31120170006
增值电信业务经营许可证:沪B2-2017116
© 2014-2026 上海东方报业有限公司




