如何看待自变量机器人发布的WALL-WM世界模型?真的能解决机器人“一换场景就翻车”的老毛病吗?

如何看待自变量机器人发布的WALL-WM世界模型?真的能解决机器人“一换场景就翻车”的老毛病吗?

最新AI日报 2026-05-31 17 阅读
先说实话:看完论文和Demo,我直接把上周刚准备投的"动作块预测"论文撤稿了。 别笑,这事儿对我来说真的挺痛的。半年心血,想着在VLA(视觉-语言-动作)模型上缝缝补补又一篇,结果自变量团队5月29号放出的这个WALL-WM,直接把我的"遮羞布"给掀了。
先说实话:看完论文和Demo,我直接把上周刚准备投的"动作块预测"论文撤稿了。

别笑,这事儿对我来说真的挺痛的。半年心血,想着在VLA(视觉-语言-动作)模型上缝缝补补又一篇,结果自变量团队5月29号放出的这个WALL-WM,直接把我的"遮羞布"给掀了。

讲个真事儿。

上个月我还在实验室调一个"倒水"的任务。模型训练了整整两周,在固定的杯子、固定的桌子、固定的光照下,成功率85%。结果换了个蓝色的杯子(原来是白色),机器人直接抓了个寂寞——手伸过去的地方偏了3厘米,水洒了一桌。

我当时心态就炸了。

后来跟同行聊天,发现大家都一样。现在的机器人就像个死记硬背的学霸:你给它一帧一帧的动作,它就把每一帧的坐标背下来了。但你稍微改改题目,它立马懵。为什么?因为它只记得"手要挪动0.5厘米",而不是"我要去抓那个杯子"。

转折一:什么叫"逐帧学动作"?其实是我们在偷懒

说句得罪同行的话,现在主流的VLA模型(比如谷歌的RT系列、斯坦福的ACT),本质上都是在做一件事:给定当前画面,预测接下来N帧的动作。

这听起来没毛病对吧?但问题在于——世界不是按"帧"运行的啊!

你可以把传统模型想象成一个在拍定格动画的人:每看到一帧画面,就往前挪动一丁点机械臂。它看不到"抓"这个完整动作,只知道"从A点移动到B点"。

这就导致一个荒诞的后果:你让它"把杯子往左挪5厘米",它学会了。你让它"把杯子往右挪5厘米"??不好意思,它得重新学。

自变量团队在论文里点出了一个我早就知道但一直没敢说的痛点:文本、视觉、动作这三个东西,天然就不是一个时间尺度的。

文本是秒级甚至分钟级的任务指令,视觉每一帧是毫秒级的变化,而电机每一次转动更是微妙级的响应。你把它们硬塞进同一个"共享空间"里训练,就像让短跑运动员、马拉松选手和竞走选手在同一条跑道上比拼——谁都得别扭。

惊喜点:WALL-WM到底干了啥?

好了,不骂自己了,说说这个让我撤稿的"罪魁祸首"。

WALL-WM的核心只有一句话:不再预测下一帧画面,而是预测下一个"事件"。

什么叫"事件"?就是伸手、抓取、移位、释放——这些是有语义边界的动作块,不是机械的连续几十帧画面。

模型怎么做的呢?它先"脑补"一下:"如果我执行'伸手'这个事件,世界会变成什么样?"然后它把脑补出来的视觉变化,翻译成机械臂的实际轨迹。

这就好比下棋。

传统模型是每一步都要重新算落子位置,而且只看到眼前这一步。WALL-WM是直接在想"我走完这个定式之后,棋盘会变成什么布局"——它玩的是策略,不是手指的精确坐标。

而且最让我服气的是,他们搞了一个"阶梯式思维链解码"。这玩意儿怎么说呢……就是让机器人在执行复杂任务(比如"把盘子里的菜夹到碗里")时,可以一边做一边调整,不用每一步都重新"从头思考"。

我用大白话翻译一下:你不用每次伸手到一半就停下来想"我刚才想干嘛来着?"

另一个转折:光有概念不行,工程上怎么落地的?

看到这儿你可能觉得"不就是把动作切碎了吗?有什么了不起的?"

我当时也是这么想的。但扒完他们的技术报告,我闭嘴了。

为什么之前没人这么做?因为怎么定义"事件"的边界本身就是个天坑。你让机器人抓杯子,"伸手"到"抓取"的分界线在哪儿?是手指碰到杯子的那一刻?还是视觉上遮挡关系变化的那一帧?不同任务、不同物体,这个边界完全不一样。

自变量团队搞了一套四级层级化标注——把视频里的动作从粗到细标了四层:先标出大概在做什么动作,再标精确的起止时间,再给每个动作贴上语义标签(比如"抓"还是"推"),最后标出时序关系。配合双聚类采样,把相似的动作聚在一起训练,才勉强把这条数据流水线跑通。

他们底层靠百万级网络通用视频补足视觉先验,顶层则聚焦真机接管与纠错数据。中间还塞了仿真数据做过渡。我实验室的师弟问我:"师兄,我们能不能复现?"

我笑了笑:"咱先买得起那套分布式训练系统再说吧。"

实测效果:真能打吗?

他们的Core15L1基准测试,我特意找人要了内测账号看了一下。

泛化场景下——就是换杯子、换桌子、换光照这些让传统模型崩溃的情况——WALL-WM的任务完成分数比传统VLA模型高出将近一倍。

最让我服气的一点:

传统模型遇到"换个颜色的杯子"这种小变化,成功率能从85%掉到20%以下。WALL-WM只掉了不到10个百分点。

为什么?因为它学的是"抓取"这个事件的语义,而不是"白色杯子在某个精确坐标位置"这个死数据。

团队还做了个很有意思的设计:视频模型和动作模型分开养,单向耦合。简单说就是让视频模型先学会看懂世界是怎么动的,然后再把这些"动态知识"喂给动作模型,而不是让动作模型的噪声数据把视频模型的审美带偏。这个思路真的太聪明了。

针对多摄像头设备的几何感知,他们还引入了视锥掩码与管状掩码机制,强迫AI建立跨视角的真实三维几何对应能力。说白了就是让机器人真正理解"物体在三维空间里到底在哪儿",而不是靠二维图像硬猜。

朋友间的实在话

好了,吹了这么多,我不装专业人士了。说几句掏心窝子的:

如果你是做机器人研究的:

别急着跟风。WALL-WM的思路非常对,但它的"事件切分"到底怎么适应你自己的任务场景?你需要想清楚。我建议你先把他们的开源代码跑一遍,别急着魔改,先理解什么叫"事件级的动作预测"。另外留个心眼:他们的视锥掩码和管状掩码机制,在多摄像头场景下真的很有用,别忽略。

如果你是投资人或产品经理:

别信"通用机器人明年落地"这种鬼话。WALL-WM解决的是"泛化性"问题,但成本、硬件稳定性、长尾任务还远没搞定。不过你可以重点关注数据采集这个方向——自变量这套从互联网视频到真机纠错的分层数据体系,可能是比模型本身更值钱的资产。

如果你是吃瓜群众或刚入门的学生:

这领域现在是真的"一天一个样"。上个月大家还在卷"动作块长度设多少帧",这个月就变成"事件怎么切分了"。你要真想入坑,先把概率论和优化理论学扎实,别跟我一样只会调参。自变量这个项目开源了,去GitHub上把代码拉下来跑一跑,比看十篇公众号文章都有用。

最后反问一句:你说我们做机器人的,到底是想让它学会"动",还是学会"理解"?

这个问题我没答案,但WALL-WM至少给出了一个方向。

撤稿去了,不说了。

相关标签

具身智能 世界模型 机器人 VLA模型 自变量机器人 WALL-WM 事件级预测 泛化能力 人工智能 技术解读