自变量机器人发布全球首个“事件级预测”具身智能世界模型WALL-WM

最新AI日报 2026-05-29 11 阅读

打破传统逐帧学习局限，机器人理解任务的方式迈入全新阶段

5月29日，自变量机器人团队正式发布了全球首个基于“事件级预测”的具身智能世界模型——WALL-WM。

该模型突破了传统具身大模型按时间帧机械学习动作的局限，将世界模型的预测单位彻底切换为语义事件，标志着机器人理解与执行任务的能力迈向了全新阶段。

行业痛点：逐帧学习导致机器人“死记硬背”

在当前的具身智能行业中，主流的视觉-语言-动作（VLA）模型普遍采用一种固定模式：给定当前画面和指令，预测固定长度的动作块。

这种逐帧填空式的训练方式存在明显缺陷：

自变量团队在相关学术论文中指出，文本、视觉与动作三类信息在真实世界中天然存在不同的时间尺度和流形几何。强行在单一共享空间内对齐，很容易损害预训练的几何先验。

针对这一行业痛点，WALL-WM世界模型开创性地引入了“以事件为中心”的训练与执行机制。

具体来说：

简单理解：传统模型像在逐帧临摹一部电影，而WALL-WM像是在理解电影的剧情段落——知道什么时候该伸手，什么时候该抓取，什么时候该移位。

为了让这一全新架构在真实物理世界中稳定运行，自变量机器人团队进行了一系列硬核工程重构：

在数据层面，自变量团队构建了极其严密的“数据金字塔”系统工程：

配合以下技术支撑：

成果：WALL-WM不仅在具身视频生成质量和三维空间感知等多项指标上全面领跑，更在真机Core15L1基准测试的泛化场景中取得了极为优秀的任务完成分数。

目前，该项目的开源代码及主页已正式对外公开。