星动纪元陈建宇×斯坦福Chelsea团队发布VLAW 世界模型×VLA协同进化

在这轮具身智能的浪潮中，世界模型始终被寄予厚望，被视为机器人成长路上的“虚拟训练场”。不过也面临物理保真度不足、预测过于乐观等问题。

记者3月2日获悉，星动纪元创始人陈建宇团队与斯坦福大学教授Chelsea Finn（PI创始人）团队再度合作，发布VLAW框架，首次实现VLA策略与动作条件世界模型的协同迭代优化。

星动纪元目前拥有全尺寸人形双足机器人星动L7、轮式服务机器人星动Q5及灵巧手星动XHAND系列等三大产品线，其产品已经在海内外物流、商业服务行业投入使用，实现产品规模化交付。

从陈建宇团队与Chelsea Finn发布VLAW框架来看，该技术通过“真实数据校准世界模型，虚拟数据反哺机器人策略”的闭环机制，突破了传统世界模型“盲目乐观”、物理保真度低的瓶颈，为具身智能的规模化训练提供了新范式。

业内介绍，世界模型被视为解决机器人试错成本高昂的关键工具——理论上，机器人可在虚拟空间无限次训练，无需担心硬件损耗。然而，现有模型普遍存在两大致命缺陷：训练数据多为成功轨迹导致的“过度乐观”偏见，以及对碰撞、摩擦等接触密集型交互的模拟失真。

VLAW框架通过四步迭代破解这一难题：首先利用VLA策略在真实环境采集的成败数据微调世界模型，消除其“空想”倾向；继而基于Qwen-VL构建视觉-语言奖励模型，自动评判合成数据质量；随后让机器人在校准后的世界模型中大规模想象式训练；最终混合真实与高质量虚拟数据优化策略。

在DROID平台的实测中，针对堆叠积木、打开书本、擦除白板等涉及复杂物理交互的任务，经VLAW校准的世界模型在PSNR、SSIM等视频质量指标上全面超越基线模型，假阳性率显著降低。相比传统方法，VLAW支撑下的机器人策略在五类任务中均实现成功率大幅提升。

研究团队指出，该框架的核心价值在于构建了“越训练越精准”的飞轮效应：VLA策略产生的真实交互数据持续提升世界模型保真度，而高精度的世界模型又能生成更优质的训练数据。未来，随着视频生成模型与机器人数据的进一步融合，“先在虚拟世界满级，再落地真实场景”或将成为通用机器人训练的标准路径。