在这轮具身智能的浪潮中,世界模型始终被寄予厚望,被视为机器人成长路上的“虚拟训练场”。不过也面临物理保真度不足、预测过于乐观等问题。
记者3月2日获悉,星动纪元创始人陈建宇团队与斯坦福大学教授Chelsea Finn(PI创始人)团队再度合作,发布VLAW框架,首次实现VLA策略与动作条件世界模型的协同迭代优化。
星动纪元目前拥有全尺寸人形双足机器人星动L7、轮式服务机器人星动Q5及灵巧手星动XHAND系列等三大产品线,其产品已经在海内外物流、商业服务行业投入使用,实现产品规模化交付。
从陈建宇团队与Chelsea Finn发布VLAW框架来看,该技术通过“真实数据校准世界模型,虚拟数据反哺机器人策略”的闭环机制,突破了传统世界模型“盲目乐观”、物理保真度低的瓶颈,为具身智能的规模化训练提供了新范式。
业内介绍,世界模型被视为解决机器人试错成本高昂的关键工具——理论上,机器人可在虚拟空间无限次训练,无需担心硬件损耗。然而,现有模型普遍存在两大致命缺陷:训练数据多为成功轨迹导致的“过度乐观”偏见,以及对碰撞、摩擦等接触密集型交互的模拟失真。
VLAW框架通过四步迭代破解这一难题:首先利用VLA策略在真实环境采集的成败数据微调世界模型,消除其“空想”倾向;继而基于Qwen-VL构建视觉-语言奖励模型,自动评判合成数据质量;随后让机器人在校准后的世界模型中大规模想象式训练;最终混合真实与高质量虚拟数据优化策略。
在DROID平台的实测中,针对堆叠积木、打开书本、擦除白板等涉及复杂物理交互的任务,经VLAW校准的世界模型在PSNR、SSIM等视频质量指标上全面超越基线模型,假阳性率显著降低。相比传统方法,VLAW支撑下的机器人策略在五类任务中均实现成功率大幅提升。
研究团队指出,该框架的核心价值在于构建了“越训练越精准”的飞轮效应:VLA策略产生的真实交互数据持续提升世界模型保真度,而高精度的世界模型又能生成更优质的训练数据。未来,随着视频生成模型与机器人数据的进一步融合,“先在虚拟世界满级,再落地真实场景”或将成为通用机器人训练的标准路径。