李飞飞缺什么,人形机器人缺什么?二者本质都缺一样。
李飞飞主推的二维照片变三维空间的“空间智能”,本质上是基于视觉图像处理的“大世界模型LWM”。这与倡导者李飞飞的视觉优先的信念是密切相关。李飞飞的一个有名的举例是,婴幼儿通过视觉而非语言,,率先建立了对世界的认识。三岁的小孩语言能力非常简单,但依然可以对外界的活动保持相当水准的互动。这种反差,意味着语言模型并非是认识世界的唯一窗口。作为引领图像成为这次AI浪潮的突破口的李飞飞而言,大世界模型可以将二维图像变成3D世界。
然而尽管这里的空间尺寸、方位逻辑都可以定义清楚,但依然缺少“物体恒常性”。这里的数字空间里,地面没有摩擦力,杯子没有重量等。这是大世界模型,需要解决的问题。
为这个数字空间引入高价值的数据,是激活这个世界的关键成败。人形机器人一直无法走进现实生活,最大的限制源自真实环境提供的可训练语料,实在太少。对话机器人可以通过互联网丰富的文字语料,来训练能力。日新月异。然而现实环境中,一个洗盘子的动作,很少有人为此保留模型。即使通过多模态VLA(Vision-Language-Action),将视觉和语言结合所形成的动作闭环,依然缺乏真实的物理定律支撑。图像里的视频流的趋势,并不能受到物理定律的约束。人形机器人一天不解决数据训练的问题,就要在实用场景之外多呆一天。前Meta首席技术官杨乐昆认为人形机器人就是骗局,原因就在这里。他没有看到足够数据,能够支持人形机器人的训练。
人形机器人,只能通过真机训练,形成若影随形的“影子数据”。这其实借鉴于自动驾驶的方式。特斯拉汽车就是边行驶边采集数据,这种真实环境的影子数据为它的FSD自动驾驶提供了极大的优势。然而自动驾驶相对是卡片式的二维空间,前后左右。而它的目标就是不要碰撞不要接触。人形机器人则在完成一个复杂得多的工作。它的移动不仅仅是前前后后,而且上上下下甚至斜左斜右。运行轨迹,要比汽车千变万化。这意味着真机训练,能够提供的样本数据,是一个高度匮乏的局面。没有足够的数据做养分,人形机器人的大脑就会一直处于营养不足的局面。因此,机器人目前的方法只能做些跳舞、引导等简单动作,关键从场合一定要采用提前编程。宇树机器人在春节晚会的人造武生“武Bot“在舞台上再能打,依然是提前编排的动作。它离感知现场环境、自行反馈还差的太远。这跟通过编程遥控一辆大号玩具汽车,差不太多。
很显然,约束人形机器人的最大瓶颈,在于高质量数据的缺乏。 人形机器人可以归到具身智能这一个大类。而它们都要面临一个最大的挑战就是,理解物理世界的智能——物理智能。要理解物理世界运行机制,就来到人们各式各样的物理定律,从牛顿力学定律,到麦克斯韦电磁方程,到傅里叶散热方程等。在这方面,语言模型实在是苍白无力。基于图片图像的识别,则由于信息稀疏且易受干扰,也无法建立真正有效的物理约束。
李飞飞等也认识到 “图像中心主义”的认知偏差,无法过度依赖视觉输入。因此也在强调引入外部仿真的数据。
实际上人工智能,无论是大语言模型还是大世界模型,本质上都是“偷师人类”,向人类学习知识。而人类工程学最丰富的知识沉淀,就在工业软件里,尤其是仿真软件CAE。天下没有任何一种软件或者硬件形态,可表达的知识密度能够超过仿真软件CAE。一台航空发动机的知识密度很高,然而它的知识表达就是肉眼所能看到的全部。而仿真软件则通过几十万甚至上百万行代码,清晰地展示了知识排列的阵容。CAE天生就是融合了结构力学、热、电磁和流体这四大物理场的所有物理定律,它天生就是模拟世界运行的规律。每一段代码,背后都站着牛顿、麦克斯韦、特斯拉、胡克等这些伟大的科学家。CAE仿真数据蕴含完整状态空间(位置、速度、力矩、能量等),是更高效的物理知识载体。
于是,新的窗户出现了,CAE软件是最有可能为具身智能提供最好的“数据训练营”。CAE软件,天生就是提供数据的。它以前为工程师决策提供预测世界的数据,现在它完全可以为数字空间,提供可靠的数据。高保真的物理仿真软件,在物理AI时代将具有“数据软基础设施”的划时代战略意义。它所产生的高质量数据空间,成为滋养物理智能的最佳育婴室。每一条数据,都是营养充分符合物体恒常性的奶棒。具身智能,从而可以有了足够丰富而稳定供应的“数据训练营”。
英伟达一直在强调“物理智能”,实际上黄仁勋在CES演讲提到18次。然而英伟达的
PhysX,并没有强大的多物理场能力。类似游戏引擎Unity的动作仿真技术依然过于简单。在游戏中,人的关节被处理成硬弹簧。它不需要网格划分,通过显式积分来处理,因此运行速度非常快。但在人形机器人的仿真数据中,关节不能硬弹簧的模式,而需要采用软弹簧的约束。这需要更复杂的物理方程处理。即使人们广泛使用的谷歌开源多体仿真Mujoco引擎,依然是科研级的仿真。它与真正的工业级应用,还有距离。多体动力学,正在呼唤新的王者。
大语言模型,天生具有概率性。人类知识具有天然的“模糊性”,因此可用大语言模型进行描述。但在实时或者控制等关键场合,则必须严格排除模糊性。而物理仿真则是降低这种模糊性的关键手段。由于CAE仿真严格遵循牛顿定律、拉格朗日方程等物理规律,输出的数据几乎不含噪声或歧义。这是属于“最干净”的数据类型,适合训练需要高可靠性的AI模型。
在物理AI时代,掌控高保真度物理数据生成能力的技术,将成为新一代人工智能的基石。拥有四大物理场的仿真技术的CAE公司,将成为具身智能的“真理工厂”。李飞飞和人形机器人,其实都在寻找这样的“数据合成工厂”。