李飞飞缺什么，人形机器人缺什么？二者本质都缺一样,李飞人设

李飞飞缺什么，人形机器人缺什么？二者本质都缺一样。

李飞飞主推的二维照片变三维空间的“空间智能”，本质上是基于视觉图像处理的“大世界模型LWM”。这与倡导者李飞飞的视觉优先的信念是密切相关。李飞飞的一个有名的举例是，婴幼儿通过视觉而非语言，，率先建立了对世界的认识。三岁的小孩语言能力非常简单，但依然可以对外界的活动保持相当水准的互动。这种反差，意味着语言模型并非是认识世界的唯一窗口。作为引领图像成为这次AI浪潮的突破口的李飞飞而言，大世界模型可以将二维图像变成3D世界。

然而尽管这里的空间尺寸、方位逻辑都可以定义清楚，但依然缺少“物体恒常性”。这里的数字空间里，地面没有摩擦力，杯子没有重量等。这是大世界模型，需要解决的问题。

为这个数字空间引入高价值的数据，是激活这个世界的关键成败。人形机器人一直无法走进现实生活，最大的限制源自真实环境提供的可训练语料，实在太少。对话机器人可以通过互联网丰富的文字语料，来训练能力。日新月异。然而现实环境中，一个洗盘子的动作，很少有人为此保留模型。即使通过多模态VLA（Vision-Language-Action），将视觉和语言结合所形成的动作闭环，依然缺乏真实的物理定律支撑。图像里的视频流的趋势，并不能受到物理定律的约束。人形机器人一天不解决数据训练的问题，就要在实用场景之外多呆一天。前Meta首席技术官杨乐昆认为人形机器人就是骗局，原因就在这里。他没有看到足够数据，能够支持人形机器人的训练。

人形机器人，只能通过真机训练，形成若影随形的“影子数据”。这其实借鉴于自动驾驶的方式。特斯拉汽车就是边行驶边采集数据，这种真实环境的影子数据为它的FSD自动驾驶提供了极大的优势。然而自动驾驶相对是卡片式的二维空间，前后左右。而它的目标就是不要碰撞不要接触。人形机器人则在完成一个复杂得多的工作。它的移动不仅仅是前前后后，而且上上下下甚至斜左斜右。运行轨迹，要比汽车千变万化。这意味着真机训练，能够提供的样本数据，是一个高度匮乏的局面。没有足够的数据做养分，人形机器人的大脑就会一直处于营养不足的局面。因此，机器人目前的方法只能做些跳舞、引导等简单动作，关键从场合一定要采用提前编程。宇树机器人在春节晚会的人造武生“武Bot“在舞台上再能打，依然是提前编排的动作。它离感知现场环境、自行反馈还差的太远。这跟通过编程遥控一辆大号玩具汽车，差不太多。

很显然，约束人形机器人的最大瓶颈，在于高质量数据的缺乏。人形机器人可以归到具身智能这一个大类。而它们都要面临一个最大的挑战就是，理解物理世界的智能——物理智能。要理解物理世界运行机制，就来到人们各式各样的物理定律，从牛顿力学定律，到麦克斯韦电磁方程，到傅里叶散热方程等。在这方面，语言模型实在是苍白无力。基于图片图像的识别，则由于信息稀疏且易受干扰，也无法建立真正有效的物理约束。

李飞飞等也认识到 “图像中心主义”的认知偏差，无法过度依赖视觉输入。因此也在强调引入外部仿真的数据。

实际上人工智能，无论是大语言模型还是大世界模型，本质上都是“偷师人类”，向人类学习知识。而人类工程学最丰富的知识沉淀，就在工业软件里，尤其是仿真软件CAE。天下没有任何一种软件或者硬件形态，可表达的知识密度能够超过仿真软件CAE。一台航空发动机的知识密度很高，然而它的知识表达就是肉眼所能看到的全部。而仿真软件则通过几十万甚至上百万行代码，清晰地展示了知识排列的阵容。CAE天生就是融合了结构力学、热、电磁和流体这四大物理场的所有物理定律，它天生就是模拟世界运行的规律。每一段代码，背后都站着牛顿、麦克斯韦、特斯拉、胡克等这些伟大的科学家。CAE仿真数据蕴含完整状态空间（位置、速度、力矩、能量等），是更高效的物理知识载体。

于是，新的窗户出现了，CAE软件是最有可能为具身智能提供最好的“数据训练营”。CAE软件，天生就是提供数据的。它以前为工程师决策提供预测世界的数据，现在它完全可以为数字空间，提供可靠的数据。高保真的物理仿真软件，在物理AI时代将具有“数据软基础设施”的划时代战略意义。它所产生的高质量数据空间，成为滋养物理智能的最佳育婴室。每一条数据，都是营养充分符合物体恒常性的奶棒。具身智能，从而可以有了足够丰富而稳定供应的“数据训练营”。

英伟达一直在强调“物理智能”，实际上黄仁勋在CES演讲提到18次。然而英伟达的
PhysX，并没有强大的多物理场能力。类似游戏引擎Unity的动作仿真技术依然过于简单。在游戏中，人的关节被处理成硬弹簧。它不需要网格划分，通过显式积分来处理，因此运行速度非常快。但在人形机器人的仿真数据中，关节不能硬弹簧的模式，而需要采用软弹簧的约束。这需要更复杂的物理方程处理。即使人们广泛使用的谷歌开源多体仿真Mujoco引擎，依然是科研级的仿真。它与真正的工业级应用，还有距离。多体动力学，正在呼唤新的王者。

大语言模型，天生具有概率性。人类知识具有天然的“模糊性”，因此可用大语言模型进行描述。但在实时或者控制等关键场合，则必须严格排除模糊性。而物理仿真则是降低这种模糊性的关键手段。由于CAE仿真严格遵循牛顿定律、拉格朗日方程等物理规律，输出的数据几乎不含噪声或歧义。这是属于“最干净”的数据类型，适合训练需要高可靠性的AI模型。

在物理AI时代，掌控高保真度物理数据生成能力的技术，将成为新一代人工智能的基石。拥有四大物理场的仿真技术的CAE公司，将成为具身智能的“真理工厂”。李飞飞和人形机器人，其实都在寻找这样的“数据合成工厂”。