我一直在思考，小鹏理想的VLA，和蔚来华为的世界模型，哪个才是自动驾驶的未来？

我一直在思考，小鹏理想的VLA，和蔚来华为的世界模型，哪个才是自动驾驶的未来？今天我看小鹏科技日发布的第二代VLA找到了答案：【VLA跟世界模型的融合】。 VLA和世界模型，各有优劣势，而小鹏的做法是对的，把两者结合起来。可以预见一下，小鹏才是那个最终引领自动驾驶路线的企业。 ✔第一代的VLA，将【视觉感知—语言理解—行动执行】直接关联，把看—懂—做的联系起来。一代VLA依赖语言作为中介，将摄像头雷达看到的东西，转化成语言token(比如红灯，有行人)，然后基于语言模型推理规则(比如遇到红灯就要停车，遇到行人横穿马路就刹车)，然后输出动作。 ✔VLA擅长通过语言规则理解复杂场景，决策都是可以被解释的(比如刚才是有锥桶所以停车了)，这里说一下，物理世界模型是无法解释所有决策的。 ✔但是第一代VLA会损失时间和空间上的精度，他没有办法预测物体下一步的运动轨迹是什么，比如前方掉落物体以后，物体的运动轨迹，VLA是不知道的，而世界物理模型可以预测这些。世界物理模型，其实就是自动驾驶大脑对这个真实世界的“建模”，模拟这个世界的运行方式。因为看到VLA这些不足，小鹏推出第二代VLA，其实就是小鹏把VLA和物理世界大模型做结合了。 ✔小鹏第二代VLA已经不依赖人类语言作为中间媒介了，模型直接学习物理世界的交互规律，通过模仿学习，直接掌握在物理世界中如何开车。 ✔小鹏汽车第二代VLA，把“L”省掉，直接由视觉输入，直接学习和模仿物理世界，不需要经历语言转译这一步。 VLA：看到红灯—遇到红灯就要停车—停车。二代VLA：看到红灯—模型—停车 ✔二代VLA，省去了中间翻译的过程，真正意义上模仿的人类开车。物理模型具有自己思考的能力，不需要人工标注，还能够还原真实物理世界的运行规律。比如VLA可能无法知道前方汽车掉落一个物体落地后第二次反应，而二代VLA世界模型能够根据物体形状方位预测他落地后的轨迹，这是不是更像人了呢？而且小鹏VLA会同时用在汽车，Robot机器人，以及飞行汽车上，这也是小鹏独有的优势。 ✔小鹏的二代VLA就是自动驾驶的未来，和终局。把真实世界建模，高度模仿人类大脑，最终肯定让小鹏智驾领先行业。小鹏坚持AI已经十个年头，而且具有自研AI芯片的能力，是整个世界自动驾驶领域唯二把AI作为公司立身之本的企业，另一个就是特斯拉。【来自懂车帝车友圈】