我一直在思考,小鹏理想的VLA,和蔚来华为的世界模型,哪个才是自动驾驶的未来? 今天我看小鹏科技日发布的第二代VLA找到了答案: 【VLA跟世界模型的融合】。 VLA和世界模型,各有优劣势,而小鹏的做法是对的,把两者结合起来。可以预见一下,小鹏才是那个最终引领自动驾驶路线的企业。 ✔第一代的VLA,将【视觉感知—语言理解—行动执行】直接关联,把看—懂—做的联系起来。一代VLA依赖语言作为中介,将摄像头雷达看到的东西,转化成语言token(比如红灯,有行人),然后基于语言模型推理规则(比如遇到红灯就要停车,遇到行人横穿马路就刹车),然后输出动作。 ✔VLA擅长通过语言规则理解复杂场景,决策都是可以被解释的(比如刚才是有锥桶所以停车了),这里说一下,物理世界模型是无法解释所有决策的。 ✔但是第一代VLA会损失时间和空间上的精度,他没有办法预测物体下一步的运动轨迹是什么,比如前方掉落物体以后,物体的运动轨迹,VLA是不知道的,而世界物理模型可以预测这些。 世界物理模型,其实就是自动驾驶大脑对这个真实世界的“建模”,模拟这个世界的运行方式。 因为看到VLA这些不足,小鹏推出第二代VLA,其实就是小鹏把VLA和物理世界大模型做结合了。 ✔小鹏第二代VLA已经不依赖人类语言作为中间媒介了,模型直接学习物理世界的交互规律,通过模仿学习,直接掌握在物理世界中如何开车。 ✔小鹏汽车第二代VLA,把“L”省掉,直接由视觉输入,直接学习和模仿物理世界,不需要经历语言转译这一步。 VLA: 看到红灯—遇到红灯就要停车—停车。 二代VLA: 看到红灯—模型—停车 ✔二代VLA,省去了中间翻译的过程,真正意义上模仿的人类开车。物理模型具有自己思考的能力,不需要人工标注,还能够还原真实物理世界的运行规律。 比如VLA可能无法知道前方汽车掉落一个物体落地后第二次反应,而二代VLA世界模型能够根据物体形状方位预测他落地后的轨迹,这是不是更像人了呢? 而且小鹏VLA会同时用在汽车,Robot机器人,以及飞行汽车上,这也是小鹏独有的优势。 ✔小鹏的二代VLA就是自动驾驶的未来,和终局。把真实世界建模,高度模仿人类大脑,最终肯定让小鹏智驾领先行业。 小鹏坚持AI已经十个年头,而且具有自研AI芯片的能力,是整个世界自动驾驶领域唯二把AI作为公司立身之本的企业,另一个就是特斯拉。【来自懂车帝车友圈】






