写一点 理想mindvla让每个人都有专职司机 到底是不是 真的VLA❓
或者更加收敛一点:
是不是机器人领域 基于一个大语言模型LLM作为主干网络,串行的神经网络实现:多模态信息整合编码【包含但不限于视觉、激光雷达、语言、地图、定位】后,基于大语言模型整合后输出决策并将决策转换成轨迹后再转换成控制细节❓
这类狭义的VLA
根据目前短暂本地体验,并对比了和E2E+VLM的差异
我认为是狭义的VLA
这里用几个场景差异来作证这个观点【如果觉得不对,那就是我错了~】
①:VLA后具备了非常好【比较少漏报或者虚惊】情况下的防御性驾驶,即在无遮挡的十字路口会开的比较快且稳健;在有遮挡的、视野不佳的路口会出现明显的基于可行驶剩余距离丝滑减速的防御性驾驶。
而过去E2E模型很难学会这种丝滑的减速,加上了VLM模块是可以实现特定场景,例如丁字路口的强制减速,但是体感上能感受到是一脚略微比较急的刹车。
而在VLA里面,这个减速的G值是根据剩余距离的长短进行调整,而且在这个短暂体验中没有出现过漏检/虚惊的情况。
这种场景变相证明了:
基于前向感知为主的信息输入,只要有比较好的LLM模型,能实现相当不错的场景理解能力。
②:在高架场景中,遇到严重的拥堵情况。本车已经处于静止状态,且右后到右前方一直有车辆强行Cut in进来。
VLA 在思考了一下【让了2辆Cut in 车辆后】,偶发顿悟。直接选择直接向左变道,并且触发变道后等了一下左后车辆,然后变道过去。避免了持续右边加塞的车辆。
而过去的E2E+VLM,在这类场景中一般会触发的都是绕行逻辑。本质上是基于模仿学习的端到端模型很难有真的场景理解能力【假定场景数据足够多,一定也能学会,只是现在OrinX跑不好,提前叠甲】。
在这个场景:其背后的推理思维,大概是。堵车、右前一直有Cut in ,且左前还有不错的空间似乎不堵车,离下高架还有好几百米。等会再变回去。所以现在先往左变道效率更高。【实际思考不一定是这样,大概率没有这个深度】
再次证明:VLA具备一定深度的场景理解能力。
③:高架A-高架B 中间那些 1.5倍标准车道宽度~2.5倍标准车道宽度的闸道行驶。
VLA 的驾驶策略是轻微松开电门减速,然后判断车道宽度不足是2个车道场景下,直接选择1.5 车道的居中行驶。且从A-B 衔接点的宽车道,再也不会出现画龙的场景。
而过去E2E+VLM 在这个场景100%会出现轻微画龙的轨迹。
在这个场景:1. 是因为VLA先通过场景理解知道这个是非标车道,需要居中行驶。第二个是在决策通过扩散模型生成轨迹,这个轨迹会比 E2E直接出的 轨迹先天会更加的收敛一些【具备更加稳定的中短时序的轨迹生成能力】
因此在A-B区域的画龙现象几乎没有,车道居中能力也大幅度提升。
④:再路口右转后,经过不到50米就马上要左转。且路口右转是进入下个路口的左三车道,车辆需要连续变3个车道才能进入左转车道【不到10米】。
VLA会直接选择直行,而并非直接进入左转车道【大概率会触发导航重新规划】,而且这个直行的决策非常的坚决。
E2E+VLM 大概率会触发直接变三道,放飞自我;小概率会出现直行触发强制导航重新规划。
这个也是证明 因为 VLA是全局串行存在,因此进LLM 后客观存在时延,轨迹的更加稳定,必然就不会像以前端到端这样放飞自我。
基于这个几个场景的解释,大家可以稍微重构一下场景,再来思考MindVLA是不是机器人领域中的狭义的VLA大模型?
几个问题顺带回答了?
Q1:语音有没有?有,还行语音本质上是LLM带来的添头,甜点区。泛化再进一步做,基础语音有了,记忆也有了~
Q2:选路能力是不是大幅度提升? 高维度抽象的选路能力有质的飞跃【场景理解】,底层能力会更加稳健【来源于扩散】
Q3:是不是自动驾驶? 不是,只是辅助驾驶,需要随时接管。请大家小心
Q4:是一个完整的技术栈么?行车是一个完整的技术栈,包含地面/高架/高速。是完整的技术栈
Q5:关键信息提取 COT 来得及么?基于防御性驾驶的Cot关键节点显示,在路口15-20米左右【目测】,已经触发防御性减速,延迟完全可以接受
Q6:迭代会快么?迭代会快很多,VLA 因为有Moe 还有其他很多工程巧思,相较于以前的端到端更不容易出现跷跷板的情况。可以分场景、分能力、分细节并行优化。
Q7:和FSD有没有差距?控车细节我觉得大部分场景仍然是FSD更好,但是选路能力在杭州是要好于FSD。部分场景释放的比FSD多【三点式掉头、语义理解】。我推测FSD的E2E 参量非常大和直接出控制细节相关。这个仍然需要调
Q8:有没有不好地方:遇到一次绿灯不走,在辅路估计看成了主路的红绿灯。【辅路么有右转绿灯,且主路右转是红灯场景。】这个场景思考估计还没打通?遇到一次跟着前车一起绕行的场景,我主动接管了。
Q9:现在要注意的事项?能力边界和E2E+VLM完全不一样,辅助驾驶请及时接管。
以上均来自于一台2022年的 双OrinX 计算芯片搭载的 VLA 模型体验反馈~
懒博小课堂新能源汽车理想汽车[超话]