有思维链的交互卡片显示,就是VLA吗?不一定,VLM也可以显示思维链。
那如何区分是VLA还是VLM呢?很难,你又看不到代码(看到了,也可能看不懂)除了人与人之间的信任,我大概会从这一点判断,即:
思维链决策,系统是否执行,执行的质量好不好,执行的速度够不够快。
VLM通常独立于e2e之外,是个独立的模型,两个模型之间的通讯会存在时延。 所以VLM给出的建议,系统执行会偏慢,甚至“不执行”。
比如卡片上写:减速慢行,但可能没有减速,最多匀速,甚至缓慢加速。
而VLA,只要思维链给出了推理决策,输出了Token,经过处理,最终就会形成轨迹,系统就会执行,响应也会比VLM更快。
这个方法,也不是一点准,他有一定的测试门槛,需要大量的场景验证和对比,跑一次、跑二次,跑一个场景、二个场景,可能不够,需要更大的测试数据量,而且必须有对照组才行。
这对媒体分辨和评测提出了更高的要求,也叠加了更多的难度。所以我才说,希望人与人之间是坦诚的。