小米辅助驾驶的 Principal Scientist 陈龙在小绿书上做了一个 Ask Me Anything,简单梳理一下他的输出:
- L4 到 L5 突破的最大难点就在 VLA,因为 L5 不限设计运营域要求模型具备像人一样的常识推理能力。
- 小米做辅助驾驶的顶尖人才(他自己就算吧)薪资可以对标北美。
- 小米打算什么时候冲击 L3?快了,效果很惊艳。
- 辅助驾驶的终局肯定是 VLA,端到端只能解决基本的驾驶能力。道路是为人设计的,有很多需要基于认知推理的场景,所以让车更像人一样思考,是通往高阶自动驾驶的关键。
- 目前业界领先的端到端可以解决 90% 的问题,可以看下 fsd tracker 的 top intervention,特斯拉把端到端做到极致了,安全性已经基本上能保证,剩下的大部分问题(比如lane issue)都是需要 VLA 去解决的。
- 辅助驾驶开环有一定的 scaling 表现,但会很快趋近于饱和,真正的闭环控制问题还是需要强化学习。
- 辅助驾驶的强化学习具体来说分 online RL 和 offline RL,online RL 需要一个可交互的环境给 policy 去自由探索,通过定义的 reward 学习到一些安全性和规则和超越人类的行为。Offline RL 通过真实的离线数据,比如接管数据来进一步提升跟用户偏好,安全性方面的对齐。
- 摄像头和激光雷达现在主流还是单独的 encoder,然后特征融合。理论上前融合更好,但是需要很大规模的的预训练。这个方向很值得探索。
- VLA 和世界模型在辅助驾驶领域的前景很好,目前端到端没有长期的记忆、思考和规划能力,VLA 和世界模型很好的补齐了这些能力。
- YU7 比 Tesla 传感器硬件好很多,纯从技术上来讲,Tesla 能实现 L 几,YU7 就可以。(咦,除了传感器,雷总在发布会上也有对比算力,陈龙没对比算力哟。
- 说小米机器人的消息算泄密,小米铁蛋不能说太多。
- 今天的机器人领域很像 6 - 7 年前,还没有 scale up 的数据采集途径,只是有限的采集数据做一些有限的 demo。但现在 AI 进步非常快,离泛化和通用可能没有那没远了。
- 现在小尺寸模型能力还很有限,但 VLA 能达到的上限会非常高。
- 融合肯定比单一模态的系统性冗余要高,当 MPI 到几千几万时就可以体现出多模态的重要性了。
- 视觉语言模型特征提取能力差、局部细节丢失的问题需要把 VL 的对齐做得特别好,现在除了堆数据和表征学习还没有其他更好的办法。
- 端到端迭代主要靠数据闭环,很重要!算法反而没那么重要。
- 现在趋势是轻图,但(图)肯定会以某种形式长期存在来作为模型的先验,就像人一样如果有精细的道路级导航开车会轻松很多。
- 小米辅助驾驶部门是双休!
- 对于 VLA,直接用预训练的 VLM 是泛化性最好的,bev feature 融合可以增加空间理解能力,需要构造语言数据做 sft,但会一定程度上伤害通用能力。我们也在探索如何不损失通用性的前提下提升空间理解推理能力。
- Transformer还是现在最好的网络架构,只是自动驾驶和机器人涉及到反馈控制的训练方式需要创新,以及 VLA 如何解决自回归效率问题。
- 1. VLA 也是端到端,只是可以利用语言模态进行推理从而降熵增加确定性;2. 语言是必须的,参考猩猩学开车也能学会,但不理解这个世界没有语言推理能力终究会出各种问题;3. 4D 毫米波雷达是一个纯视觉很好的冗余,当达到几千几万 MPI 时就会意识到冗余的重要性了。
- 纯视觉到后期肯定会有一些问题,例如光线不佳、雨后地面反光等等,因为人在这些情况也经常出错。等到几万 MPI 时候就会发现传感器冗余的重要性。
- 对于解决自动驾驶,无论多少数据都不可能充足,世界是非结构化的,总会有没有见过的场景出现,而且关键是你不知道有哪些没有见过的场景也不知道多少数据会够,所以常识推理能力是必须的。
- 4D 毫米波雷达是对纯视觉方案很好的补充,能提供速度和高度信息,可以作为关键的冗余感知,提升系统的全天候能力和安全性。跟普通雷达比,对路牌,低矮障碍物等检测能力更强一些。
- VLA 要解决需要思考推理的场景。比如临时的施工区、交警的复杂手势、非典型的交通行为、非典型到路线等等,这些场景由于数据很少,端到端并不能学习得很全面。
- 小米内部机器人部门资源给得挺多的,后面潜力非常大。
- 强化学习对于自动驾驶很有用,RLHF 可以对其用户习惯偏好,online RL 提升安全性和 ood 状态的恢复能力。可以作为模仿学习后的微调,也能作为 RL 预训练,但还在探索阶段。
- 传统规控是安全的基础,长期模型还是要结合传统规控兜底的。
- 如何解决辅助驾驶的 cornercase,data-driven 是核心思路,通过数据挖掘找到问题根源,然后针对性地去迭代优化模型。数据有限的情况下就需要对模型做一些增强,比如引入深度等 inductive bias。基模肯定会探索,无监督预训练基模可以得到很好的表征提升模型学习效率,语言模型基模拉高整体的认知、推理能力。
- 自研(辅助驾驶)芯片成本和优化会好很多,激光雷达我个人认为成本足够低的情况下是一个对视觉很好的冗余(也有可能会被 4D 毫米波雷达替代)。技术上重点是要能做到前融合端到端,传感器的多少是成本和安全性的 trade-off。
- VLA 路线主要提升长尾场景的推理能力,更加注重 high level 的规划。世界模型现在讲的比较多,但没有一个明确的思路到底是作为预训练方法,或是模拟器配合 RL 训练,还是推理时预测下一个状态做 Latent Action Model 或 MCTS。本质来讲 VLA 也都是可以使用这些方式来训练的,所以可以结合起来搞不冲突。
- 很多人感觉现在自动驾驶是端到端的数据工程问题,只要 scale up 数据模型就行,但同时也还是个科学问题,模仿学习还是有上限的,真正学会像人一样开车还需要学习到:1)闭环反馈控制能力,2)像人一样思考的能力。这就需要 WM+RL 和 VLA 的探索了!
- 世界模型解决 low level motion 的问题,VLA 解决的是更 high level 的决策。
就不一一截图了,放一个最可爱的问答,「这个暂时不能讲」,生动表明陈龙同学没有经过公关部的培训。😄