物理AI核心技术分享一、核心技术分享(第二代VLA)(一)VLA核心三要素1.

又莲说汽车啊 2025-11-12 14:10:47

物理AI核心技术分享一、核心技术分享(第二代VLA)(一)VLA核心三要素1. 泛化性:模型量产的前提,需适应欧洲/海外等不同场景(如北区地库、园区漫游等),基础能力足够强才能支撑多样产品/业务形态。2. 有限性:技术突破后,才能打破“水桶短板”,用基础能力衍生更多可能;反之,基础不扎实(如早期特斯拉FSD国内竞品),体验无亮点。3. 演进性(“眼睛”):团队需“拆掉成功经验”,不能停留在当前成就。回顾小红自动驾驶十年路径:◦ 2020年:开始做“超级泊车”◦ 2021年:高速NGP◦ 2022年:城区NGP◦ 2023年:无图方案落地(核心突破点)◦ 2025年:规划实现园区无导航漫游(二)自动驾驶的本质与核心难题• 本质:物理AI问题,需完成“三维建模→预测→安全决策”,是最简单的机器人问题(仅两个自由度:加速度、方向盘转角)。• 三大难题(对比语言大模型):1. 输入非结构化:语言是离散token,而视频、毫米波雷达、压力传感器等是连续信号,离散化会导致大量信息损失。2. 输出连续化:语言是单个文字,控制信号(如刹车角度0.21与0.2的差异)需连续输出,离散token无法精准表达。3. 真实世界交互难:强化学习需真实反馈,但现有多将其当SFT使用;理想的world model应是“刺激-响应”系统,而非单纯重现。(三)第二代VLA的解决方案1. 核心思路:回归极简,打造“端到端”系统,去掉中间冗余环节(如language模块、复杂world simulation)。◦ 输入:多模态原始物理信号(不做离散化)。◦ 输出:直接输出控制信号(加速度、角速度),包含“重建-理解-预测-决策”全流程。◦ 优势:系统简单易维护、易规模化,推理效率极高。2. 关键技术:◦ 无数据标注:无需人工标注,仅需车辆实时上传数据,降低海外市场落地成本(如欧洲市场无需重新标注数据)。◦ 联合优化:从模型、软件、编译器到硬件全链路优化,确保在车端芯片上“实时运行”(与摄像头帧率一致,避免700-800毫秒延迟导致碰撞),目前已实现12倍于传统编译器的推理效率。3. 模型特点:◦ 无中间token:训练时可保留推理逻辑,部署时去掉复杂计算模块,直接用VLA架构推理。◦ 支持多形态:可加instruction(如导航、语音控车),也可去掉(如园区自动找出口的无指令模式)。二、问答环节(一)关于第一代VLA(5.7.8版本)的问题• 问:5.7.8版本表现两极化,第一代VLA方案有何问题?为何切换到第二代?• 答:并非第一代有“问题”,而是路线选择的“风险收益比”调整。第一代是“保守探索路线”(类似行业主流结构,可预期但难突破),5.7.8的两极化是探索期正常现象;当第二代“激进路线”的风险可控时,进行资源切换,目标是打造“代际差”体验,目前第二代已进入推送倒计时。(二)关于VLA中“L”(语言/推理模块)的问题• 问:是真的去掉“L”,还是换了形式?是否有隐性推理?• 答:已完全去掉中间language模块,无离散的语言token;但文字仍用于instruction输入(如导航指令)。推理过程仍存在,但为“隐性推理”(非显性COT文字),后续会通过新交互方式呈现“意图可视化”(如告知用户“提前右转是为了下主干道”),增强用户安心感。(三)关于数据收集与无标注的问题• 问:如何收集异常数据?为何能做到无数据标注?• 答:1. 异常数据收集:车端实时采集(日均1.7小时行车可遇大量hard场景)+云端数据闭环(筛选高质量、非重复数据),infrom系统助力精准识别异常场景。2. 无标注原理:通过大规模自监督学习+模仿学习,让模型从原始数据中“自学习”(如带转区场景,无需告诉模型规则,数据中包含足够案例即可学会)。(四)关于激光雷达的问题• 问:第二代VLA是否支持激光雷达车型?未来是否会上激光雷达?• 答:1. 老车主支持:带激光雷达的老车(如G9)可体验第二代VLA,但因芯片算力差异,体验会略逊于新一代车型(自研芯片软硬件耦合更好)。2. 未来不上激光雷达:激光雷达存在帧率低、远距离感知差(100-150米外仅30-50个点)、恶劣天气噪声大等问题;摄像头的信息密度(500万像素×3通道)远高于激光雷达,现有技术已能通过大模型充分利用摄像头信息,无需依赖激光雷达。(五)关于海外落地与参数量的问题• 问:海外用户何时能用上第二代VLA相关功能?车端激活参数量多少?• 答:1. 海外落地:明年优先推送“Super LCC”(第二代VLA加持的LCC+人机共驾),适配全球法规,优先覆盖合规国家。2. 参数量:不透露具体数字,但远大于“几个亿”,且成熟期会进一步压榨芯片性能,支持更大规模模型。(六)关于泊车与行业影响的问题• 问:何时用VLA技术重写泊车功能?第二代VLA落地对行业有何影响?• 答:1. 泊车优化:当前核心优先级是“行车体验”,泊车问题部分是个案bug(将单独对接解决),后续会纳入规划,但需先完成行车代际突破。2. 行业影响:打破“依赖开源模型、跟随式创新”的现状,证明“极简端到端+数据规模化”是可行路径;未来需持续“拆掉成功经验”,2028年配合新芯片可能再有架构突破,目标是不断用新方案替代旧方案。(七)关于技术细节的补充问题• 问:多模态数据如何对齐?带转区等场景识别是否受“去L”影响?• 答:1. 多模态对齐:采用类似注意力交叉的机制(细节不公开),确保高频率、低延迟。2. 场景识别:带转区、文字牌(如DC OCR)等场景无问题,模型通过大量数据自学习,无需依赖landmark识别。

0 阅读:0

猜你喜欢

又莲说汽车啊

又莲说汽车啊

感谢大家的关注