taoleb

自动驾驶VLA再升级！博世IRL-VLA：打造全新闭环强化学习框架

2025-09-12 凌晨一点字 0分钟技术分析

自动驾驶VLA再升级！博世IRL-VLA：打造全新闭环强化学习框架

研究背景与挑战

自动驾驶VLA（Vision-Language-Action）技术自深入行业视野以来，一直面临着两个关键的技术挑战：

核心问题分析

1. 开环训练局限性

现有VLA架构基于开环设置中的模仿学习
倾向于复制数据集中的记录行为，性能存在天花板
无法充分利用大模型的真正潜力

2. 仿真环境依赖性

闭环训练严重依赖高保真传感器仿真
仿真与真实环境的domain gap问题
计算效率限制了大规模部署

技术突破方案

针对这些挑战，博世、上海大学、上海交大和清华AIR的联合研究团队提出了IRL-VLA——一个全新的闭环强化学习框架，通过逆向强化学习奖励世界模型结合专门设计的VLA方法。

IRL-VLA框架详解

三阶段训练范式

IRL-VLA采用创新的三阶段训练方法：

第一阶段：模仿策略学习

提出全新VLA架构
通过模仿学习对VLA策略进行预训练
建立基础的驾驶行为模式

第二阶段：逆向环境学习

构建轻量级奖励世界模型（RWM）
实现高效的闭环奖励计算
替代传统计算密集型仿真器

第三阶段：闭环强化学习

采用PPO（近端策略优化）算法
平衡安全事件、舒适驾驶和交通效率
实现策略的进一步优化

核心技术创新

1. VLA模型架构设计

语义推理模块

基于Senna-VLM框架构建
多图像编码策略和多视角提示机制
实现高效且全面的场景理解

3D推理模块

BEV视觉编码器和适配器设计
多视角图像编码为BEV空间特征图
学习向量化的地图元素和智能体运动信息

统一扩散规划器

基于扩散的多样化轨迹生成
条件扩散模型学习强大的去噪机制
分层整合场景语义信息

2. 奖励世界模型（RWM）

设计理念

轻量级、数据驱动的仿真器替代方案
直接基于真实世界演示建模奖励结构
消除sim-to-real领域差距

评估指标体系 基于EPDMS（扩展预测驾驶员模型分数）的九个子分数：

NC：无责碰撞
DAC：可行驶区域合规性
DDC：驾驶方向合规性
TLC：交通灯合规性
EP：自车进度
TTC：碰撞时间
LK：车道保持
HC：历史舒适度
EC：扩展舒适度

数据增强策略

记录扩散过程每一步的轨迹及对应EPDMS分数
使用K-means聚类采样多种轨迹模式（K值32-8192）
对每个场景应用多个自车姿态进行模拟

3. 基于RWM的强化学习

优化算法选择

采用PPO算法确保训练稳定性
截断参数ε=0.2，折扣因子γ=0.99
广义优势估计参数λ=0.95

策略优化过程

从VLA策略迭代采样轨迹
通过RWM进行实时评估
更新策略参数最大化累积奖励

损失函数设计 结合强化学习目标和行为克隆项：

L_total = L_RL + β·L_BC

其中β=0.5实现最佳权衡。

实验结果与性能分析

基准测试表现

NAVSIM v2基准测试

EPDMS得分：45.0（SOTA水平）
CVPR2025自动驾驶大奖赛：亚军
Navhard real基准：74.9分

与SOTA方法对比

方法	EPDMS	NC	EP	EC
DiffusionDrive	63.2	-	-	-
WOTE	66.7	-	-	-
GTRS-Aug	74.3	98.9	76.1	54.2
IRL-VLA-PT	74.4	98.3	83.9	76.0

消融实验洞察

分层推理模块效果

仅3D推理：EPDMS = 70.0
添加语义推理：EPDMS = 71.4（+1.4）
完整扩散规划器：EPDMS = 74.4（+3.0）

损失权重优化

β=0.5时达到最佳性能（EPDMS = 74.9）
β过大导致训练崩溃
β过小影响收敛稳定性

技术优势与创新点

1. 首创性突破

业界首个：不依赖仿真器的闭环VLA强化学习方法
端到端训练：包含完整传感器输入的闭环训练框架
模型泛化：在模仿学习和强化学习设置下均表现优异

2. 效率优势

计算效率：消除传感器渲染和物理仿真需求
可扩展性：支持大规模真实世界数据训练
成本效益：显著降低训练成本和时间

3. 性能平衡

安全性保障：保持接近SOTA的碰撞避免性能
舒适性提升：显著改善驾驶舒适度指标
多目标优化：平衡安全、效率和舒适性要求

实现细节与配置

模型配置

主干网络：V2-99架构
输入分辨率：256×704多视角相机图像
训练设备：8块NVIDIA A100 GPU

训练参数

模仿学习阶段：AdamW优化器，lr=10⁻⁴，100个epoch
奖励模型训练：针对不同指标使用相应损失函数
强化学习阶段：PPO算法，批量大小32

行业影响与发展前景

技术影响

范式转变：从开环模仿学习向闭环强化学习转型
效率革命：大幅降低自动驾驶AI训练门槛
性能突破：为VLA技术在自动驾驶领域的应用开辟新路径

应用前景

商业化加速：降低自动驾驶系统开发成本
技术民主化：中小型公司也能参与高端自动驾驶技术开发
创新催化：为更多创新性VLA应用提供技术基础

未来发展方向

多模态融合：结合更多传感器模态的VLA框架
实时部署：优化模型推理速度适应车载环境
标准化推广：建立行业标准化的VLA训练框架

总结与展望

IRL-VLA框架代表了自动驾驶VLA技术的重大突破，通过巧妙的三阶段训练范式和创新的奖励世界模型设计，成功解决了传统方法面临的开环训练局限性和仿真依赖性问题。

这一成果不仅在学术界获得认可（CVPR2025自动驾驶大奖赛亚军），更重要的是为自动驾驶行业提供了一个可扩展、高效率的VLA训练解决方案。随着技术的进一步成熟和优化，IRL-VLA有望成为下一代自动驾驶系统的核心技术基础，推动整个行业向更智能、更安全的方向发展。

对于从事自动驾驶技术研发的工程师和研究人员来说，IRL-VLA框架不仅提供了新的技术思路，更重要的是验证了通过创新训练范式来突破现有技术瓶颈的可行性。这种”以问题为导向、以创新为驱动”的研究思路，值得整个行业深入学习和借鉴。