首页 行业研报 汽车:OpenAI o3加速智驾VLA

汽车:OpenAI o3加速智驾VLA

行业研报 62

  报告摘要

  事件:近期,OpenAI推出新的推理系列模型o3和o3-mini,接近AGI的AI模型拥有真正的通用推理能力,有望加速智驾VLA。

  接近AGI的AI模型加速智驾VLA。传统自动驾驶系统分为感知、规划、定位和决策等多个模块,端到端架构则强调“感知决策一体化”,提高智驾能力上限。o3具备更先进、近似人类的推理能力,在代码编写、数学竞赛和掌握人类博士级别的科学知识等方面,均超越了o1,自动驾驶开始真正依靠人工智能而不是详尽的地图绘制和编码来取得进步。端到端可全面实现拟人高效决策升级。全AI网络架构高效传递信息,端到端是一体化的模型,信息都在模型内部传递,具有更高上限,用户所能感受到的整套系统的动作、决策都“更加拟人”;一体化模型可在GPU里一次完成推理,且端到端延迟更低,车辆动作响应及时。

  以端到端+VLM为例,将智驾系统分为系统一(快系统)和系统二(慢系统)。系统1(快系统)经历了三个进化阶段:第一代为NPN架构,包含感知、定位、规划、导航、NPN等模块,支撑了理想汽车100城城市NOA推送。NPN使用部分道路和地图的先验信息,帮助车辆识别道路特征,减少对高精地图的依赖。但即使可以减少依赖,依然没有一个图商能提供城市的高精地图,轻图则无法具有时效性的迭代。第二代为分段式端到端(TwoModels),模块更少,只剩下感知和规划,无需等先验信息更新,有导航就能开,支撑着现阶段理想无图NOA全国都能开的实现。第三代为一体化端到端(OneModel),真正意义上的端到端,输入是传感器、输出是行驶轨迹,全部由一个模型实现。理想VLM擅长逻辑推理,实现慢系统人脑思考。在端到端基础上,理想汽车引入了VLM视觉语言模型以达到人脑思考效果,用更擅长逻辑推理的VLM,去执行复杂的分析,在驾驶中给系统一提供更加符合逻辑、准确的驾驶决策。OpenAI推出新的推理系列模型o3和o3-mini,接近AGI的AI模型拥有真正的通用推理能力,有望加速智驾VLA。

  风险提示

汽车:OpenAI o3加速智驾VLA

  智驾进展不及预期,技术升级不及预期,控制成本不及预期。


太平洋 刘虹辰