汽车:2024年智驾中期策略:特斯拉打开智驾技术新高度,降本是国内产业链首要目标
1.12022-2023:特斯拉引领下感知技术收敛,国内头部厂商城市NOA功能开始落地
2020-2022年间特斯拉在北美提出并成功验证了“BEV+Occupancy”感知架构,国内厂商从2022/2023开始陆续跟随:
BEV鸟瞰图解决了此前落地城市NOA功能过程中对高精度地图强依赖的问题。2021年AI DAY,特斯拉提出以Transformer为主干网络的BEV空间构建方式,也即通过Transformer模型将多视角图像信息重建至向量空间下,且该向量空间在大模型的加持下拥有更高的环境感知精度,从而降低对高精度地图的依赖。
Occupancy则在2D BEV的基础上增强对于物体高度信息的感知,有效解决了对于异形障碍物识别的问题。Occupancy占用网络的核心思想在于将三维空间划分为无数个微小立方体,面对障碍物时“不再考虑这个物体到底是什么,只考虑对应区域的微小立方体是否被占用”。1.22024:明确端到端为智驾算法迭代方向,但具体技术路线尚未收敛
“端到端”智能驾驶的三层概念
全局端到端:从传感器输入到控制信号输出(Photon to Control),中间所有步骤都是端到端可导,可进行全局的优化。
模块化端到端:在最终输出控制信号之外,引入一些中间任务的监督。和全局端到端相同的地方在于同样可以进行全局的优化,整个模型可以进行联合训练和调优。
“伪”端到端:在规控端用神经网络替代基于程序员自己写规则的方式,感知大模型网络和规控大模型网络之间不可导。
为什么需要端到端智能驾驶?
规控端仍是主要基于程序员自己写规则的方式,城区场景下仅一个十字路口可能就存在上百种交互情景,靠人类程序员手写规则无法穷尽,造成的结果就是强博弈场景通行效率低。上述三种端到端均可以解决与复杂交通参与者的交互问题。
传统分模块的自动驾驶模型架构下,不同模块之间的接口输出结果均基于人工的选择,感知输出的信息都是人工定义的显示抽象(如车道线、障碍物等信息),但现实中可能存在难以充分表达但会影响下游决策的因素。同时模块之间的误差结果会累计,使得最终的输出结果有较大的偏差。针对这个问题只有前两种端到端才可以解决。
1.2.1特斯拉端到端模型上车,FSD体验跨越式提升
模型层面:基于全局端到端自动驾驶模型
目前特斯拉未召开第三届AI Day,行业内尚不知道特斯拉端到端自动驾驶模型具体的网络架构,我们仅能从23年CVPR以及马斯克采访/博文的只言片语中得到一些基本的判断。1)特斯拉端到端模型很可能是基于生成式AI。2)在特斯拉很可能在原有Occupancy模型的基础上构建世界模型,为端到端提供场景演化的理解。
①特斯拉端到端模型很可能是基于生成式AI
判别式模型vs.生成式模型:
判别式模型:学习输入数据到输出结果的映射关系,需要人工标注的数据进行有监督的训练。之前特斯拉、国内自动驾驶厂商主要采用的就是判别式模型,为了提高效率,特斯拉逐步从人工标注向自动化标注转变。但自动标注过程非常占用算力资源,影响模型的scaleup能力。
生成式模型:可以利用自然数据做自监督训练,无需标注,模型的scaleup能力大幅提升。比如GPT会读取一段连续的文本,尝试预测这段文本中的下一个词,再比较预测的单词与实际的单词进行迭代优化。
自动驾驶最终任务可以抽象为“生成自车的未来轨迹”,与生成式模型的原理非常类似,且相比于判别式模型,生成式模型在scaleup上具备明显的优势,因此我们判断,特斯拉端到端模型很可能是基于生成式AI模型。
模型层面:基于全局端到端自动驾驶模型
①特斯拉端到端模型很可能是基于生成式AI
以学界OccWorld模型解释生成式AI在自动驾驶模型中的应用:采用类似GPT的生成架构,以自回归方式从先前场景预测下一个场景,实现了对自车运动和周围环境演化的同时建模。
特斯拉FSDV11的算法架构中,已经在Lanes network模型中部分应用了类似的思路:将来自视觉模块和地图模块的所有信息进行编码,类似于语言模型中单词token,再以序列自回归的方式预测节点的位置、属性以及连接关系。
1.2.1特斯拉端到端模型上车,FSD体验跨越式提升
模型层面:基于全局端到端自动驾驶模型
②特斯拉或在原有Occupancy模型的基础上构建世界模型,为端到端提供场景演化的理解。
什么是世界模型?
world model世界模型的核心任务是预测出未来怎么发展,背后的本质在于模型能够自己习得因果关系。当前神经网络和人类的差距在于,神经网络的预测结果是概率输出,知其然而不知其所以然;而人类可以通过观察、以及通过无监督的方式进行交互来学习积累大量关于物理世界如何运行的常识,这些常识告诉人类什么是合理的、什么是不可能的,因此人类可以通过很少的试验学习新技能,可以预测自身行为的后果。所谓世界模型就是希望神经网络可以同样具备上述的能力。
世界模型和端到端的关系?
在自动驾驶领域引入世界模型意味着对未来场景的模拟和预测,即世界模型为端到端提供场景演化的理解。
1.2.1特斯拉端到端模型上车,FSD体验跨越式提升
②特斯拉或在原有Occupancy模型的基础上构建世界模型,为端到端提供场景演化的理解。
特斯拉在2023年CVPR上曾展示了对于世界模型的探索:构建向量空间的世界模型特征(一种三维重建方式能描述物理世界的全部特征),所有的智能驾驶任务都可以通过简单地插入(plugging)任务头来实现。
端到端模型不等于抛弃之前的感知网络架构:特斯拉在2023CVPR的演讲上曾表示“Occupancy模型实际上具有非常丰富的特征,能够捕捉到我们周围发生的许多事情。整个网络很大一部分就是在构建世界模型特征。”
1.2.1特斯拉端到端模型上车,FSD体验跨越式提升
数据闭环:数据闭环流程简化,云端算力为数据闭环中最核心的环节
随着模型架构的改变,数据闭环流程也随之改变。在FSDV11的技术栈下,数据闭环包括数据采集->数据清洗->自动化标注->模拟仿真->云端训练->模型部署等多个环节。若模型架构从判别式模型向生成式模型转变,训练方式从有监督向自监督转变,并省去了复杂的数据清洗和自动化标注环节(仅需要删选出来人类优质的驾驶行为数据即可),数据闭环流程大幅简化。
云端算力资源的重要性进一步提升。马斯克曾多次在推特上表示“FSDV12端到端模型迭代主要受到云端算力资源的掣肘”。
特斯拉针对超算中心大幅投入,云端算力快速提升。截至22年AIDay,特斯拉具有1.4万个A100(<5EFLOPS算力),到23年8月马斯克直播时特斯拉已经具备1.6万个A100+1万个H100+Dojo,算力合计超过16EFLOPS,同时马斯克提到特斯拉23/24年对超算中心的年投入都会超过20亿美金。在大幅投入的背景下,特斯拉云端算力快速提升,至24年4月,具有约35EFLOPS云端算力,预计到24年底提升到85EFLOPS。