星海系列:人形机器人与AI大模型之Robot+AI的Transformer之旅
从Transformer到多模态大模型的演进与应用。Transformer不仅在语言处理上广泛应用,还扩展至图像、视频、音频等多模态任务。诸如StableDiffusion、VideoPoet和MusicLM等模型展现了其强大的生成能力,推动了多模态大模型(MLLM)的发展。
机器人现实世界至数据化的突破:RT-2、RoboCat与MimicGen。RT-2通过大规模的视觉-语言预训练,将视觉识别与低级机器人控制结合,实现了机器人在复杂任务和未见环境中的强大泛化能力。RoboCat则基于Gato模型,展示了多任务和多具身平台上的自我迭代学习能力,能够快速适应新任务并生成跨任务策略。英伟达的MimicGen自动生成大量模仿学习数据,有效减少了人工干预,提升了机器人学习的效率。
特斯拉FSD,端到端算法成为主流,数据为关键。2020年FSD引入Transformer模型,走向了数据驱动的模型范式,2024年初FSD V12完全采用神经网络进行车辆控制,从机器视觉到驱动决策都将由神经网络进行控制。FSDV12能够模拟人类驾驶决策,成为自动驾驶领域全新发展路径。
英伟达Robocasa:具体智能关键节点,首次论证real-sim-real。通过升级模拟平台并构建模拟框架,基于厨房场景和原子任务、复合任务、真实世界三个场景收集行为数据集并进行结果评估。说明模拟器的丰富多样性以及视觉和物理真实性显著改善了模拟效果,实验结果首次论证了real-sim-real可行。
投资建议:1)关注算法训练中,需要使用的传感器公司,如视觉方案奥比中光,力学方案安培龙;2)关注同步受益的机器人本体公司,如总成方案三花智控、拓普集团;丝杆公司北特科技、五洲新春、贝斯特、双林股份、震裕科技等;3)关注其他产业链可延伸公司。
风险提示:机器人算法迭代进步速度不及预期,人形机器人落地场景实际需求不及预期