计算机行业周报:英伟达推出首款开源人形机器人模型IsaacGR00TN1,OpenAI发布音频模型

股票资讯 阅读:10 2025-03-27 14:29:24 评论:0

  投资要点

  算力:算力租赁价格平稳,英伟达推出全球首款开源人形机器人功能模型Isaac GR00T N1

  美国时间3月18日,英伟达在美国圣何塞举办GTC(GPU技术大会)。而在此次GTC大会上,英伟达不仅发布了Blackwell GPU、硅光交换机、机器人模型等一系列新产品。黄仁勋还在演讲中反复传递出一个信号:随着AI行业在模型训练上的整体需求放缓,再加上DeepSeek在模型推理上所做创新,AI推理时代即将到来。

  作为GTC的重头戏,黄仁勋在演讲中宣布推出数据中心AIGPU的新一代产品——NVIDIA Blackwell Ultra GPU。此前市场传言英伟达去年年底计划将Blackwell Ultra改名为B300,但根据现场公布的结果,官方保留了原始命名。Blackwell Ultra GPU相比于上一代B200GPU性能提升了50%,约为15P FLOPS(基于低精度的四位浮点数格式FP4标准),内存上则搭载了业内最先进的HBM3E,从192GB升级到了288GB。

  与A100、H100等多款主要用在AI模型预训练的产品不同,英伟达此次明确定位Blackwell Ultra“专为AI模型推理打造”(AI-Reasoning),同时兼顾"训练和多场景AI应用的高效性"。GB300NVL72和HGX B300NVL16(8GPU)两款系统产品也在提升计算能力和内存容量的同时,专为复杂AI推理任务做了优化。以HGX B300NVL16为例,相较于上一代Hopper架构,这款新品在大模型推理速度上提升了11倍。与去年GTC密集发布各种新产品的节奏不同,黄仁勋今年在公布新品前,在现场花了更多时间科普“Agentic AI”的概念,以及AI推理带来的巨大改变。在现场展示的AI技术发展路线图中,黄仁勋按照“Generative AI(生成式AI)、Agentic AI(智能体)、Physical AI(具身AI)”三个阶段的进化路线,将Agentic AI描述为AI技术发展的中间态。

  相比于生成式AI的主要应用——语言大模型与聊天机器人—

  主要聚焦于生成文本、图像内容,Agentic AI更进一步,能够理解任务、进行复杂推理、制定计划并自主执行多步骤操作,目前业内热议的数字员工等AI Agent即为相关应用。英伟达在2025年GTC大会上推出名为Isaac GR00T N1的全球首个人形机器人推理和技能基础模型,标志着通用机器人时代的到来。GR00T N1模型是开源且可完全定制,采用双系统架构:系统1是快速思考的动作模型,类似于人类的反射或直觉;系统2是慢速思考模型,用于长语境任务规划。系统2通过视觉语言模型对环境和指令进行推理以规划行动,系统1则将这些计划转化为精确的机器人动作。该模型能够轻松应对多种常见任务,如抓取、移动物体等,并可应用于材料处理、包装和检查等多个领域。

  AI应用:文心一言搜索访问量环比+12.03%,OpenAI发布新一代音频模型

  3月21日,OpenAI发布音频模型,实现了新的SOTA水平,在准确性和可靠性方面优于现有解决方案——尤其是在涉及口音、嘈杂环境和不同语速的复杂场景中。这些改进提高了语音/文本转录应用的可靠性,新模型特别适合客户呼叫中心、会议记录转录等用例。基于新的API,开发人员第一次可以指示文本转语音模型以特定方式说话,为语音智能体开启新的定制化维度,可以实现各种定制应用程序。

  OpenAI于2022年推出了第一个音频模型,并一直致力于提高这些模型的智能性、准确性和可靠性。借助新的音频模型及API,开发人员可以构建更准确、更强大的语音转文本系统以及富有表现力、个性十足的文本转语音声音。具体来说,新的gpt-4o-transcribe和gpt-4o-mini-transcribe模型与原始Whisper模型相比改进了单词错误率,提高了语言识别和准确性。gpt-4o-transcribe在多个既定基准中展示了比现有Whisper模型更好的单词错误率(WER)性能,实现了语音转文本技术的重大进步。这些进步源于强化学习创新以及使用多样化、高质量音频数据集进行的大量中期训练。

  OpenAI还推出了一个可操纵性更好的新gpt-4o-mini-tts模型。在其之上,开发人员第一次可以指导模型,不仅可以指导模型说什么,还可以指导模型如何说,从而为大量用例提供更加定制化的体验。该模型可在text-to-speech API中使用。不过目前,这些文本转语音模型仅限于人工预设的声音,且受到OpenAI的监控。

  OpenAI的新音频模型基于GPT‑4o和GPT‑4o-mini架构,并在专门的以音频为中心的数据集上进行了广泛的预训练,这对于优化模型性能至关重要。这种有针对性的方法可以更深入地了解语音细微差别,并在与音频相关的任务中实现出色的性能。在模型训练中,OpenAI增强了提炼技术,使知识从最大的音频模型转移到了更小、更高效的模型上。利用先进的自我博弈方法,OpenAI的提炼数据集有效地捕捉了真实的对话动态,复制了真正的用户助手交互,这有助于小型模型提供出色的对话质量和响应能力。

  OpenAI的语音转文本模型集成了大量强化学习,将转录准确性推向了最先进的水平。据称,这种方法大大提高了精度并减少了幻觉,使语音转文本解决方案在复杂的语音识别场景中具有极强的竞争力。

  AI融资动向:预计今年最强IPO CoreWeave,估值一年内从20亿美元飙升至230亿美元

  消息显示,由英伟达支持的云计算公司CoreWeave最早于本周在纳斯达克上市,该公司计划筹集40亿美元,市值达到350亿美元(2530亿人民币)左右,这使其将成为近年来最大的IPO之一。不仅如此,它还是这轮生成式AI热潮的最大受益者之一。数字总是能给出最直观的答案,比如,CoreWeave的估值一年内从20亿美元飙升至了230亿美元,再比如,三年内其收入增长了近120倍,去年同比增长737%。这样的标签和处境,也让CoreWeave在公布IPO消息的第一时间就备受业界关注。

  截至2024年底,CoreWeave在全球部署了32个数据中心,这些数据中心共运行了超过25万个GPU,而在2023年他们仅有10个数据中心。2024年其员工数也迎来了暴涨,从2023年的200多人升至了881人。值得一提的是,CoreWeave的存在让人们相信高额的资本支出正在带来高收入和高回报。

  比如CoreWeave在2024年的8.63亿美元折旧帮助释放了19亿美元的收入。再比如,按第四季度的年化运营率计算,即使受到15亿美元折旧成本的影响,该公司的营业利润为4.51亿美元,营收为30亿美元。

  2023年初,当英伟达芯片成为AI市场唯一的硬通货时,英伟达选择在四年内花费13亿美元从CoreWeave租用自己的芯片,文件显示,这项交易让英伟达成为2023年仅次于微软的第二大客户。也是在同期,英伟达参与了CoreWeave的B轮融资,金额为1亿美元,据招股书显示,这笔交易让英伟达拥有了CoreWeave5.97%的股份。

  同样这家企业也离不开微软的帮助,2023年开始,微软就与CoreWeave达成了合作,主要围绕AI算力需求展开。双方签署了多份合同,总价值达170亿美元,涵盖2023年至2030年的GPU服务器租赁服务。这也导致2024年,CoreWeave收入的62%仅来自一家公司:微软。尽管微软每年也在自己的云基础设施上花费数百亿美元,但微软一直在从CoreWeave租用闲置的GPU容量来补充其Azure云。

  投资建议

  AI的新一波浪潮是物理AI,其关键环节是让AI理解物理定律,人形机器人则是当下最重要的载体。传统的工业机器人


华鑫证券 宝幼琛
声明

本站内容源自互联网,如有内容侵犯了您的权益,请联系删除相关内容。 本站不提供任何金融服务,站内链接均来自开放网络,本站力求但不保证数据的完全准确,由此引起的一切法律责任均与本站无关,请自行识别判断,谨慎投资。