计算机行业周报：英伟达推出首款开源人形机器人模型IsaacGR00TN1，OpenAI发布音频模型

股票资讯阅读：54 2025-03-27 14:29:24 评论：0

　　投资要点

　　算力：算力租赁价格平稳，英伟达推出全球首款开源人形机器人功能模型Isaac GR00T N1

　　美国时间3月18日，英伟达在美国圣何塞举办GTC（GPU技术大会）。而在此次GTC大会上，英伟达不仅发布了Blackwell GPU、硅光交换机、机器人模型等一系列新产品。黄仁勋还在演讲中反复传递出一个信号：随着AI行业在模型训练上的整体需求放缓，再加上DeepSeek在模型推理上所做创新，AI推理时代即将到来。

　　作为GTC的重头戏，黄仁勋在演讲中宣布推出数据中心AIGPU的新一代产品——NVIDIA Blackwell Ultra GPU。此前市场传言英伟达去年年底计划将Blackwell Ultra改名为B300，但根据现场公布的结果，官方保留了原始命名。Blackwell Ultra GPU相比于上一代B200GPU性能提升了50%，约为15P FLOPS（基于低精度的四位浮点数格式FP4标准），内存上则搭载了业内最先进的HBM3E，从192GB升级到了288GB。

　　与A100、H100等多款主要用在AI模型预训练的产品不同，英伟达此次明确定位Blackwell Ultra“专为AI模型推理打造”（AI-Reasoning），同时兼顾"训练和多场景AI应用的高效性"。GB300NVL72和HGX B300NVL16（8GPU）两款系统产品也在提升计算能力和内存容量的同时，专为复杂AI推理任务做了优化。以HGX B300NVL16为例，相较于上一代Hopper架构，这款新品在大模型推理速度上提升了11倍。与去年GTC密集发布各种新产品的节奏不同，黄仁勋今年在公布新品前，在现场花了更多时间科普“Agentic AI”的概念，以及AI推理带来的巨大改变。在现场展示的AI技术发展路线图中，黄仁勋按照“Generative AI（生成式AI）、Agentic AI（智能体）、Physical AI（具身AI）”三个阶段的进化路线，将Agentic AI描述为AI技术发展的中间态。

　　相比于生成式AI的主要应用——语言大模型与聊天机器人—

　　主要聚焦于生成文本、图像内容，Agentic AI更进一步，能够理解任务、进行复杂推理、制定计划并自主执行多步骤操作，目前业内热议的数字员工等AI Agent即为相关应用。英伟达在2025年GTC大会上推出名为Isaac GR00T N1的全球首个人形机器人推理和技能基础模型，标志着通用机器人时代的到来。GR00T N1模型是开源且可完全定制，采用双系统架构：系统1是快速思考的动作模型，类似于人类的反射或直觉；系统2是慢速思考模型，用于长语境任务规划。系统2通过视觉语言模型对环境和指令进行推理以规划行动，系统1则将这些计划转化为精确的机器人动作。该模型能够轻松应对多种常见任务，如抓取、移动物体等，并可应用于材料处理、包装和检查等多个领域。

　　AI应用：文心一言搜索访问量环比+12.03%，OpenAI发布新一代音频模型

　　3月21日，OpenAI发布音频模型，实现了新的SOTA水平，在准确性和可靠性方面优于现有解决方案——尤其是在涉及口音、嘈杂环境和不同语速的复杂场景中。这些改进提高了语音/文本转录应用的可靠性，新模型特别适合客户呼叫中心、会议记录转录等用例。基于新的API，开发人员第一次可以指示文本转语音模型以特定方式说话，为语音智能体开启新的定制化维度，可以实现各种定制应用程序。

　　OpenAI于2022年推出了第一个音频模型，并一直致力于提高这些模型的智能性、准确性和可靠性。借助新的音频模型及API，开发人员可以构建更准确、更强大的语音转文本系统以及富有表现力、个性十足的文本转语音声音。具体来说，新的gpt-4o-transcribe和gpt-4o-mini-transcribe模型与原始Whisper模型相比改进了单词错误率，提高了语言识别和准确性。gpt-4o-transcribe在多个既定基准中展示了比现有Whisper模型更好的单词错误率(WER)性能，实现了语音转文本技术的重大进步。这些进步源于强化学习创新以及使用多样化、高质量音频数据集进行的大量中期训练。

　　OpenAI还推出了一个可操纵性更好的新gpt-4o-mini-tts模型。在其之上，开发人员第一次可以指导模型，不仅可以指导模型说什么，还可以指导模型如何说，从而为大量用例提供更加定制化的体验。该模型可在text-to-speech API中使用。不过目前，这些文本转语音模型仅限于人工预设的声音，且受到OpenAI的监控。

　　OpenAI的新音频模型基于GPT‑4o和GPT‑4o-mini架构，并在专门的以音频为中心的数据集上进行了广泛的预训练，这对于优化模型性能至关重要。这种有针对性的方法可以更深入地了解语音细微差别，并在与音频相关的任务中实现出色的性能。在模型训练中，OpenAI增强了提炼技术，使知识从最大的音频模型转移到了更小、更高效的模型上。利用先进的自我博弈方法，OpenAI的提炼数据集有效地捕捉了真实的对话动态，复制了真正的用户助手交互，这有助于小型模型提供出色的对话质量和响应能力。

　　OpenAI的语音转文本模型集成了大量强化学习，将转录准确性推向了最先进的水平。据称，这种方法大大提高了精度并减少了幻觉，使语音转文本解决方案在复杂的语音识别场景中具有极强的竞争力。

　　AI融资动向:预计今年最强IPO CoreWeave，估值一年内从20亿美元飙升至230亿美元

　　消息显示，由英伟达支持的云计算公司CoreWeave最早于本周在纳斯达克上市，该公司计划筹集40亿美元，市值达到350亿美元（2530亿人民币）左右，这使其将成为近年来最大的IPO之一。不仅如此，它还是这轮生成式AI热潮的最大受益者之一。数字总是能给出最直观的答案，比如，CoreWeave的估值一年内从20亿美元飙升至了230亿美元，再比如，三年内其收入增长了近120倍，去年同比增长737%。这样的标签和处境，也让CoreWeave在公布IPO消息的第一时间就备受业界关注。

　　截至2024年底，CoreWeave在全球部署了32个数据中心，这些数据中心共运行了超过25万个GPU，而在2023年他们仅有10个数据中心。2024年其员工数也迎来了暴涨，从2023年的200多人升至了881人。值得一提的是，CoreWeave的存在让人们相信高额的资本支出正在带来高收入和高回报。

　　比如CoreWeave在2024年的8.63亿美元折旧帮助释放了19亿美元的收入。再比如，按第四季度的年化运营率计算，即使受到15亿美元折旧成本的影响，该公司的营业利润为4.51亿美元，营收为30亿美元。

　　2023年初，当英伟达芯片成为AI市场唯一的硬通货时，英伟达选择在四年内花费13亿美元从CoreWeave租用自己的芯片，文件显示，这项交易让英伟达成为2023年仅次于微软的第二大客户。也是在同期，英伟达参与了CoreWeave的B轮融资，金额为1亿美元，据招股书显示，这笔交易让英伟达拥有了CoreWeave5.97%的股份。

　　同样这家企业也离不开微软的帮助，2023年开始，微软就与CoreWeave达成了合作，主要围绕AI算力需求展开。双方签署了多份合同，总价值达170亿美元，涵盖2023年至2030年的GPU服务器租赁服务。这也导致2024年，CoreWeave收入的62%仅来自一家公司：微软。尽管微软每年也在自己的云基础设施上花费数百亿美元，但微软一直在从CoreWeave租用闲置的GPU容量来补充其Azure云。

　　投资建议

　　AI的新一波浪潮是物理AI，其关键环节是让AI理解物理定律，人形机器人则是当下最重要的载体。传统的工业机器人

华鑫证券宝幼琛

声明

本站内容源自互联网，如有内容侵犯了您的权益，请联系删除相关内容。本站不提供任何金融服务，站内链接均来自开放网络，本站力求但不保证数据的完全准确，由此引起的一切法律责任均与本站无关，请自行识别判断，谨慎投资。