计算机行业快报：UltraMem架构为推理降本，AI应用全面落地可期

股票资讯阅读：45 2025-02-17 19:39:40 评论：0

　　事件描述：

　　2月12日，字节豆包大模型团队发布全新的稀疏模型架构UltraMem，有效解决了当前主流的MoE架构在推理时产生的高额访存问题，推理速度较MoE架构提升2-6倍，同时推理成本最高可降低83%。

　　事件点评：

　　UltraMem在PKM架构的基础上对模型结构、value检索方式、稀疏参数进行优化，在保证模型性能的同时大幅提升推理效率。UltraMem架构参考PKM（ProductKeyMemory）的设计，即Transformer层中嵌入大内存层以及推理时以行列路由的方式激活参数，访存效果较MoE架构明显改善。同时，UltraMem对PKM架构进行针对性优化以提升模型性能：1）优化模

　　型结构：将PKM的单个内存层拆分成多个内存层均匀嵌入Transformer层中，使模型能够并行执行访存和Transformer层计算操作；2）优化value检索方式：在推理时以TDQKR的乘法方法替代简单的行列加权方法选出得分最高的多个value，使模型能够精准检索到与输入相关的value；3）隐式扩展稀疏参数：引入数倍于physicalmemory的virtualmemory，在不提高模型部署复杂度的情况下提升模型性能。根据实验结果，训练规模达2000万value的UltraMem模型，在同等计算资源下可同时实现业界领先的推理速度和模型性能。

　　推理成本持续下降加速应用生态繁荣。根据Semianalysis数据，随着算法持续进步，截至2024年底，以GPT-3质量的输出为标准，模型推理价格下降了1200倍。进入2025年，在推理技术优化下，DeepSeek模型的使用成本不到o1模型的1/25，而字节最新发布的UltraMem架构将使主流稀疏模型的推理成本大幅下降。我们认为，模型调用价格是用户选择模型运行应用的重要考量因素，各大模型厂商及科技大厂将持续竞相推动推理成本下降，从

　　而带动上层AI应用的加速落地，并有望促进应用从云端场景向端侧场景拓展。

　　投资建议：UltraMem架构的模型推理成本大幅下降，将加速AI应用落地，并推动应用向端侧渗透，进而刺激推理算力需求，重点关注1）AI应用相关标的，包括企业服务领域的金蝶国际、泛微网络、致远互联，用友网络等，办公领域的金山办公、福昕软件等，多模态领域的万兴科技、美图公司等，金融领域的新致软件、同花顺等，教育领域的科大讯飞、佳发教育等，医疗领域的润达医疗、卫宁健康等，以及其他领域的彩讯股份、金桥信息、焦点科技等；2）国产算力芯片厂商，包括海光信息、寒武纪等；3）AI服务器厂商，包括四川长虹、神州数码、拓维信息、浪潮信息、中科曙光、华勤技术等；4）算力云厂商，包括青云科技、优刻得、并行科技等；5）端侧硬件厂商，包括美格智能、移远通信、广和通、乐鑫科技、中科蓝讯、恒玄科技等。

　　风险提示：AI产品落地不及预期，行业竞争加剧风险，技术研发进展不及预期。

山西证券方闻千

声明

本站内容源自互联网，如有内容侵犯了您的权益，请联系删除相关内容。本站不提供任何金融服务，站内链接均来自开放网络，本站力求但不保证数据的完全准确，由此引起的一切法律责任均与本站无关，请自行识别判断，谨慎投资。