计算机行业周报:Llama4多版本参数亮眼,DeepSeek公布推理时Scaling新论文

股票资讯 阅读:16 2025-04-08 18:35:08 评论:0

  投资要点

  算力:Llama4多版本参数亮眼,2万亿多模态巨兽重登王座

  Meta官宣开源首个原生多模态Llama4,首次采用MoE架构,支持12种语言,首批发布一共两款:第一款是Llama4Scout,规模较小,其共有1090亿参数,17B活跃参数,16个专家,1000万上下文;第二款是Llama4Maverick,规模较大,其共有4000亿参数,17B活跃参数,128个专家,100万上下文。

  在大模型LMSYS排行榜上,Llama4Maverick冲上第二(ELO得分1417),仅次于闭源Gemini2.5Pro。Llama4Scout最大亮点在于支持1000万上下文,相当于可以处理20+小时的视频,仅在单个H100GPU(Int4量化后)上就能跑。

  在基准测试中,性能超越Gemma3、Gemini2.0Flash-Lite、Mistral3.1。Llama4模型是Llama系列模型中首批采用混合专家(MoE)架构的模型。在MoE模型中,单独的token只会激活全部参数中的一小部分。与传统的稠密模型相比,MoE架构在训练和推理时的计算效率更高,并且在相同的训练FLOPs预算下,能够生成更高质量的结果。

  Llama4是一个原生多模态模型,采用了早期融合技术,能把文本和视觉token无缝整合到一个统一的模型框架里。早期融合是个大进步,因为它可以用海量的无标签文本、图片和视频数据一起来预训练模型。

  Meta还开发了一种叫做MetaP的新训练方法,能让他们更精确地设置关键的模型超参数,比如每层的学习率和初始化规模。这些精心挑选的超参数在不同的批大小、模型宽度、深度和训练token量上都能很好地适配。Llama4通过在200种语言上预训练实现了对开源微调的支持,其中超过10亿个token的语言有100多种,整体多语言token量比Llama3多出10倍。

  AI应用:Gemini搜索访问量环比+9.62%,DeepSeek公布推理时Scaling新论文

  近期,来自DeepSeek、清华大学的研究人员探索了奖励模型(RM)的不同方法,发现逐点生成奖励模型(GRM)可以统一纯语言表示中单个、成对和多个响应的评分。基于这一初步成果,论文的作者提出了一种新学习方法,即自我原则批评调整(SPCT),以促进GRM中有效的推理时间可扩展行为。通过利用基于规则的在线RL,SPCT使GRM能够学习根据输入查询和响应自适应地提出原则和批评,从而在一般领域获得更好的结果奖励。

  基于此技术,DeepSeek提出了DeepSeek-GRM-27B,它基于Gemma-2-27B用SPCT进行后训练。对于推理时间扩展,它通过多次采样来扩展计算使用量。通过并行采样,DeepSeek-GRM可以生成不同的原则集和相应的批评,然后投票选出最终的奖励。通过更大规模的采样,DeepSeek-GRM可以更准确地判断具有更高多样性的原则,并以更细的粒度输出奖励,从而解决挑战。

  除了投票以获得更好的扩展性能外,DeepSeek还训练了一个元RM。从实验结果上看,SPCT显著提高了GRM的质量和可扩展性,在多个综合RM基准测试中优于现有方法和模型,且没有严重的领域偏差。作者还将DeepSeek-GRM-27B的推理时间扩展性能与多达671B个参数的较大模型进行了比较,发现它在模型大小上可以获得比训练时间扩展更好的性能。虽然当前方法在效率和特定任务方面面临挑战,但凭借SPCT之外的努力,DeepSeek相信,具有增强可扩展性和效率的GRM可以作为通用奖励系统的多功能接口,推动LLM后训练和推理的前沿发展。

  AI融资动向:星海图“小步快跑式”融资,今年估值已翻倍

  4月3日,星海图宣布接连完成A2、A3轮系列融资,领投方为凯辉基金,总融资额超3亿元人民币。这意味着2025年以来星海图已累计融资近1亿美元。

  星海图本次A2、A3轮系列融资由凯辉基金领投,联想创投、海尔资本等产业资本参投,老股东IDG资本、高瓴创投、百度风投、同歌创投等追投,其中部分老股东多轮满额、超额持续加注。

  星海图A1轮融资于今年2月完成,总融资额近3亿元,由蚂蚁集团独家领投,高瓴创投、IDG资本、北京机器人产业基金、百度风投、同歌创投等老股东追加投资。由此可见,星海图于2025年展开的A轮系列累计融资总额已达约1亿美元。

  星海图介绍,投资人最关注的是公司全栈要素齐备且实力较强的特点。具身智能产品的成功不只靠模型,而是底层零部件、整机设计及制造、场景理解能力等的系统性能力。公司创始团队具有业内领先的模型技术实力和产业落地经验,硬件能力也在过去一年里快速补齐。星海图目前已成为国内极少数同时具备端到端AI算法能力、全链路正向研发制造能力以及实际商业化验证能力的具身智能公司之一。星海图若估值达到50亿元,将成为业内第二梯队的“排头兵”。

  投资建议

  4月8日消息,美国时间周一,白宫发布指令,要求联邦各机构任命首席人工智能官,并制定扩大政府人工智能应用的战略。备忘录还指示各机构在六个月内“制定人工智能战略,识别并消除负责任使用该技术的障碍,并实现全机构范围内的提升应用成熟度。我们仍然坚定认为,AI应用有望在今年诞生部份现象级应用。建议关注临床AI产品成功落地验证的嘉和美康(688246.SH)、以AI为核心的龙头厂商科大讯飞(002230.SZ)、芯片技术有望创新突破的寒武纪(688256.SH)、高速通信连接器业务或显著受益于GB200放量的鼎通科技(688668.SH)、已与Rokid等多家知名AI眼镜厂商建立紧密合作的亿道信息(001314.SZ)、加快扩张算力业务的精密零部件龙头迈信林(688685.SH)、持续加码高速铜缆的泓淋电力(301439.SZ)、新能源业务高增并供货科尔摩根等全球电机巨头的唯科科技(301196.SZ)等。

  风险提示

  1)AI底层技术迭代速度不及预期。2)政策监管及版权风险。3)AI应用落地效果不及预期。4)推荐公司业绩不及预期风险。


华鑫证券 宝幼琛
声明

本站内容源自互联网,如有内容侵犯了您的权益,请联系删除相关内容。 本站不提供任何金融服务,站内链接均来自开放网络,本站力求但不保证数据的完全准确,由此引起的一切法律责任均与本站无关,请自行识别判断,谨慎投资。