计算机行业周报:Grok 4发布,模型底座能力更近一步

股票资讯 阅读:3 2025-07-14 08:34:48 评论:0

  报告摘要

  行情回顾:本周(2025.7.7-2025.7.11)申万计算机行业指数上涨3.22%,在31个申万一级行业中排名第6位。截至本周五(7月11日),计算机行业指数与较年初上涨9.75%,跑赢沪深300指数7.72pct。

  7月10日,xAI发布新一代大模型Grok4系列。Grok4系列包括Grok4和Grok4Heavy两个版本,Grok4为单智能体模型,Grok4Heavy为多智能体的升级版,可支持4个agent同时工作。Grok4系列推理能力大幅提升,在多个基准测试中刷新行业SOTA。

  Grok4系列在各项专业学科基准测试中表现大幅领先,在知识能力上已经超越研究生水平。在HLE(Humanities Last Exam,由各学科专家编写的高难度学术测试集)测试中,在使用工具的情况下,Grok4的成绩为38.6%,Grok4Heavy的成绩为44.4%,大幅超越o3和Gemini2.5Pro。如果在推理阶段增加算力投入并使用工具,则分数进一步提升至50.7%。在AIME25、GPQA、HMMT25等其他权威基准测试方面,Grok4Heavy均超越其他此前最先进的模型夺冠。

  Grok展现出较强的解决复杂现实任务的能力。在衡量复杂任务解决能力的商业环境测试Vending-Bench中,Grok-4模拟经营取得的利润是第二名Claude Opus4的两倍。在游戏领域,Grok-4可以设计和构建视频游戏,包括资源获取、写代码等,研究人员用4个小时制作出一款第一人称射击游戏。此外,Grok4在生物医药、金融等领域也取得较大突破。

  Grok4性能的大幅提升主要来源于算力投入的大幅增长,以及在训练阶段引入工具使用。Grok-4在xAI建设的20万卡集群Colossus上运行强化学习训练,其训练量是Grok-2的100倍、Grok-3的10倍。Grok4Heavy通过提高强化学习阶段的算力投入以提升模型效果。Grok4特别强调了在后训练过程中原生融入工具,比如在“人类最后考试HLE”上,在后训练中融入工具,不仅比不使用工具能取得更高分数,而且Scaling提升效率也更高。即增加同样的计算资源,工具融入训练能带来更高智能。

  投资建议:xAI新发布的模型进一步加强了基座模型能力,有望加速AI应用落地。重点推荐金山办公、用友网络、赛意信息、熵基科技、云从科技等,AI应用的发展也会促进基础设施的发展,重点推荐海光信息、智微智能、联想集团等。

  风险提示:AI技术发展不及预期,市场竞争加剧。


太平洋 曹佩,王景宜
声明

本站内容源自互联网,如有内容侵犯了您的权益,请联系删除相关内容。 本站不提供任何金融服务,站内链接均来自开放网络,本站力求但不保证数据的完全准确,由此引起的一切法律责任均与本站无关,请自行识别判断,谨慎投资。