AI产业跟踪:李飞飞团队创新的极简测试拓展方法 极低成本构建比肩O1-PREVIEW的推理模型S1-32B
李飞飞团队进行了一种简单而有效的测试时扩展(Simple test-timescaling)方法,基于Qwen2.5-32B 开源模型之上,最终实现了仅用1,000个样本,采用16 个H100 GPU 上进行26 分钟(租用成本约50 美元)的监督微调(SFT)就能构建有竞争力的、比肩o1-preview 的推理模型s1-32B:如在其在竞赛数学题(MATH 和AIME24)上比o1-preview 高出27%。
李飞飞团队采用的数据集是从59029 个样本中创新的通过难度、多样性和质量三个联合标准中严格筛选出1,000 个样本组成s1K 数据集。首先从16个公开和自建数据集获取59,029 个涵盖多领域的问题,其中公开数据集来源广泛,自建数据集补充了多样性和创造性。随后,从质量、难度和多样性三个维度分阶段筛选数据:质量筛选借助Google Gemini FlashThinking API 生成推理相关内容并去重;难度筛选通过评估Qwen2.5-7BInstruct和Qwen2.5-32B-Instruct 两个模型在各问题上的表现及推理轨迹长度,去除过易问题;多样性筛选使用Claude 3.5 Sonnet 将问题分类,力求覆盖50 个不同学科领域。最终挑选出1,000 个核心样本,构成s1K 数据集。
提出强制预算技术(Budget force),而预算强制技术能在测试阶段精准控制模型的思考时间,灵活地强制终止或延长推理过程。如附加特定分隔符和Final Answer 来强制执行最大token 计数提前退出。采用条件长度控制法(包括Token 条件控制、步骤条件控制和分类条件控制)和拒绝取样法,并对其进行基准测试,建立了control、scaling、Performance 三组评估指标来衡量跨方法的测试时间缩放,这些指标不仅考量方法可达到的精度,还兼顾可控性和测试时缩放斜率。
推理模型s1-32B 用极小的参数量、极低的训练成本显著的提升了性能,展现小模型的潜力,体现AI 算法发展的新范式,即构建更智能的资源调度系统。但依旧存在一些局限性如:测试时扩展存在局限性,性能提升可能会逐渐趋于平稳,且受模型上下文窗口限制;数据选择和质量控制在实际大规模数据中的准确评估和高效实施具有一定难度;模型的泛化能力有待进一步验证,在不同领域和类型的推理任务中的稳定性还需观察等。
风险提示:语言模型的技术进展不及预期;人工智能的知识幻觉无法避免;算法或功能优化不及预期等。
*免责声明:文章内容仅供参考,不构成投资建议
*风险提示:股市有风险,入市需谨慎
本站内容源自互联网,如有内容侵犯了您的权益,请联系删除相关内容。 本站不提供任何金融服务,站内链接均来自开放网络,本站力求但不保证数据的完全准确,由此引起的一切法律责任均与本站无关,请自行识别判断,谨慎投资。