计算机行业点评：DeepSeek开启模型平权时代，AI应用前景可期

股票资讯阅读：310 2025-02-08 10:34:34 评论：0

　　事件概述

　　据IT之家，近日深度求索正式发布DeekSeek-V3及DeepSeek-R1模型并同步开源，前者为6710亿参数的专家混合模型，性能比肩GPT-4o和Claude-3.5-Sonnet等世界顶尖闭源模型；后者在数学、代码、自然语言推理等任务上，性能比肩OpenAI o1正式版，其API定价为每百万输入tokens1元（缓存命中）/4元（缓存未命中），每百万输出tokens16元。

　　核心观点

　　DeepSeek-V3：FP8精度以及框架优化，助推训练成本“向下”

　　据《DeepSeek-V3Technical Report》（DeepSeek-AI,2024），针对V3模型，深度求索引入FP8混合精度训练框架（首次验证其在极大规模模型上的有效性），通过FP8计算和存储的支持，有效实现了加速训练和减少GPU内存使用；框架方面，深度求索设计了DualPipe算法，模型扩展后依然可保持固定的通信成本。V3训练经济效益优异，预训练阶段的每万亿标记仅需180K H800GPU小时；若假设H800GPU租赁价格为每GPU小时2美元，总训练成本仅为557.6万美元。

　　DeepSeek-R1：后训练（无SFT）及蒸馏，验证推理能力提升通路据

　　《DeepSeek-R1:Incentivizing Reasoning Capability in LLMs viaReinforcement Learning》（DeepSeek-AI,2025），R1是基于R1-Zero迭代而来，后者基于V3-Base作为基础模型，并采用GRPO作为RL框架，未经过监督微调（supervised fine-tuning，SFT）作为预处理步骤，仍展现了卓越的推理能力。R1在R1-Zero的基础上，融入冷启动数据微调及RL训练后得到，表现达到OpenAI-o1-1217水平。DeepSeek-R1-Zero允许模型探索思维链（CoT）以解决复杂问题，亦是首次验证了大模型推理能力提升可以仅通过RL而无需SFT，具有较强启示意义。在蒸馏方面，深度求索亦验证了“大”模型向“小”模型蒸馏所得到的较小密集模型表现优异。

　　模型平权时代到来，AI下游应用有望进入快速增长期

　　DeepSeek为代表的厂商持续降低API调用单价，同时国产模型性能持续提升，AI模型进入普惠发展期，技术平权时代已然到来，下游应用侧公司有望以更低成本享受更强基座性能，增益其经营表现，AI应用侧有望进入高速增长期。

　　投资建议

　　DeepSeek引领新一轮LLM性能及成本提质增效，有望带动AI应用进入发力阶段，关注各垂直行业AI进展，标的方面建议关注科大讯飞、金山办公、泛微网络、福昕软件、致远互联、润达医疗、焦点科技、润泽科技等。

　　风险提示

　　产业发展不及预期、政策推进力度不及预期、国产替代不及预期。

甬兴证券李行杰,夏明达

声明

本站内容源自互联网，如有内容侵犯了您的权益，请联系删除相关内容。本站不提供任何金融服务，站内链接均来自开放网络，本站力求但不保证数据的完全准确，由此引起的一切法律责任均与本站无关，请自行识别判断，谨慎投资。