传媒互联网行业周报:OpenAI发布GPT-4o生图功能,DeepSeek-V3完成版本升级
报告摘要
OpenAI GPT-4o生图功能发布,Agents SDK支持MCP协议OpenAI发布GPT-4o原生生图功能。不同于传统图像生成的自回归技术,逐步生成图像的每个像素或部分来构建图像,GPT-4o生图采用非自回归技术,直接生成整个图像,这使得模型能够一次性理解和处理图像的整体结构和细节,实现细节和一致性的提升。从生成实例来看,GPT-4o生图具备通过多轮对话逐步完善图像并保持多次生成的一致性、准确将文字嵌入图像、多样化风格适应等功能。目前,GPT-4o可在ChatGPT中直接生成图像。此外,OpenAI对开发者工具箱Agents SDK进行重大更新,支持MCP服务协议,为大模型连接不同的数据源和工具提供了标准化的方法。开发者可直接通过MCP协议调取各种外部的数据和工具,降低为Agent接入新工具和服务的开发难度和集成成本。
DeepSeek-V3完成版本升级,阿里开源Qwen-2.5系列模型DeepSeek完成小版本升级,最新版本号DeepSeek-V3-0324。该版本与DeepSeek-V3使用相同的基础模型,通过改进后训练方法实现性能提升。具体来看:1)推理能力提高:在数学、代码类测评得分超过GPT-4.5;2)前端开发能力增强:生成代码的可用性更高、视觉效果更美观;3)中文写作升级:基于R1的写作水平优化,同时提升中长篇文本创作的内容质量;4)中文搜索能力优化:报告生成类指令输出的内容更详实准确、排版更清晰美观;5)工具调用、角色扮演、问答闲聊等亦实现能力提升。此外,阿里开源Qwen2.5-VL-32B-Instruct以及全模态大模型Qwen2.5-Omni-7B。其中,Qwen2.5-VL-32B在强化学习的框架下实现性能优化,回复更符合人类主观偏好、数学推理能力提升、在图像解析以及视觉逻辑推导等任务中表现出更强的准确性和细粒度分析能力。
核心观点
我们认为,近期OpenAI发布GPT-4o生图模型、开发者工具箱AgentsSDK支持MCP协议表明目前海外厂商不仅关注于底层模型的性能提升,同时亦开始推动模型与应用场景的深度结合,如GPT-4o生图有望助力设计、广告等场景的创意实现,支持MCP协议有望降低Agent的开发难度和集成成本。而国内厂商仍主要集中于利用强化学习的工程优化红利,持续推进大模型性能迭代。
风险提示
AI技术发展不及预期、政策监管、行业竞争加剧的风险。
本站内容源自互联网,如有内容侵犯了您的权益,请联系删除相关内容。 本站不提供任何金融服务,站内链接均来自开放网络,本站力求但不保证数据的完全准确,由此引起的一切法律责任均与本站无关,请自行识别判断,谨慎投资。