传媒互联网行业周报:即梦3.0文生图开启灰度测试,VAST开源两大3D生成模型
报告摘要
即梦3.0文生图开启灰度测试,文生图领域进展不断
4月2日字节开启即梦3.0文生图模型灰度测试。从测评结果来看,模型性能提升体现在:1)中文文字生成:中文生成的准确性、艺术感提升,尤其是小字生成的稳定性较即梦2.1实现较大优化;2)影视级画质:支持2K分辨率图片生成;3)多场景适配:可生成如电商海报、电影分镜等图片,并生成适配于场景的光影效果。同时,近期海内外文生图进展不断:1)Gemini2.0Flash和GPT-4o相继上线原生多模态生图功能,实现通过多轮对话逐步完善图像并保持多次生成一致。其中GPT-4o生图还具备准确将文字嵌入图像、多样化风格适应等功能,吉卜力画风生成全球风靡;2)Midjourney V7进入最后测试阶段并计划于近期上线,新版本有望实现图像质量与一致性提升、对复杂提示词处理能力增强等。
VAST开源两大3D生成模型,3D生成模型屡有突破
国内3D生成大模型公司VAST于3月启动技术开源月计划,从3月至4月连续开源8大项目,覆盖从基础生成模型、核心功能组件到创新思路探索的全技术链路。其中,3月28日公司开源两大基础3D生成模型:1)TripoSG:首度实现3D生成领域MoE Transformer架构,具备生成结果泛化性强、生成复杂组合物体稳定性高的优势;2)TripoSF:首次实现3D模型内部结构生成,并且模型测评结果超过已有的开源和闭源3D生成模型,实现3D生成SOTA。同时,近期海内外3D生成模型屡有突破:1)Roblox:推出3D开源模型工具Cube,通过简单提示词实现3D物体生成;2)腾讯:发布5个全新3D生成开源模型,Turbo系列在保证高精度和高质量的基础上,提高生成速度,轻量级mini系列通过模型架构优化与运行效率提升,降低算力成本;3)Meshy.AI:公开Meshy-5-Preview,支持文本、图像生成3D模型并自动生成贴图和绑定动画,较Meshy-4实现细节生成精度提升等。
核心观点
我们认为,近期AI文生图、3D生成领域在模型性能、跨模态生成等方面不断突破,持续推动AI多模态技术逐渐成熟。未来,多模态技术仍存在持续迭代空间,且随技术迭代有望进一步降低内容创作门槛,重塑相关应用场景工作流。建议关注:1)AI+营销:因赛集团、天娱数科;2)AI+游戏:恺英网络、巨人网络、电魂网络;3)AI+影视:博纳影业等。
风险提示
AI技术发展不及预期、政策监管、行业竞争加剧的风险。
本站内容源自互联网,如有内容侵犯了您的权益,请联系删除相关内容。 本站不提供任何金融服务,站内链接均来自开放网络,本站力求但不保证数据的完全准确,由此引起的一切法律责任均与本站无关,请自行识别判断,谨慎投资。