半导体行业事件点评:字节豆包上线视频通话功能,有望拉动上游算力需求并加快AI眼镜渗透
事件:
近日,字节跳动豆包AI上线实时视频通话功能,用户在电话界面开启视频画面后,豆包能基于真实场景与用户进行实时问答互动,视频通话功能还接入了联网搜索能力,用户可实时获取互联网最新信息。
点评:
豆包上线“视频通话+联网搜索”功能,AI大模型多模态交互更进一步。近日,豆包官方微信公众号发文宣布上线实时视频通话功能,用户在电话界面开启视频画面后,模型能基于真实场景与用户进行实时问答互动,并通过融合视觉与语言输入,进行综合的深度思考和创作。官方表示,打开豆包App对话框,选择“打电话”按钮选项,点击右侧“视频通话”即可开始和豆包视频对话。例如,在旅行过程中,用户可打开视频通话,询问所处景点的历史背景、特色内容或路线规划等。该功能基于最新的豆包视觉理解模型,能够根据图像信息完成复杂的逻辑计算任务。此外,豆包视频通话功能还接入了联网搜索能力,支持实时获取互联网最新信息。
字节豆包推出视频通话模型,有望拉动上游AI算力需求。根据Scaling Law,AI模型的算力需求随着模型复杂度和数据规模的增加而实现显著增长,尤其随着大模型参数量和训练数据量的爆发式增长,AI算力规模有望实现快速扩张。而视频AI模型属于多模态模型,包含的信息量远大于文字和语音,计算复杂度显著提高。以OpenAI推出的视频生成大模型Sora为例,其训练和推理所需要的算力需求分别达到了GPT-4的4.5倍和近400倍。随着视频通话模型、视频创作模型的逐步推广,传统内容创作流程有望被颠覆,并同步带动算力基础设施需求快速增长,而AI企业为实现视频AI模型的商业化和规模化应用,必须突破算力瓶颈,增加算力扩容和效率提升投入,利好上游AI芯片等算力底座。
豆包视频模型上线,有望加速AI眼镜等智能终端的推广和渗透。一方面,视频模型从视频生成模型向
实时视频通话模型发展,表明多模态感知技术进入商业化落地阶段,尤其是给视觉交互领域带来突破。而AI智能眼镜在传统眼镜基础上迭代发展,在嵌入摄像头、麦克风、耳机、Wi-Fi等电子模块后,具备了拍摄、音频、通讯等功能,能够给用户提供多模态体验。随着多模态大模型性能持续提升,终端厂商开始将AI大模型搭载至智能眼镜,用户能够通过语音或者触控板与大模型进行交互,最终实现智能问答、一键拍摄、实时翻译等一系列功能。Wellsenn XR指出,2025年将有更多大厂进场竞争,共同推动AI眼镜趋向成熟;而到2035年,AI+AR智能眼镜将实现对传统智能眼镜的替代,渗透率达到70%,全球AI+AR智能眼镜销量将达到14亿台规模,与智能手机规模相当,成为下一代通用计算平台和终端。
投资建议:字节豆包视频通话模型上线,是多模态感知技术商业化落地进程中的标志性事件,有望拉动上游算力芯片和AI终端SoC芯片需求增长,建议关注海光信息(688041)、寒武纪(688256)、恒玄科技(688608)、乐鑫科技(688018)、瑞芯微(603893)等标的。
风险提示:AI终端渗透不及预期的风险、行业资本开支不及预期的风险等。
本站内容源自互联网,如有内容侵犯了您的权益,请联系删除相关内容。 本站不提供任何金融服务,站内链接均来自开放网络,本站力求但不保证数据的完全准确,由此引起的一切法律责任均与本站无关,请自行识别判断,谨慎投资。