传媒行业点评报告:实时语音模型上线,继续布局AI陪伴及豆包产业链
豆包实时语音大模型上线并全量开放,或带动用户体验进一步提升
1月20日,豆包正式推出实时语音大模型,并在豆包APP全量开放。豆包实时语音大模型,是一款语音理解和生成一体化的模型,实现了端到端语音对话。相比传统级联模式,在语音表现力、控制力、情绪承接方面表现惊艳,并具备低时延、对话中可随时打断等特性。豆包实时语音大模型主要面向中文语境和场景(可进行英语对话,暂不支持多语种)。依托于语音和语义联合建模,豆包实时语音大模型拥有丰富表现力和巨大拓展潜力,呈现出接近真人的语音表达水准,在语音指令控制的泛化理解和演绎生成方面,显著突破原有边界,且可直接服务广大用户。根据外部用户真实反馈,该模型整体满意度较GPT-4o有明显优势,特别是语音语气自然度和情绪饱满度远高于后者。
真人级语音对话能力,或有望带来AI向AGI突破
豆包实时语音大模型主要有以下几个特点:(1)突破真人级语音对话能力的限制:真人级语音对话,能提供更为亲和的交互体验和情感价值,或是AI迈向AGI的关键里程碑。团队研发出了一套端到端框架,深度融合语音与文本模态。该框架面向语音生成和理解进行统一建模,最终实现多模态输入和输出效果。(2)智商与情商双双在线,赋予AI对话“真人感”:具体特征包括拟人化的情感承接,模型能够接住用户的内容与情绪,输出恰当表达;强大的声音控制和丰富的情感演绎能力,模型在对话或内容演绎中,可生动切换成不同角色/状态,配合不同情绪表达,增强交互趣味性和沉浸感;智商与表现力之间的平衡,模型对各维度信息进行深度理解,输出信息具备有用性与真实性。同时,输出语音表现力高度逼近真人,包括类人的副语言特征(如语气词、停顿思考等);丝滑的交互体验和超低延迟。
实时语音大模型或进一步发挥AI情感陪伴价值,关注相关AI应用投资机会
据AI产品榜,2024年12月字节旗下虚拟角色APP猫箱MAU为688万,月增速达50.18%。在1月初的CES2025上,多家国内及日本厂商发布的AI情感陪伴玩具引发广泛关注。豆包真人级语音对话可以提供更真实的情感陪伴,有利于情感陪伴类应用进一步提升用户体验,也有望为AI端侧硬件打开更广阔的空间,如AI语音助手硬件以及AI玩具等。我们建议继续布局AI陪伴相关投资机会,重点推荐奥飞娱乐、盛天网络、顺网科技、网易云音乐,受益标的包括汤姆猫、实丰文化、世纪天鸿、富春股份等。据AI产品榜,2024年12月豆包MAU为7116万,月增速达18.64%。豆包实时语音大模型的推出有望进一步改善字节旗下应用体验,加速用户增长,带动字节系营销及相关产业链需求提升,重点推荐引力传媒,受益标的包括创业黑马、天龙集团、省广集团、蓝色光标、视觉中国、中文在线、遥望科技等。
风险提示:豆包大模型迭代速度不及预期;豆包AI应用商业化进程不及预期。
本站内容源自互联网,如有内容侵犯了您的权益,请联系删除相关内容。 本站不提供任何金融服务,站内链接均来自开放网络,本站力求但不保证数据的完全准确,由此引起的一切法律责任均与本站无关,请自行识别判断,谨慎投资。