1. 小红书FireRedTTS-2:让AI播客制作迈入自然对话新纪元

近日,小红书智创音频技术团队正式对外发布了新一代对话合成模型FireRedTTS-2。这款模型在AI播客生成、智能对话系统以及跨语言语音合成等领域展现出了突破性的进展,其核心目标直指行业内长期存在的灵活性不足、发音错误频发、说话人切换不稳定以及韵律不自然等痛点问题。通过一系列技术升级与架构创新,FireRedTTS-2旨在为相关应用提供更自然、更高质量的语音合成解决方案。

2. FireRedTTS-2的技术核心:双模块驱动的对话合成革新

FireRedTTS-2的显著进步,主要得益于其在语音编码与合成模型两大核心模块上的深度优化与创新。这两大模块的协同工作,为高质量对话语音的生成奠定了坚实基础。

2.1 离散语音编码器:效率与语义的双重提升

FireRedTTS-2的离散语音编码器承担着将连续语音信号压缩为离散标签序列的重要任务。其输出帧率低至12.5Hz,即每秒仅产生12.5个标签,这一设计显著缩短了语音序列的长度,使得大语言模型(LLM)能够更高效地处理长对话内容。更重要的是,在编码器的训练过程中,团队引入了预训练模型的语义特征对标签进行语义监督,这使得每个离散标签能够承载更丰富的语义信息,从而提升了语音与文本之间的映射效率。

这一编码器不仅在压缩效率和语义表达上表现出色,还实现了流式解码功能,能够实时输出音频。这对于需要即时反馈的交互式应用而言,无疑是一项关键的工程突破。在训练数据方面,该编码器首先在约50万小时的多样化语音数据上进行预训练以增强其泛化能力,随后又在6万小时的高质量语音数据上进行优化,以提升重建音质,为下游的合成任务提供了高质量的基础。

2.2 文本语音合成模型:上下文感知与细节填充的完美结合

FireRedTTS-2的文本语音合成模型引入了创新的“文本-语音混排”输入格式,支持逐句生成,这极大地提升了编辑的灵活性和对多场景的适配能力。在多说话人对话场景中,用户只需通过说话人标签(如[S1]、[S2]、[S3])即可清晰区分不同角色,实现角色间的自然切换。

在模型架构上,FireRedTTS-2采用了“双Transformer”设计:一个是拥有1.5B参数的Backbone Transformer,主要负责建模混排序列中的语音粗粒度信息,把握整体的上下文脉络;另一个是拥有0.2B参数的Decoder Transformer,专注于补充语音的声学细节,提升合成语音的自然度。这种架构设计能够充分利用上下文中的文本信息与历史语音信息,从而生成连贯、自然的对话语音。

技术Tips: FireRedTTS-2的技术根基建立在“用LLM的思路做TTS”这一当前主流范式上,即音频Token化 -> LLM建模 -> 音频解码。其核心贡献在于针对对话场景进行了深度定制和优化,包括创新的混排输入格式、双Transformer架构设计以及科学的两阶段训练策略(先在110万小时单句语音上预训练夯实基础,再用30万小时对话语音进行微调,覆盖2-4人对话场景)。

配合离散语音编码器的流式解码能力,该合成模型实现了低首包延迟,显著加快了起播速度。在音色定制方面,模型表现同样出色,仅需约50小时特定播客说话人的录音样本进行微调,即可完成高质量的音色定制,使AI合成语音的自然度逼近真人水平。

3. 行业性能对标:FireRedTTS-2的全面领先优势

为了验证FireRedTTS-2的实际性能,小红书团队在自建的中英文对话测试集上,将其与主流的开源模型如MoonCast、ZipVoice-Dialogue、MOSS-TTSD等进行了系统性的对比评测。评测涵盖了客观指标与主观听评两大维度,结果显示FireRedTTS-2在多个关键指标上均表现出显著优势。

3.1 客观指标与主观偏好的双重胜利

从客观数据来看,FireRedTTS-2在字符错误率(CER)上达到了1.66%的优异成绩,远低于对比模型的3.20%、2.85%和3.10%。在说话人保持度(SIM)和韵律自然度方面,FireRedTTS-2也被评为“高”,而对比模型多为“中”或“低”。主观偏好(CMOS)评测中,FireRedTTS-2同样获得了“最优”的评价。

FireRedTTS-2与主流开源模型性能对比

指标 FireRedTTS-2 MoonCast ZipVoice-Dialogue MOSS-TTSD
正确率(CER) 1.66% 3.20% 2.85% 3.10%
说话人保持(SIM)
韵律自然度
主观偏好(CMOS) 最优 次优 一般 一般

3.2 逼近真人的自然度:主观听评的积极反馈

主观听评的结果更为引人注目。在测试中,有56%的测例被认为其自然度已经达到或超过了真实录音水平。其中,28%的测例甚至被评为“比真实播客更自然”,另有28%的测例听众难以区分其为AI合成还是真人录音。这一系列数据充分证明了FireRedTTS-2在语音自然度方面的卓越表现。此外,其音色定制能力也尤为突出,只需极少的样本即可完成高质量的仿声。

值得注意的是,通过对竞品模型的检索发现,诸如MoonCast、ZipVoice-Dialogue(字节跳动ZipVoice项目的对话版本,公开资料较少)、MOSS-TTSD(复旦大学MOSS大语言模型的衍生模块,公开信息有限)等,其公开资料相对匮乏,尤其是针对对话场景的优化版本。这从侧面反映出,目前高质量、开源且专注于多说话人对话的TTS模型在市场上仍属稀缺资源,FireRedTTS-2的出现恰好填补了这一空白。

4. 多语言与多音色支持:赋能全球化与个性化内容创作

FireRedTTS-2在语言支持方面展现出强大的包容性,不仅完美支持中文和英语,还覆盖了日语、韩语、法语等多种常见语种,实现了开箱即用,能够很好地满足跨语种应用的需求。

在音色方面,模型支持随机音色生成与精准的音色克隆功能。用户只需为每位发音人提供一句语音样本,模型即可自动模仿其音色特点和说话习惯,进而生成完整流畅的对话内容。这一特性极大地降低了个性化语音合成的门槛,无论是AI播客制作、虚拟主播驱动,还是多语言智能客服、个性化语音交互系统,FireRedTTS-2都能高效生成分角色、多语言的高质量对话及非对话音频数据,为下游应用的创新提供了丰富的可能性。

5. 应用场景拓展:从AI播客到实时语音交互的全面革新

传统的多说话人对话合成方案往往需要将完整对话切分成独立的句子,逐句合成后再进行拼接。这种方式容易导致句子之间的韵律断裂,角色切换生硬不自然,严重影响用户体验。FireRedTTS-2通过突破性地支持逐句生成与流式解码,从根本上解决了这些问题,合成效果自然流畅,角色切换稳定清晰,同时显著降低了发音错误与说话人混淆的概率。

对于AI播客领域而言,FireRedTTS-2能够轻松生成多主持人之间自然流畅的对话,大大降低了播客制作的门槛和成本。在智能对话系统中,模型能够提供更具人情味和真实感的语音反馈。而在流式语音交互场景,如实时客服、语音助手等,其低延迟和高自然度的特性更是提升了用户体验的关键。可以说,FireRedTTS-2在这些应用场景中已达到工业级的落地标准。

应用前景展望: FireRedTTS-2的多说话人、多语言、开箱即用以及音色克隆等特性,精准命中了当前AIGC内容创作、智能交互等下游应用的核心需求。其“流式解码”能力对于实时交互场景至关重要,而“逐句生成”能力则极大方便了内容的编辑和后期制作。这使其有望成为AIGC音频领域的一个重要基础设施工具,降低高质量音频内容的制作门槛。

6. FireRedTTS-2的未来演进与行业影响

小红书团队表示,FireRedTTS-2并非终点,而是一个新的起点。在未来,团队将持续对模型进行迭代优化,计划进一步扩展支持的说话人人数与语种范围,并积极探索可控音效插入等创新功能,以进一步提升对话合成的表达力和应用广度。

回顾小红书智创音频团队的技术积累,他们此前已发布过第一代FireRedTTS模型,主要聚焦于单说话人的情感化语音合成。而FireRedTTS-2则是一次重大的技术飞跃,将重心转向了更具挑战性的多说话人对话合成。这一系列动作表明,小红书正在AIGC技术,特别是音频内容创作领域持续投入,并致力于通过技术创新赋能内容生态。

FireRedTTS-2的发布,标志着AI语音合成技术在对话自然度、系统灵活性与多语言支持方面又迈出了坚实的一步。随着技术的持续演进,语音合成正从单纯的工具角色,逐渐转变为连接人类与数字世界的重要桥梁,为内容创作与交互体验带来更多可能性。其开源策略也将进一步加速其在行业内的应用普及和技术迭代,推动整个AIGC音频领域的发展。

参考链接