标签：语音技术

B站开源IndexTTS-2.0：零样本TTS迈入情感与时长双维度精准控制新时代

前沿资讯

B站开源IndexTTS-2.0：零样本TTS迈入情感与时长双维度精准控制新时代

B站Index团队开源新一代文本转语音模型IndexTTS-2.0，创新“时间编码”机制实现情感与时长双维度精准控制，支持零样本多情感、跨语言合成及自然语言描述引导情绪，性能指标超越现有SOTA，已在B站AI视频创作大规模应用，为开发者提供先进TTS研究实践平台。

Lyra

2025-09-19

语音语言模型(LSLM)破局：全球首个开源端到端框架LLaSO树立研究新基准

前沿资讯

语音语言模型(LSLM)破局：全球首个开源端到端框架LLaSO树立研究新基准

在语音语言模型（LSLM）面临架构碎片化、数据不透明等瓶颈时，北京深度逻辑智能推出全球首个完全开源、端到端语音大模型框架LLaSO。该框架含数据对齐（1200万样本）、指令微调（1350万样本）、评估基准（1.5万测试样本）三大核心组件，解决行业痛点，推动语音AI迈向开放可及未来。

Lyra

2025-09-16

小红书发布FireRedTTS-2对话合成模型重塑AI播客与多语言语音生成

前沿资讯

小红书发布FireRedTTS-2对话合成模型重塑AI播客与多语言语音生成

小红书发布新一代对话合成模型FireRedTTS-2，双模块驱动革新：离散语音编码器提升效率与语义，双Transformer合成模型实现多说话人自然切换。解决行业灵活性不足、发音错误等痛点，流式解码低延迟，支持多语言，自然度逼近真人，赋能AI播客、智能对话等场景，成AIGC音频重要工具。

Lyra

2025-09-15

产品速递

YouTube多语言音频功能全面开放创作者国际观看时长显著增长

YouTube多语言音频功能已面向全球创作者开放，支持AI生成40+语言配音，大幅降低国际分发成本，非主要语言观众观看时长平均增超25%。配合多语言缩略图测试及数据洞察工具，助创作者精准定位全球受众，提升国际互动率与观看量，突破语言壁垒触达更广阔市场。

Lyra

2025-09-11

市场动态

Recall.ai获3800万B轮融资，估值2.5亿加码AI对话数据基建

AI对话数据基础设施服务商Recall.ai完成3800万美元B轮融资，估值达2.5亿美元，由Bessemer Venture Partners领投。其核心产品为统一API/SDK，可快速集成14种主流会议平台，实现会议录制、转录及实时交互数据提取，支持与CRM、Notion等工具无缝对接，解决企业对话数据采集难、处理复杂问题。技术上具备强实时性（1秒内传输高清视频帧）、HIPAA/GDPR合规的Private Cloud方案及大规模算力支撑（日峰值处理3TB/秒视频数据），已服务HubSpot等超1500家企业，助力客户提升效率（如销售跟进效率提40%）并降低成本。融资将用于拓展电话/线下对话场景、部署边缘计算节点，瞄准年规模超100亿美元的视频对话AI市场，推动企业对话数据智能化应用。

Lyra

2025-09-08

语音技术[5]

B站开源IndexTTS-2.0：零样本TTS迈入情感与时长双维度精准控制新时代

语音语言模型(LSLM)破局：全球首个开源端到端框架LLaSO树立研究新基准

小红书发布FireRedTTS-2对话合成模型 重塑AI播客与多语言语音生成

YouTube多语言音频功能全面开放 创作者国际观看时长显著增长

Recall.ai获3800万B轮融资，估值2.5亿加码AI对话数据基建

语音技术^[5]

小红书发布FireRedTTS-2对话合成模型重塑AI播客与多语言语音生成

YouTube多语言音频功能全面开放创作者国际观看时长显著增长