语音技术[5]

B站开源IndexTTS-2.0:零样本TTS迈入情感与时长双维度精准控制新时代

B站Index团队开源新一代文本转语音模型IndexTTS-2.0,创新“时间编码”机制实现情感与时长双维度精准控制,支持零样本多情感、跨语言合成及自然语言描述引导情绪,性能指标超越现有SOTA,已在B站AI视频创作大规模应用,为开发者提供先进TTS研究实践平台。

语音语言模型(LSLM)破局:全球首个开源端到端框架LLaSO树立研究新基准

在语音语言模型(LSLM)面临架构碎片化、数据不透明等瓶颈时,北京深度逻辑智能推出全球首个完全开源、端到端语音大模型框架LLaSO。该框架含数据对齐(1200万样本)、指令微调(1350万样本)、评估基准(1.5万测试样本)三大核心组件,解决行业痛点,推动语音AI迈向开放可及未来。

小红书发布FireRedTTS-2对话合成模型 重塑AI播客与多语言语音生成

小红书发布新一代对话合成模型FireRedTTS-2,双模块驱动革新:离散语音编码器提升效率与语义,双Transformer合成模型实现多说话人自然切换。解决行业灵活性不足、发音错误等痛点,流式解码低延迟,支持多语言,自然度逼近真人,赋能AI播客、智能对话等场景,成AIGC音频重要工具。

YouTube多语言音频功能全面开放 创作者国际观看时长显著增长

YouTube多语言音频功能已面向全球创作者开放,支持AI生成40+语言配音,大幅降低国际分发成本,非主要语言观众观看时长平均增超25%。配合多语言缩略图测试及数据洞察工具,助创作者精准定位全球受众,提升国际互动率与观看量,突破语言壁垒触达更广阔市场。

Recall.ai获3800万B轮融资,估值2.5亿加码AI对话数据基建

AI对话数据基础设施服务商Recall.ai完成3800万美元B轮融资,估值达2.5亿美元,由Bessemer Venture Partners领投。其核心产品为统一API/SDK,可快速集成14种主流会议平台,实现会议录制、转录及实时交互数据提取,支持与CRM、Notion等工具无缝对接,解决企业对话数据采集难、处理复杂问题。技术上具备强实时性(1秒内传输高清视频帧)、HIPAA/GDPR合规的Private Cloud方案及大规模算力支撑(日峰值处理3TB/秒视频数据),已服务HubSpot等超1500家企业,助力客户提升效率(如销售跟进效率提40%)并降低成本。融资将用于拓展电话/线下对话场景、部署边缘计算节点,瞄准年规模超100亿美元的视频对话AI市场,推动企业对话数据智能化应用。