🍭 #语音合成 #人工智能
🏵 VibeVoice - 长对话语音生成框架
🍥 简介:
VibeVoice是微软推出的前沿开源文本转语音研究框架,专注于生成长篇幅、多说话人的对话式音频。其核心创新在于采用7.5Hz超低帧率的连续语音分词器,通过结合大语言模型的上下文理解能力与扩散模型的声音细节生成技术,实现了长达90分钟、最多4个说话人的高质量语音合成。该框架有效解决了传统TTS系统在扩展性、说话人一致性和自然对话轮换方面的技术挑战,为播客等长音频场景提供了突破性的解决方案。
🎈 【进入项目】🗣 羊毛撸货线报 |
合作/投稿