挖掘有趣 Github 的猫。


有事联系:https://t.me/qumao?direct
🍭 #语音合成 #人工智能


🏵 VibeVoice - 长对话语音生成框架

🍥 简介:
VibeVoice是微软推出的前沿开源文本转语音研究框架,专注于生成长篇幅、多说话人的对话式音频。其核心创新在于采用7.5Hz超低帧率的连续语音分词器,通过结合大语言模型的上下文理解能力与扩散模型的声音细节生成技术,实现了长达90分钟、最多4个说话人的高质量语音合成。该框架有效解决了传统TTS系统在扩展性、说话人一致性和自然对话轮换方面的技术挑战,为播客等长音频场景提供了突破性的解决方案。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🗣 每日羊毛线报 👈


🏵 Kitten TTS - 轻量级文本转语音

🍥 简介:
Kitten TTS 是一款开源的超轻量级文本转语音(TTS)模型,总参数量仅1500万,模型体积小于25MB。该项目针对CPU环境深度优化,无需GPU即可在各种设备上流畅运行,支持多种高质量语音选择,满足多样化语音合成需求。Kitten TTS 推理速度快,适合实时语音合成场景,便于集成到桌面、移动或嵌入式应用中。适用于开发者对语音质量和资源占用要求严格的应用场合。

🍭 #TTS #语音合成


🎈 【进入项目】


🎯 关注频道 🤖 合作/投稿
🗣 每日羊毛线报 👈


🏵 Spark-TTS - 高效LLM文本转语音

🍥 简介:
Spark-TTS 是一款基于大型语言模型(LLM)的高效文本转语音(TTS)推理系统。它利用 Qwen2.5 模型,直接从预测的语音代码重建音频,无需额外的声学特征生成模型,简化了流程并提升效率。该项目支持高质量的零样本(Zero-shot)语音克隆,能复制未曾训练过的说话人声音,尤其适用于跨语言和语码转换场景。Spark-TTS 支持中英双语,并允许通过调整参数控制生成语音的特性。

🍭 #文本转语音 #语音合成


🎈 【进入项目】


🎯 关注频道 🤖 合作/投稿
🎈 #影视 | 高清时间(hdtime)春节开放注册

🎯 简介:
开放时间:2023-01-20 至 2023-01-25
全站FREE:
2023-01-21 00:00:00 至 2023-01-28 00:00:00(消息源
#语音合成 #TTS #PC #一点红语音合成 #edge

📍 【进入注册】


🫥 关注频道 ⛳️ 频道说明 🎯 投稿机器人
🎈 #工具 | 一点红语音合成1.4

🎯 简介:
使用Edge接口合成,将文本按照段落划分200字左右,进行分段合成,合成文件会放到软件temp 文件夹下,最后将所有语音文件自动拼接到一起生成mp3文件,并删除临时文件夹内容。AzureTTS 界面生成的文本 自动ssml 标签。(消息源
#语音合成 #TTS #PC #一点红语音合成 #edge

📍 【进入下载】


🫥 关注频道 ⛳️ 频道说明 🎯 投稿机器人
 
 
Back to Top