挖掘有趣 Github 的猫。


有事联系:https://t.me/qumaobot
🍭 #语音识别 #AI模型


🏵 Fun-ASR - 智能语音识别

🍥 简介:
Fun-ASR 是由通义实验室研发的综合语音识别模型。该模型基于数千万小时真实语音数据进行训练,具备强大的上下文理解能力与行业适应性,旨在提供高性能的语音识别解决方案。

🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #语音合成 #AI工具

🏵 Voicebox - 开源语音合成平台

🍥 简介:
Voicebox是一款开源语音合成工具,支持克隆语音、生成高质量语音内容以及开发语音应用。所有功能均可在本地计算机上运行,提供高效、私密的语音处理解决方案。

🎈 【进入项目】

🗣 活动线报 | 掘金项目
🍭 #语音合成 #教学工具


🏵 IMS Toucan - 文本语音合成教学工具

🍥 简介:
IMS Toucan 是一款专为文本转语音(Text-to-Speech, TTS)系统设计的多功能工具集。它旨在帮助用户深入理解、实际操作并高效教授当前先进的语音合成技术。无论是学习者掌握基础原理,开发者实践应用,还是教育者进行专业教学,IMS Toucan 都能提供全面的支持,简化现代语音合成系统的学习与应用过程。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #多模态AI #语音理解


🏵 Step-Audio 2 - 端到端音频理解模型

🍥 简介:
Step-Audio 2是一款工业级端到端多模态大语言模型,专注于音频理解和语音对话。支持高精度ASR语音识别、副语言信息和非语音信息的语义推理。具备情感识别能力,可分析用户年龄、情绪等特征实现智能交互。集成工具调用和多模态RAG技术,通过检索文本和音频知识减少幻觉输出,并支持音色切换。在多项音频理解和对话基准测试中达到业界领先水平,提供mini、mini Base和mini Think三个开源版本,采用Apache 2.0许可协议。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #语音合成 #人工智能


🏵 VibeVoice - 长对话语音生成框架

🍥 简介:
VibeVoice是微软推出的前沿开源文本转语音研究框架,专注于生成长篇幅、多说话人的对话式音频。其核心创新在于采用7.5Hz超低帧率的连续语音分词器,通过结合大语言模型的上下文理解能力与扩散模型的声音细节生成技术,实现了长达90分钟、最多4个说话人的高质量语音合成。该框架有效解决了传统TTS系统在扩展性、说话人一致性和自然对话轮换方面的技术挑战,为播客等长音频场景提供了突破性的解决方案。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
 
 
Back to Top