挖掘有趣 Github 的猫。


有事联系:https://t.me/qumaobot
🍭 #语音识别 #效率工具


🏵 DeLive - 系统音频实时语音转文字


🍥 简介:
DeLive 是一款桌面端音频处理工具,支持实时采集系统音频并接入十二种自动语音识别引擎进行转录。程序将数据保存在本地,具备全文检索功能,并集成 AI 辅助校对系统。支持 Markdown 格式对话、问答生成、结构化摘要及思维导图导出。同时,该软件支持离线导入音频或视频文件,并可调用多种云端引擎实现自动化转录处理。


🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #开源工具 #语音合成

🏵 Voicebox - 本地化语音克隆与合成工具

🍥 简介:
Voicebox 是一款开源语音合成套件,支持在本地运行以确保数据隐私。该工具具备语音克隆功能,仅需少量音频样本即可生成高保真语音模型。系统内置五种主流文本转语音(TTS)引擎,支持全球 23 种语言,并提供音频特效处理及多音轨时间轴编辑器,能够实现复杂的语音合成与编辑任务,满足各类本地化音频创作需求。

🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #AI #语音助手 #Python

🏵 MadMax - 基于Gemini API的实时AI语音代理

🍥 简介:
MadMax是一款基于Python构建的实时AI语音交互程序,集成Gemini Live API实现语音转文字功能。该项目内置Google搜索接口以获取实时互联网信息,并支持基于Vosk的本地离线语音唤醒。程序具备结构化的JSON长效记忆模块,可存储人物信息、地理位置、个人经历及反思等多维度数据,支持实时通话交互,适用于构建具备持续记忆与动态信息检索能力的智能对话系统。

🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #AI工具 #语音技术


🏵 Moonshine Voice - 语音助手开发

🍥 简介:
Moonshine Voice是一个开源项目,专注于提供低延迟的语音转文本、意图识别及文本转语音能力。它旨在简化语音助手和交互界面的开发流程,为构建高效、响应迅速的语音交互系统提供核心技术支持,广泛应用于各类智能设备与应用。

🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #音频处理 #语音转写


🏵 Buzz - 离线音频转写与翻译

🍥 简介:
Buzz是一款基于OpenAI Whisper模型的桌面应用程序。该软件支持在个人电脑上离线执行音频转写及翻译功能。用户可利用其将本地音频文件内容转换为文本,并提供多语言翻译服务,所有处理均在本地完成,不依赖外部网络,确保数据隐私与操作效率。

🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #AI工具 #语音合成


🏵 Free-voice-clone - 免费语音克隆模型库

🍥 简介:
Free-voice-clone 是一个开源集合,收录所有本地部署且免费的开源语音合成模型和音乐生成模型。它提供了多种语音克隆与文本转语音(TTS)技术,以及各类音乐创作算法。该项目为开发者和研究人员汇集了无需商业许可的智能音频处理工具,涵盖多种技术栈和实现方式。

🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #语音合成 #AI工具


🏵 VoxCPM - 文本合成语音,语音克隆

🍥 简介:
VoxCPM是一款免费开源的语音合成工具。它能将文本转换为逼真的语音,无需令牌使用,并生成富有表现力且符合上下文的音频。该工具仅需3-10秒的音频样本,即可实现高精度语音克隆。

🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #游戏模组 #语音交互


🏵 Mantella - NPC自然语音交互模组

🍥 简介:
Mantella 是一款专为《上古卷轴5:天际》和《辐射4》设计的游戏模组。该模组集成了语音转文本(如 Moonshine、Whisper)、大型语言模型及文本转语音技术(如 Piper、xVASynth、XTTS),旨在使玩家能够与非玩家角色(NPC)进行自然语言交互。通过此技术栈,Mantella 实现了从玩家语音输入到NPC响应语音输出的完整对话流程,提升了游戏内角色互动的真实性和效率。

🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #AI工具 #语音转文本 #桌面应用


🏵 Maivi - AI语音转文本桌面应用

🍥 简介:
Maivi是一款跨平台桌面应用,通过集成先进AI模型,实现高效的语音到文本转换功能。用户只需通过快捷键Alt+Q(macOS为Option+Q)启动与停止录音,系统将实时生成转录文本并自动复制至剪贴板,极大提升文字输入效率。

🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #语音交互 #虚拟角色


🏵 PersonaPlex - 实时语音控制虚拟角色

🍥 简介:
PersonaPlex是一个实时全双工语音转语音对话模型,旨在通过文本提示和语音命令对虚拟角色进行控制。该模型基于Moshi的架构和权重构建,并结合合成对话与真实对话进行训练。它提供低延迟的自然语音交互能力,同时确保虚拟角色的个性特征保持一致。此系统支持用户以自然语言与角色进行实时互动,适用于需要高度响应和个性化交互的应用场景。

🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #语音合成 #开源工具

🏵 Kugelaudio-open - 开源语音合成与克隆

🍥 简介:
Kugelaudio-open是一个专注于欧洲语言的开源文本转语音项目。它不仅能将文本合成为自然流畅的语音,还支持高级的声音克隆功能。该项目为用户提供灵活且高质量的语音解决方案,适用于各种需要语音合成及个性化声音的应用场景。

🎈 【进入项目】

🗣 活动线报 | 掘金项目
🍭 #语音合成 #教学工具


🏵 IMS Toucan - 文本语音合成教学工具

🍥 简介:
IMS Toucan 是一款专为文本转语音(Text-to-Speech, TTS)系统设计的多功能工具集。它旨在帮助用户深入理解、实际操作并高效教授当前先进的语音合成技术。无论是学习者掌握基础原理,开发者实践应用,还是教育者进行专业教学,IMS Toucan 都能提供全面的支持,简化现代语音合成系统的学习与应用过程。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #AI工具 #语音识别 #资源列表


🏵 Awesome-whisper - Whisper AI语音识别资源集

🍥 简介:
此列表汇集了OpenAI开源的AI语音识别系统Whisper的各类相关资源。Whisper是一款基于人工智能的先进语音识别模型,能够高效准确地将人类语音转换为文本。该项目旨在提供一个精选资源集合,便于开发者和研究人员快速了解并利用Whisper的功能,涵盖工具、库、教程及应用案例,旨在促进Whisper技术社区的交流与发展。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #语音合成 #人工智能


🏵 VibeVoice - 长对话语音生成框架

🍥 简介:
VibeVoice是微软推出的前沿开源文本转语音研究框架,专注于生成长篇幅、多说话人的对话式音频。其核心创新在于采用7.5Hz超低帧率的连续语音分词器,通过结合大语言模型的上下文理解能力与扩散模型的声音细节生成技术,实现了长达90分钟、最多4个说话人的高质量语音合成。该框架有效解决了传统TTS系统在扩展性、说话人一致性和自然对话轮换方面的技术挑战,为播客等长音频场景提供了突破性的解决方案。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #语音识别 #效率工具


🏵 Open WhisperScribe - 语音转文字助手

🍥 简介:
Open WhisperScribe 是一款基于 OpenAI Whisper 模型的轻量级语音转文字工具,支持实时语音识别与转录。用户只需说话,系统即可将语音内容快速转化为文本,并自动复制到剪贴板,方便随时粘贴和后续使用。该工具适合专业人士、学生和内容创作者,显著提升记录、写作和沟通效率。支持命令行操作,安装简单,资源占用低,可在后台安静运行,有效解放双手,轻松实现“让声音替你打字”。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🗣 每日羊毛线报 👈


🏵 Kitten TTS - 轻量级文本转语音

🍥 简介:
Kitten TTS 是一款开源的超轻量级文本转语音(TTS)模型,总参数量仅1500万,模型体积小于25MB。该项目针对CPU环境深度优化,无需GPU即可在各种设备上流畅运行,支持多种高质量语音选择,满足多样化语音合成需求。Kitten TTS 推理速度快,适合实时语音合成场景,便于集成到桌面、移动或嵌入式应用中。适用于开发者对语音质量和资源占用要求严格的应用场合。

🍭 #TTS #语音合成


🎈 【进入项目】


🎯 关注频道 🤖 合作/投稿
🗣 每日羊毛线报 👈


🏵 KVoiceWalk - Kokoro语音克隆

🍥 简介:
KVoiceWalk 是一款为 Kokoro 文本转语音引擎设计的语音风格克隆应用。它利用随机漫步算法和混合评分方法(结合 Resemblyzer 相似度、特征提取和自相似性)来生成新的 Kokoro 语音风格张量,从而克隆目标声音。该项目旨在探索更高级的遗传算法,验证评分函数和总体概念,为 Kokoro 增加更多语音选项。

🍭 #语音克隆 #文本转语音


🎈 【进入项目】


🎯 关注频道 🤖 合作/投稿
🗣 每日羊毛线报 👈


🏵 Spark-TTS - 高效LLM文本转语音

🍥 简介:
Spark-TTS 是一款基于大型语言模型(LLM)的高效文本转语音(TTS)推理系统。它利用 Qwen2.5 模型,直接从预测的语音代码重建音频,无需额外的声学特征生成模型,简化了流程并提升效率。该项目支持高质量的零样本(Zero-shot)语音克隆,能复制未曾训练过的说话人声音,尤其适用于跨语言和语码转换场景。Spark-TTS 支持中英双语,并允许通过调整参数控制生成语音的特性。

🍭 #文本转语音 #语音合成


🎈 【进入项目】


🎯 关注频道 🤖 合作/投稿
 
 
Back to Top