趣猫🐱
挖掘有趣 Github 的猫。
有事联系:
https://t.me/qumaobot
2 天前
🍭
#语音识别
#效率工具
🏵
DeLive
- 系统音频实时语音转文字
🍥
简介:
DeLive 是一款桌面端音频处理工具,支持实时采集系统音频并接入十二种自动语音识别引擎进行转录。程序将数据保存在本地,具备全文检索功能,并集成 AI 辅助校对系统。支持 Markdown 格式对话、问答生成、结构化摘要及思维导图导出。同时,该软件支持离线导入音频或视频文件,并可调用多种云端引擎实现自动化转录处理。
🎈
【进入项目】
🗣
活动线报
|
掘金项目
语音识别
效率工具
16:33 · 2026年6月5日 · 周五
🍭
#开源工具
#语音合成
🏵
Voicebox
- 本地化语音克隆与合成工具
🍥
简介:
Voicebox 是一款开源语音合成套件,支持在本地运行以确保数据隐私。该工具具备语音克隆功能,仅需少量音频样本即可生成高保真语音模型。系统内置五种主流文本转语音(TTS)引擎,支持全球 23 种语言,并提供音频特效处理及多音轨时间轴编辑器,能够实现复杂的语音合成与编辑任务,满足各类本地化音频创作需求。
🎈
【进入项目】
🗣
活动线报
|
掘金项目
开源工具
语音合成
13:47 · 2026年6月4日 · 周四
🍭
#人工智能
#语音交互
#数字人
🏵
PersonaPlex
- 实时全双工语音对话模型
🍥
简介:
PersonaPlex 是一款支持实时全双工语音对话的交互模型。该系统允许用户通过文本提示词与语音指令操控虚拟角色。模型基于合成对话与真实对话语料库训练,具备低延迟响应特性,在实现自然的人机语音交互过程中,能够维持角色设定的一致性与稳定性。
🎈
【进入项目】
🗣
活动线报
|
掘金项目
人工智能
语音交互
数字人
01:35 · 2026年6月2日 · 周二
🍭
#AI
#语音助手
#Python
🏵
MadMax
- 基于Gemini API的实时AI语音代理
🍥
简介:
MadMax是一款基于Python构建的实时AI语音交互程序,集成Gemini Live API实现语音转文字功能。该项目内置Google搜索接口以获取实时互联网信息,并支持基于Vosk的本地离线语音唤醒。程序具备结构化的JSON长效记忆模块,可存储人物信息、地理位置、个人经历及反思等多维度数据,支持实时通话交互,适用于构建具备持续记忆与动态信息检索能力的智能对话系统。
🎈
【进入项目】
🗣
活动线报
|
掘金项目
AI
语音助手
Python
03:37 · 2026年5月30日 · 周六
🍭
#人工智能
#语音识别
🏵
Insanely Fast Whisper
- 高性能语音转文字工具
🍥
简介:
该工具基于命令行运行,旨在实现音频文件的高速转录。软件深度集成OpenAI Whisper Large v3模型,并针对NVIDIA显卡及Mac平台进行了深度优化。通过应用Flash Attention等技术,显著提升了处理效率与推理速度,适用于对语音识别实时性要求较高的计算场景,是实现大规模音频自动转写的高效方案。
🎈
【进入项目】
🗣
活动线报
|
掘金项目
人工智能
语音识别
19:45 · 2026年5月21日 · 周四
🍭
#AI工具
#语音代理
🏵
Quickvoice_mcp
- QuickVoice AI语音代理交互
🍥
简介:
Quickvoice_mcp 是一个专门设计的MCP服务器实现。其核心功能是为QuickVoice AI语音代理提供稳定的交互接口与环境。该程序能够处理与AI语音代理相关的通信协议,确保数据传输的准确性与效率,旨在优化自动化语音系统或集成语音服务的功能扩展和部署。
🎈
【进入项目】
🗣
活动线报
|
掘金项目
AI工具
语音代理
13:42 · 2026年5月19日 · 周二
🍭
#JavaScript库
#语音识别
🏵
Annyang
- JavaScript语音识别库
🍥
简介:
Annyang是一个轻量级JavaScript语音识别库,使用户能通过语音指令操控网页。它无需额外依赖,体积仅2KB,遵循MIT许可证免费分发,提供高效的语音交互功能。
🎈
【进入项目】
🗣
活动线报
|
掘金项目
JavaScript库
语音识别
03:43 · 2026年5月15日 · 周五
🍭
#AI
#语音助手
🏵
Jarvis
- 本地离线AI语音助手
🍥
简介:
Jarvis是一款100%私人化的AI语音助手,运行于本地计算机且支持离线工作。它提供对话式交互,具备记忆能力,并能感知用户位置与时间。核心功能包括在线信息查询、Chrome浏览器控制及饮食追踪等。支持无限量模块扩展,确保多工具集成时上下文连续。
🎈
【进入项目】
🗣
活动线报
|
掘金项目
AI
语音助手
22:34 · 2026年5月7日 · 周四
🍭
#AI工具
#语音技术
🏵
Moonshine Voice
- 语音助手开发
🍥
简介:
Moonshine Voice是一个开源项目,专注于提供低延迟的语音转文本、意图识别及文本转语音能力。它旨在简化语音助手和交互界面的开发流程,为构建高效、响应迅速的语音交互系统提供核心技术支持,广泛应用于各类智能设备与应用。
🎈
【进入项目】
🗣
活动线报
|
掘金项目
AI工具
语音技术
16:48 · 2026年5月2日 · 周六
🍭
#音频处理
#语音转写
🏵
Buzz
- 离线音频转写与翻译
🍥
简介:
Buzz是一款基于OpenAI Whisper模型的桌面应用程序。该软件支持在个人电脑上离线执行音频转写及翻译功能。用户可利用其将本地音频文件内容转换为文本,并提供多语言翻译服务,所有处理均在本地完成,不依赖外部网络,确保数据隐私与操作效率。
🎈
【进入项目】
🗣
活动线报
|
掘金项目
音频处理
语音转写
22:47 · 2026年4月29日 · 周三
🍭
#AI工具
#语音合成
🏵
Free-voice-clone
- 免费语音克隆模型库
🍥
简介:
Free-voice-clone 是一个开源集合,收录所有本地部署且免费的开源语音合成模型和音乐生成模型。它提供了多种语音克隆与文本转语音(TTS)技术,以及各类音乐创作算法。该项目为开发者和研究人员汇集了无需商业许可的智能音频处理工具,涵盖多种技术栈和实现方式。
🎈
【进入项目】
🗣
活动线报
|
掘金项目
AI工具
语音合成
16:39 · 2026年4月26日 · 周日
🍭
#语音合成
#AI工具
🏵
VoxCPM
- 文本合成语音,语音克隆
🍥
简介:
VoxCPM是一款免费开源的语音合成工具。它能将文本转换为逼真的语音,无需令牌使用,并生成富有表现力且符合上下文的音频。该工具仅需3-10秒的音频样本,即可实现高精度语音克隆。
🎈
【进入项目】
🗣
活动线报
|
掘金项目
语音合成
AI工具
05:48 · 2026年4月17日 · 周五
🍭
#游戏模组
#语音交互
🏵
Mantella
- NPC自然语音交互模组
🍥
简介:
Mantella 是一款专为《上古卷轴5:天际》和《辐射4》设计的游戏模组。该模组集成了语音转文本(如 Moonshine、Whisper)、大型语言模型及文本转语音技术(如 Piper、xVASynth、XTTS),旨在使玩家能够与非玩家角色(NPC)进行自然语言交互。通过此技术栈,Mantella 实现了从玩家语音输入到NPC响应语音输出的完整对话流程,提升了游戏内角色互动的真实性和效率。
🎈
【进入项目】
🗣
活动线报
|
掘金项目
游戏模组
语音交互
03:36 · 2026年4月16日 · 周四
🍭
#AI工具
#语音转文本
#桌面应用
🏵
Maivi
- AI语音转文本桌面应用
🍥
简介:
Maivi是一款跨平台桌面应用,通过集成先进AI模型,实现高效的语音到文本转换功能。用户只需通过快捷键Alt+Q(macOS为Option+Q)启动与停止录音,系统将实时生成转录文本并自动复制至剪贴板,极大提升文字输入效率。
🎈
【进入项目】
🗣
活动线报
|
掘金项目
AI工具
语音转文本
桌面应用
01:46 · 2026年4月16日 · 周四
🍭
#语音交互
#虚拟角色
🏵
PersonaPlex
- 实时语音控制虚拟角色
🍥
简介:
PersonaPlex是一个实时全双工语音转语音对话模型,旨在通过文本提示和语音命令对虚拟角色进行控制。该模型基于Moshi的架构和权重构建,并结合合成对话与真实对话进行训练。它提供低延迟的自然语音交互能力,同时确保虚拟角色的个性特征保持一致。此系统支持用户以自然语言与角色进行实时互动,适用于需要高度响应和个性化交互的应用场景。
🎈
【进入项目】
🗣
活动线报
|
掘金项目
语音交互
虚拟角色
13:37 · 2026年4月14日 · 周二
🍭
#语音识别
#AI模型
🏵
Fun-ASR
- 智能语音识别
🍥
简介:
Fun-ASR 是由通义实验室研发的综合语音识别模型。该模型基于数千万小时真实语音数据进行训练,具备强大的上下文理解能力与行业适应性,旨在提供高性能的语音识别解决方案。
🎈
【进入项目】
🗣
活动线报
|
掘金项目
语音识别
AI模型
13:32 · 2026年3月7日 · 周六
🍭
#语音合成
#开源工具
🏵
Kugelaudio-open
- 开源语音合成与克隆
🍥
简介:
Kugelaudio-open是一个专注于欧洲语言的开源文本转语音项目。它不仅能将文本合成为自然流畅的语音,还支持高级的声音克隆功能。该项目为用户提供灵活且高质量的语音解决方案,适用于各种需要语音合成及个性化声音的应用场景。
🎈
【进入项目】
🗣
活动线报
|
掘金项目
语音合成
开源工具
22:47 · 2026年3月6日 · 周五
🍭
#语音合成
#AI工具
🏵
Voicebox
- 开源语音合成平台
🍥
简介:
Voicebox是一款开源语音合成工具,支持克隆语音、生成高质量语音内容以及开发语音应用。所有功能均可在本地计算机上运行,提供高效、私密的语音处理解决方案。
🎈
【进入项目】
🗣
活动线报
|
掘金项目
语音合成
AI工具
16:46 · 2026年1月12日 · 周一
🍭
#语音合成
#教学工具
🏵
IMS Toucan
- 文本语音合成教学工具
🍥
简介:
IMS Toucan 是一款专为文本转语音(Text-to-Speech, TTS)系统设计的多功能工具集。它旨在帮助用户深入理解、实际操作并高效教授当前先进的语音合成技术。无论是学习者掌握基础原理,开发者实践应用,还是教育者进行专业教学,IMS Toucan 都能提供全面的支持,简化现代语音合成系统的学习与应用过程。
🎈
【进入项目】
🗣
羊毛撸货线报
|
合作/投稿
语音合成
教学工具
01:46 · 2026年1月12日 · 周一
🍭
#AI工具
#语音识别
#资源列表
🏵
Awesome-whisper
- Whisper AI语音识别资源集
🍥
简介:
此列表汇集了OpenAI开源的AI语音识别系统Whisper的各类相关资源。Whisper是一款基于人工智能的先进语音识别模型,能够高效准确地将人类语音转换为文本。该项目旨在提供一个精选资源集合,便于开发者和研究人员快速了解并利用Whisper的功能,涵盖工具、库、教程及应用案例,旨在促进Whisper技术社区的交流与发展。
🎈
【进入项目】
🗣
羊毛撸货线报
|
合作/投稿
AI工具
语音识别
资源列表
Home
Powered by
BroadcastChannel
&
Sepia