挖掘有趣 Github 的猫。


有事联系:https://t.me/qumaobot
🍭 #语音识别 #效率工具


🏵 DeLive - 系统音频实时语音转文字


🍥 简介:
DeLive 是一款桌面端音频处理工具,支持实时采集系统音频并接入十二种自动语音识别引擎进行转录。程序将数据保存在本地,具备全文检索功能,并集成 AI 辅助校对系统。支持 Markdown 格式对话、问答生成、结构化摘要及思维导图导出。同时,该软件支持离线导入音频或视频文件,并可调用多种云端引擎实现自动化转录处理。


🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #人工智能 #语音识别


🏵 Insanely Fast Whisper - 高性能语音转文字工具

🍥 简介:
该工具基于命令行运行,旨在实现音频文件的高速转录。软件深度集成OpenAI Whisper Large v3模型,并针对NVIDIA显卡及Mac平台进行了深度优化。通过应用Flash Attention等技术,显著提升了处理效率与推理速度,适用于对语音识别实时性要求较高的计算场景,是实现大规模音频自动转写的高效方案。

🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #JavaScript库 #语音识别

🏵 Annyang - JavaScript语音识别库

🍥 简介:
Annyang是一个轻量级JavaScript语音识别库,使用户能通过语音指令操控网页。它无需额外依赖,体积仅2KB,遵循MIT许可证免费分发,提供高效的语音交互功能。

🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #AI工具 #语音技术


🏵 Moonshine Voice - 语音助手开发

🍥 简介:
Moonshine Voice是一个开源项目,专注于提供低延迟的语音转文本、意图识别及文本转语音能力。它旨在简化语音助手和交互界面的开发流程,为构建高效、响应迅速的语音交互系统提供核心技术支持,广泛应用于各类智能设备与应用。

🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #语音识别 #AI模型


🏵 Fun-ASR - 智能语音识别

🍥 简介:
Fun-ASR 是由通义实验室研发的综合语音识别模型。该模型基于数千万小时真实语音数据进行训练,具备强大的上下文理解能力与行业适应性,旨在提供高性能的语音识别解决方案。

🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #AI工具 #语音识别 #资源列表


🏵 Awesome-whisper - Whisper AI语音识别资源集

🍥 简介:
此列表汇集了OpenAI开源的AI语音识别系统Whisper的各类相关资源。Whisper是一款基于人工智能的先进语音识别模型,能够高效准确地将人类语音转换为文本。该项目旨在提供一个精选资源集合,便于开发者和研究人员快速了解并利用Whisper的功能,涵盖工具、库、教程及应用案例,旨在促进Whisper技术社区的交流与发展。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #多模态AI #语音理解


🏵 Step-Audio 2 - 端到端音频理解模型

🍥 简介:
Step-Audio 2是一款工业级端到端多模态大语言模型,专注于音频理解和语音对话。支持高精度ASR语音识别、副语言信息和非语音信息的语义推理。具备情感识别能力,可分析用户年龄、情绪等特征实现智能交互。集成工具调用和多模态RAG技术,通过检索文本和音频知识减少幻觉输出,并支持音色切换。在多项音频理解和对话基准测试中达到业界领先水平,提供mini、mini Base和mini Think三个开源版本,采用Apache 2.0许可协议。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #语音识别 #效率工具


🏵 Open WhisperScribe - 语音转文字助手

🍥 简介:
Open WhisperScribe 是一款基于 OpenAI Whisper 模型的轻量级语音转文字工具,支持实时语音识别与转录。用户只需说话,系统即可将语音内容快速转化为文本,并自动复制到剪贴板,方便随时粘贴和后续使用。该工具适合专业人士、学生和内容创作者,显著提升记录、写作和沟通效率。支持命令行操作,安装简单,资源占用低,可在后台安静运行,有效解放双手,轻松实现“让声音替你打字”。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
#Whisper #语音


🏵 #程序 | Whisper - 使用GPU进行快速语音识别

🍥 简介:
Whisper是一个基于DirectCompute的高性能GPGPU推理库,用于实现OpenAI的Whisper自动语音识别(ASR)模型。它是一个纯C++实现,除了必要的操作系统组件外,没有其他运行时依赖。它比OpenAI的实现快得多,使用混合F16/F32精度,并具有内置的性能分析器。它使用Media Foundation处理音频,支持大多数音频和视频格式,以及大多数在Windows上工作的音频捕获设备。它还具有语音活动检测和简单易用的COM风格API。


🎈 【进入项目】


🫥 关注频道 🤖 合作/投稿
 
 
Back to Top