挖掘有趣 Github 的猫。


有事联系:https://t.me/qumaobot
🍭 #语音识别 #AI模型


🏵 Fun-ASR - 智能语音识别

🍥 简介:
Fun-ASR 是由通义实验室研发的综合语音识别模型。该模型基于数千万小时真实语音数据进行训练,具备强大的上下文理解能力与行业适应性,旨在提供高性能的语音识别解决方案。

🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #AI工具 #语音识别 #资源列表


🏵 Awesome-whisper - Whisper AI语音识别资源集

🍥 简介:
此列表汇集了OpenAI开源的AI语音识别系统Whisper的各类相关资源。Whisper是一款基于人工智能的先进语音识别模型,能够高效准确地将人类语音转换为文本。该项目旨在提供一个精选资源集合,便于开发者和研究人员快速了解并利用Whisper的功能,涵盖工具、库、教程及应用案例,旨在促进Whisper技术社区的交流与发展。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #多模态AI #语音理解


🏵 Step-Audio 2 - 端到端音频理解模型

🍥 简介:
Step-Audio 2是一款工业级端到端多模态大语言模型,专注于音频理解和语音对话。支持高精度ASR语音识别、副语言信息和非语音信息的语义推理。具备情感识别能力,可分析用户年龄、情绪等特征实现智能交互。集成工具调用和多模态RAG技术,通过检索文本和音频知识减少幻觉输出,并支持音色切换。在多项音频理解和对话基准测试中达到业界领先水平,提供mini、mini Base和mini Think三个开源版本,采用Apache 2.0许可协议。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #语音识别 #效率工具


🏵 Open WhisperScribe - 语音转文字助手

🍥 简介:
Open WhisperScribe 是一款基于 OpenAI Whisper 模型的轻量级语音转文字工具,支持实时语音识别与转录。用户只需说话,系统即可将语音内容快速转化为文本,并自动复制到剪贴板,方便随时粘贴和后续使用。该工具适合专业人士、学生和内容创作者,显著提升记录、写作和沟通效率。支持命令行操作,安装简单,资源占用低,可在后台安静运行,有效解放双手,轻松实现“让声音替你打字”。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
#Whisper #语音


🏵 #程序 | Whisper - 使用GPU进行快速语音识别

🍥 简介:
Whisper是一个基于DirectCompute的高性能GPGPU推理库,用于实现OpenAI的Whisper自动语音识别(ASR)模型。它是一个纯C++实现,除了必要的操作系统组件外,没有其他运行时依赖。它比OpenAI的实现快得多,使用混合F16/F32精度,并具有内置的性能分析器。它使用Media Foundation处理音频,支持大多数音频和视频格式,以及大多数在Windows上工作的音频捕获设备。它还具有语音活动检测和简单易用的COM风格API。


🎈 【进入项目】


🫥 关注频道 🤖 合作/投稿
 
 
Back to Top