挖掘有趣 Github 的猫。


有事联系:https://t.me/qumao?direct
🍭 #多模态AI #语音理解


🏵 Step-Audio 2 - 端到端音频理解模型

🍥 简介:
Step-Audio 2是一款工业级端到端多模态大语言模型,专注于音频理解和语音对话。支持高精度ASR语音识别、副语言信息和非语音信息的语义推理。具备情感识别能力,可分析用户年龄、情绪等特征实现智能交互。集成工具调用和多模态RAG技术,通过检索文本和音频知识减少幻觉输出,并支持音色切换。在多项音频理解和对话基准测试中达到业界领先水平,提供mini、mini Base和mini Think三个开源版本,采用Apache 2.0许可协议。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #深度学习 #多模态AI


🏵 Tiny Qwen - Qwen模型轻量复现

🍥 简介:
Tiny Qwen 是一个简洁易读的 PyTorch 项目,主要对 Qwen3 和 Qwen2.5-VL 大语言模型进行了轻量级复现。支持纯文本和图像多模态输入,以及稠密与混合专家架构,便于快速上手和学习。项目提供完善的命令行交互体验,适配 GPU 自动部署,代码结构清晰,适合模型原理研究与二次开发。相比官方实现,本项目去除冗余,易于理解,非常适合想深入掌握大模型推理与多模态处理的开发者和研究者。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
 
 
Back to Top