挖掘有趣 Github 的猫。


有事联系:https://t.me/qumaobot
🍭 #多模态AI #语音理解


🏵 Step-Audio 2 - 端到端音频理解模型

🍥 简介:
Step-Audio 2是一款工业级端到端多模态大语言模型,专注于音频理解和语音对话。支持高精度ASR语音识别、副语言信息和非语音信息的语义推理。具备情感识别能力,可分析用户年龄、情绪等特征实现智能交互。集成工具调用和多模态RAG技术,通过检索文本和音频知识减少幻觉输出,并支持音色切换。在多项音频理解和对话基准测试中达到业界领先水平,提供mini、mini Base和mini Think三个开源版本,采用Apache 2.0许可协议。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #深度学习 #多模态AI


🏵 Tiny Qwen - Qwen模型轻量复现

🍥 简介:
Tiny Qwen 是一个简洁易读的 PyTorch 项目,主要对 Qwen3 和 Qwen2.5-VL 大语言模型进行了轻量级复现。支持纯文本和图像多模态输入,以及稠密与混合专家架构,便于快速上手和学习。项目提供完善的命令行交互体验,适配 GPU 自动部署,代码结构清晰,适合模型原理研究与二次开发。相比官方实现,本项目去除冗余,易于理解,非常适合想深入掌握大模型推理与多模态处理的开发者和研究者。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #AI设计工具 #多模态创作


🏵 Jaaz.app - 本地AI智能设计

🍥 简介:
Jaaz.app 是全球首个开源的多模态AI设计代理,结合了 Lovart、Manus 和 Figma 等产品的优势,专注于本地运行和用户隐私保护。支持通过 Ollama、ComfyUI 部署本地大模型,也可无缝接入 OpenAI、Replicate 等云端API,满足不同需求。内置智能提示词生成、交互式图像编辑、对象插入、风格迁移和无限画布等功能,用户可通过聊天直接控制创作流程。支持多用户团队协作和私有化部署,非常适合设计师、内容创作者和企业团队提升创意效率。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #多模态大模型 #智能推理


🏵 GLM-4.5V/GLM-4.1V-Thinking - 通用视觉语言推理

🍥 简介:
GLM-4.5V 和 GLM-4.1V-Thinking 是新一代视觉语言大模型,支持图像、视频、文档等多模态输入,具备强大的推理与理解能力。模型采用混合训练和强化学习优化,能处理复杂场景下的视觉定位、长文本解析、GUI操作等任务。支持“思考模式”切换,兼顾快速响应与深度推理。产品已开源,配套桌面助手应用和多终端API,便于开发者集成于AI助手、内容分析、智能体等多种应用,实现更智能、全面的多模态交互体验。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🗣 每日羊毛线报 👈


🏵 AIClient2API - 大模型API统一代理

🍥 简介:
AIClient2API 是一款为开发者打造的多模型API聚合代理,支持模拟 Gemini CLI、Qwen Code、Kiro Claude 等客户端请求,并统一封装为 OpenAI 兼容接口。通过 Node.js HTTP 服务,将多个AI模型后端整合为标准API,极大简化多模型切换和接入流程。项目采用模块化架构,具备高可扩展性,支持策略与适配器模式,兼容主流AI工具链和客户端。内置日志、健康检查、账号池和多模态输入,助力开发者高效调用和管理各类主流大模型资源。

🍭 #AI代理 #多模型整合


🎈 【进入项目】


🎯 关注频道 🤖 合作/投稿
 
 
Back to Top