挖掘有趣 Github 的猫。


有事联系:https://t.me/qumaobot
🍭 #多模态AI #语音理解


🏵 Step-Audio 2 - 端到端音频理解模型

🍥 简介:
Step-Audio 2是一款工业级端到端多模态大语言模型,专注于音频理解和语音对话。支持高精度ASR语音识别、副语言信息和非语音信息的语义推理。具备情感识别能力,可分析用户年龄、情绪等特征实现智能交互。集成工具调用和多模态RAG技术,通过检索文本和音频知识减少幻觉输出,并支持音色切换。在多项音频理解和对话基准测试中达到业界领先水平,提供mini、mini Base和mini Think三个开源版本,采用Apache 2.0许可协议。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #深度学习 #多模态AI


🏵 Tiny Qwen - Qwen模型轻量复现

🍥 简介:
Tiny Qwen 是一个简洁易读的 PyTorch 项目,主要对 Qwen3 和 Qwen2.5-VL 大语言模型进行了轻量级复现。支持纯文本和图像多模态输入,以及稠密与混合专家架构,便于快速上手和学习。项目提供完善的命令行交互体验,适配 GPU 自动部署,代码结构清晰,适合模型原理研究与二次开发。相比官方实现,本项目去除冗余,易于理解,非常适合想深入掌握大模型推理与多模态处理的开发者和研究者。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #汇编语言 #多媒体开发


🏵 FFmpeg汇编课 - FFmpeg汇编入门教学

🍥 简介:
FFmpeg汇编课专注于传授在FFmpeg项目中实际应用的汇编语言知识,适合有C语言基础、希望深入理解底层多媒体处理原理的开发者。课程内容涵盖汇编语法、指针操作、标量与向量计算等基础知识,并结合实际案例,帮助学员逐步掌握FFmpeg内部的高性能优化技巧。通过系列教程与练习,学员不仅能提升底层编程能力,还能为FFmpeg项目做出贡献,非常适合想挑战自我、追求技术深度的音视频开发人员。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #笔记应用 #多端同步


🏵 EasyNotes - 跨平台笔记同步

🍥 简介:
EasyNotes 是一款支持 Windows、Android 和 iOS 的多端笔记应用,具备点对点本地同步和网页服务器同步能力。用户可选择直接在局域网内设备间同步,或通过自建/公网服务器实现远程同步,保障数据灵活流转。应用支持多语言、深色主题、平板适配等功能,移动端有单笔记5MB大小限制。EasyNotes 安装便捷,配置灵活,适合有多设备、跨平台记录和同步需求的个人或小团队使用,极大提升笔记管理效率和数据安全性。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #多模态大模型 #智能推理


🏵 GLM-4.5V/GLM-4.1V-Thinking - 通用视觉语言推理

🍥 简介:
GLM-4.5V 和 GLM-4.1V-Thinking 是新一代视觉语言大模型,支持图像、视频、文档等多模态输入,具备强大的推理与理解能力。模型采用混合训练和强化学习优化,能处理复杂场景下的视觉定位、长文本解析、GUI操作等任务。支持“思考模式”切换,兼顾快速响应与深度推理。产品已开源,配套桌面助手应用和多终端API,便于开发者集成于AI助手、内容分析、智能体等多种应用,实现更智能、全面的多模态交互体验。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🗣 每日羊毛线报 👈


🏵 MMaDA - 多模态扩散语言模型

🍥 简介:
MMaDA 是一系列多模态扩散基础模型,旨在文本推理、多模态理解和文本到图像生成等领域实现卓越性能。它采用统一的扩散架构,无需特定模态组件;引入混合长链思维 (CoT) 微调策略,统一跨模态的 CoT 格式;采用统一的基于策略梯度的 RL 算法 UniGRPO,利用多样化的奖励建模,统一推理和生成任务的后训练,确保性能持续提升。已开源 MMaDA-8B-Base 模型。

🍭 #多模态 #扩散模型 #语言模型


🎈 【进入项目】


🎯 关注频道 🤖 合作/投稿
showcase0.8.gif
20.7 MB
🗣 每日羊毛线报 👈


🏵 LangManus - 社区驱动的AI自动化框架

🍥 简介:
LangManus 是一个社区驱动的开源 AI 自动化框架,致力于将大型语言模型 (LLM) 与网络搜索、网页抓取、Python 代码执行等专业工具相结合。它通过多智能体协作(如协调器、规划器、研究员、编码器等)来完成复杂自动化任务。该框架支持通过 litellm 集成多种 LLM,内置了 Tavily 搜索、Jina 神经搜索、浏览器控制及 Python 执行环境。项目强调源于开源、回馈开源,并带有学术研究性质,探索多智能体领域。

🍭 #AI自动化 #多智能体


🎈 【进入项目】


🎯 关注频道 🤖 合作/投稿
🎈 #工具 | Shotcut - 免费开源跨平台视频编辑器

🎯 简介:
Shotcut是一款自由开源的跨平台影片剪辑软件,适用于FreeBSD、Linux 、MacOS和Microsoft Windows。Shotcut由Dan Dennedy于2011年开始开发,该软件基于Media Lovin' Toolkit,由同一作者于2004年开始开发。(消息源
#Shotcut #视频编辑器 #剪辑 #开源 #多语言

📍 【进入下载】


🫥 关注频道 ⛳️ 频道说明 🎯 投稿机器人
 
 
Back to Top