挖掘有趣 Github 的猫。


有事联系:https://t.me/qumaobot
🍭 #图像地理定位 #视觉语言模型


🏵 GeoAgent - 图像地理定位


🍥 简介:
GeoAgent是一款视觉语言模型,专为图像地理定位而设计。该模型支持与用户协作,能够高效推断图像中目标的精确地理位置。它基于Qwen2.5-VL构建,在城市、区域、国家及大陆等多个地理层级上均展现出卓越的定位精度,并能生成清晰可理解的推理逻辑。


🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #视觉语言模型 #边缘计算


🏵 moondream - 轻量视觉语言模型

🍥 简介:
moondream是一款开源轻量级视觉语言模型,具备强大的图像理解能力且模型体积小巧。提供2B和0.5B两种参数规格,支持图像描述、视觉问答和物体检测等任务。特别优化的0.5B版本专为边缘设备设计,可在资源受限的硬件上高效运行。该模型具有高度可移植性,既能本地部署也可云端运行,适用于多种应用场景,实现在各类设备上的快速推理。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🗣 每日羊毛线报 👈


🏵 SkyReels-V2 - 无限长度影片生成模型

🍥 简介:
SkyReels-V2 是一款开源的无限长度影片生成模型,据称是首个采用自回归扩散强制(AutoRegressive Diffusion-Forcing)架构的开源实现。它旨在解决现有模型在视频时长、动作质量、视觉效果与电影化叙事理解上的瓶颈。该项目融合多模态大语言模型(MLLM)、多阶段预训练、强化学习及扩散强制等技术,并通过自研的 SkyCaptioner-V1 进行精细化视频标注。其目标是生成高质量、长时序、强一致性且符合提示的电影风格视频,支持故事生成、图生视频等应用。

🍭 #视频生成 #AI电影


🎈 【进入项目】


🎯 关注频道 🤖 合作/投稿
 
 
Back to Top