挖掘有趣 Github 的猫。


有事联系:https://t.me/qumao?direct
🍭 #计算机视觉 #深度学习


🏵 DINOv3 - 高效视觉特征提取

🍥 简介:
DINOv3 是 Meta AI 推出的新一代视觉基础模型,采用 PyTorch 实现,支持多种高性能 ViT 和 ConvNeXt 架构。该项目提供丰富的预训练模型,具备高分辨率稠密特征输出,无需微调即可在分类、检测、分割等多项视觉任务上达到领先水平。模型权重可直接通过 PyTorch Hub 或 Hugging Face 加载,支持自定义数据集训练和评估。DINOv3 还配套完整的训练、推理及数据处理工具,适合科研和工业级视觉算法开发使用。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🗣 每日羊毛线报 👈


🏵 LightlyTrain - 自监督视觉模型预训练框架

🍥 简介:
LightlyTrain 是首个专为工业应用设计的 PyTorch 框架,用于在无标签数据上预训练计算机视觉模型。它采用自监督学习技术,让开发者能利用海量的未标注图像或视频数据进行模型预训练,显著减少对昂贵、耗时的人工数据标注的依赖。通过在特定领域数据上预训练,可有效提升模型在下游任务(如分类、检测、分割)中的性能,并加速模型部署。该框架具备良好的扩展性,支持大规模数据集和多GPU环境。

🍭 #自监督学习 #计算机视觉


🎈 【进入项目】


🎯 关注频道 🤖 合作/投稿
🗣 每日羊毛线报 👈


🏵 VGGT - 从图像快速重建3D场景

🍥 简介:
VGGT (Visual Geometry Grounded Transformer) 是一个前馈神经网络模型(CVPR 2025),它能从单张、少量或大量图像视图中,在几秒内直接推断出场景的关键3D属性,包括相机内外参数、点图、深度图和3D点轨迹。值得注意的是,尽管未针对单视图任务进行训练,该模型在单视图重建上表现优异,性能可与DepthAnything v2等先进方法媲美。项目提供了在H100 GPU上的运行时间和显存占用基准,并建议使用Flash Attention 3优化性能。

🍭 #3D重建 #计算机视觉


🎈 【进入项目】


🎯 关注频道 🤖 合作/投稿
 
 
Back to Top