🏵 VGGT - 从图像快速重建3D场景
🍥 简介:
VGGT (Visual Geometry Grounded Transformer) 是一个前馈神经网络模型(CVPR 2025),它能从单张、少量或大量图像视图中,在几秒内直接推断出场景的关键3D属性,包括相机内外参数、点图、深度图和3D点轨迹。值得注意的是,尽管未针对单视图任务进行训练,该模型在单视图重建上表现优异,性能可与DepthAnything v2等先进方法媲美。项目提供了在H100 GPU上的运行时间和显存占用基准,并建议使用Flash Attention 3优化性能。
🍭 #3D重建 #计算机视觉
🎈 【进入项目】
🎯 关注频道 🤖 合作/投稿