#深度估计
monodepth2 - 基于自监督学习的单目深度估计实现
Monodepth2深度估计PyTorch自监督学习计算机视觉Github开源项目
本项目提供了PyTorch实现的代码,用于训练和测试深度估计模型。代码采用自监督学习方法,支持单目和立体图像的深度预测。提供多种预训练模型和自定义数据集,兼容不同的图像分辨率。适用于研究和非商业用途,包含详细的设置指南、训练和评估说明。用户可通过此项目高效开发和优化深度估计模型。
acezero - 基于增量学习的图像集合场景重建与姿态估计方法
ACE0PyTorch深度估计场景坐标重建相机注册Github开源项目
该项目提出了一种基于增量学习的场景坐标重建方法,结合了RANSAC和DSAC*算法,实现了高精度的图像姿态估计。ACE0提供了丰富的实验数据和可视化工具,支持部分重建和自监督重定位等高级用例。项目代码基于PyTorch实现,并已在Ubuntu 20.04和多种GPU环境下测试。
UniDepth - 单目深度测量的通用算法,兼容多种数据集
UniDepth深度估计CVPR 2024Python包Hugging FaceGithub开源项目
UniDepth项目提出了通用的单目深度测量方法,支持多个数据集如NYUv2、KITTI和SUN-RGBD。通过训练模型,该方法可直接从RGB图像生成深度和内参预测,无需预先深度数据。其高精度、低延迟的推理能力在多个基准测试中表现优秀。支持多种输入形状和比例,适合机器人视觉和自动驾驶等应用。
Marigold - 基于扩散模型的单目深度估计新方法
Marigold深度估计扩散模型单目计算机视觉Github开源项目
Marigold项目开发了一种基于扩散模型的单目深度估计方法。该方法利用Stable Diffusion中的视觉知识,通过合成数据微调,实现了对未见数据的零样本迁移。Marigold不仅提供了高精度的深度估计结果,还包含快速推理版本,为计算机视觉领域提供了新的研究方向。
Depth-Anything-V2 - 单目深度估计新突破,高精度与快速推理并重
Depth Anything V2深度估计计算机视觉预训练模型开源项目Github
Depth-Anything-V2是单目深度估计领域的新进展。该模型在细节表现和鲁棒性上显著优于V1版本,并在推理速度、参数量和深度精度方面超越了基于SD的模型。项目提供四种预训练模型,适用于相对和度量深度估计,可处理图像和视频。此外,发布的DA-2K基准为深度估计研究设立了新标准。
Depth-Anything - 大规模无标注数据驱动的强大单目深度估计模型
Depth Anything深度估计计算机视觉人工智能图像处理Github开源项目
Depth Anything是一款基于大规模数据训练的单目深度估计模型。它利用150万标注图像和6200万无标注图像进行训练,提供小型、中型和大型三种预训练模型。该模型不仅支持相对深度和度量深度估计,还可用于ControlNet深度控制、场景理解和视频深度可视化等任务。在多个基准数据集上,Depth Anything的性能超越了此前最佳的MiDaS模型,展现出优异的鲁棒性和准确性。
3D-deformable-attention - 3D可变形注意力技术提升自动驾驶物体检测精度
DFA3D特征提升3D目标检测BEVFormer深度估计Github开源项目
3D-deformable-attention项目提出了3D可变形注意力(DFA3D)操作符,用于2D到3D特征提升。该方法首先利用深度估计将2D特征扩展到3D空间,再通过DFA3D聚合3D特征。这种方法缓解了深度歧义问题,并支持逐层特征细化。在多个基准测试中,DFA3D平均提高1.41 mAP,高质量深度信息下最高提升15.1 mAP。研究结果显示DFA3D在自动驾驶3D目标检测等任务中具有较大潜力。
marigold-depth-lcm-v1-0 - 基于扩散技术的单目深度估计模型实现零样本迁移
模型扩散模型图像生成Github深度估计Marigold单目深度估计开源项目Huggingface
Marigold-depth-lcm-v1-0是一个创新的单目深度估计模型,基于扩散技术开发。该模型利用Stable Diffusion的视觉知识,通过合成数据微调,实现了对未见数据的零样本迁移能力。在单目深度估计任务中,Marigold展现出优异性能,为计算机视觉领域提供了新的深度估计解决方案。这一成果不仅推动了单目深度估计技术的发展,还展示了扩散模型在此领域的巨大潜力。
dpt-beit-base-384 - 基于BEiT主干的DPT模型实现单目深度估计
图像处理神经网络计算机视觉深度估计Huggingface模型Github开源项目DPT
DPT (Dense Prediction Transformer) 是一个基于BEiT主干的模型,专门用于单目深度估计。该模型在140万张图像上训练,可进行零样本深度估计。采用Transformer架构,具备强大的密集预测能力,能生成高质量深度图。模型可通过Python代码或pipeline API轻松使用,为计算机视觉任务提供了有力工具。
Depth-Anything-V2-Large - 单目深度估计新突破:高精度细节与高效性能的完美平衡
模型计算机视觉Github神经网络图像处理深度估计Huggingface开源项目Depth Anything V2
Depth-Anything-V2-Large是一款基于大规模数据训练的单目深度估计模型。该模型通过595K合成标记图像和62M+真实未标记图像的训练,在细节精度和鲁棒性方面超越了前代版本。与基于SD的模型相比,它不仅更加高效和轻量,处理速度提升了10倍,还在预训练基础上展现出优秀的微调能力。这一模型为计算机视觉领域提供了性能卓越的深度估计解决方案。
zoedepth-nyu-kitti - 基于DPT框架的深度估计神经网络
ZoeDepth图像处理计算机视觉深度估计深度学习模型GithubHuggingface开源项目
ZoeDepth-nyu-kitti是一个基于DPT框架开发的深度估计模型,通过NYU和KITTI数据集进行微调。该模型结合相对深度和度量深度估计方法,可输出实际度量值的深度数据,支持零样本单目深度估计应用。模型提供pipeline API接口,便于集成使用。通过扩展DPT框架的功能,实现了从相对深度到度量深度的转换。
Depth-Anything-V2-Base - 更快更精细的单目深度估计模型
图像处理计算机视觉深度估计深度学习模型GithubDepth-Anything-V2Huggingface开源项目
Depth-Anything-V2是一款先进的单目深度估计模型,由595K合成标记图像和62M+真实未标记图像训练而成。它在细节表现、鲁棒性和效率上都超越了V1版本,处理速度比基于SD的模型快10倍。采用ViT-B架构,该模型为计算机视觉领域提供了高效的深度预测工具,尤其适用于需要精确深度信息的应用场景。
depth_anything_vitl14 - 先进的计算机视觉深度估计开源框架
图像处理计算机视觉开源项目深度学习模型深度估计Depth AnythingGithubHuggingface
depth_anything_vitl14是一个深度估计模型框架,专注于从单张图像中提取深度信息。该框架采用大规模无标记数据训练方式,具备完整的模型部署文档和Python接口。开发者可通过简单的代码调用实现图像深度估计,项目同时提供在线演示平台和技术文档支持。
depth_anything_vits14 - 大规模无标签数据训练的开源深度估计工具
图像处理计算机视觉开源项目模型深度估计Depth Anything深度感知GithubHuggingface
Depth Anything是一个基于ViT-L/14架构的深度估计模型,通过大规模无标签数据训练。模型提供Python接口,支持518x518分辨率的图像深度估计,具备良好的泛化能力。采用模块化设计,支持自定义图像预处理和批量处理功能,可集成到现有项目中。研究人员和开发者可通过Hugging Face平台快速部署使用。
control_v11f1p_sd15_depth - 基于深度图的ControlNet模型为Stable Diffusion提供精准深度控制
Stable DiffusionGithub开源项目图像生成模型ControlNetHuggingface图像处理深度估计
control_v11f1p_sd15_depth是ControlNet v1.1系列的深度图控制模型。它通过深度信息精确控制图像生成,支持多种深度估计方法。相比1.0版本,新模型优化了训练数据,提高了预处理器兼容性,增强了通用性和鲁棒性。该模型可与Stable Diffusion等扩散模型配合使用,为图像生成提供精确的深度控制。
sd-controlnet-depth - 结合深度估计的文本到图像扩散模型
深度估计稳定扩散开源项目条件控制ControlNet图像生成Github模型Huggingface
ControlNet通过深度估计条件增强了Stable Diffusion等模型,允许在个人设备和高性能集群上进行快速训练,即使数据集较小。开发者Lvmin Zhang与Maneesh Agrawala提出的模型具有灵活性,加强了扩散模型的控制方式,推进应用实现。其多种检查点以不同条件训练,提供精细的生成控制。
相关文章