#CVPR 2024

DriveLM - 自主驾驶图形视觉问答新进展
DriveLMGraph VQA自主驾驶CVPR 2024nuScenesGithub开源项目
DriveLM项目集成nuScenes和CARLA数据集,提出基于VLM的图形视觉问答方法,实现图形VQA和端到端驾驶。作为CVPR 2024自主驾驶挑战的主要赛道,提供了基准、测试数据、提交格式和评估流程,帮助解决数据缺乏和闭环规划问题。了解DriveLM的关键特性、主要优势及最新更新,推动多模态模型在现实应用中的发展。
CVPR2024-Papers-with-Code - 探索CVPR 2024最新发布的计算机视觉论文与代码集锦
CVPR 2024计算机视觉人工智能机器学习深度学习Github开源项目
CVPR 2024的论文和代码集锦,涵盖3D建模、机器学习、视觉感知等多种计算机视觉领域,为研究人员和技术开发者提供一站式检索最新科研成果与实用工具。
CVPR2024-Papers-with-Code-Demo - 最新CVPR论文及其代码全面解析
CVPR 2024论文Diffusion Model知识蒸馏多模态Github开源项目
CVPR2024-Papers-with-Code-Demo项目整合了CVPR会议的最新论文和开源代码,覆盖机器学习、计算机视觉等多个领域,提供丰富的论文资源和代码链接。适合学者和开发者深入探讨和应用最新科研成果。
mPLUG-Owl - 模块化多模态大型语言模型
mPLUG-OwlmPLUG-Owl2多模态大语言模型模块化CVPR 2024Github开源项目
mPLUG-Owl系列模型通过模块化强化其多模具集成,提升大型语言模型的功能。mPLUG-Owl2在CVPR 2024获得突出展示,而最新的mPLUG-Owl2.1则针对中文模式进行了优化,已在HuggingFace平台推出。
awesome-nerf-editing - 介绍最新的辐射场编辑技术与资源
Neural Radiance Fields3D编辑ECCV 2024CVPR 2024Gaussian SplattingGithub开源项目
本项目汇集了辐射场编辑领域的开创性研究成果、调查报告和最新进展。涵盖ECCV、SIGGRAPH、CVPR等顶级会议,提供不断更新的资源和文献。专业研究人员和爱好者均可在此找到关于NeRF和3D Gaussian Splatting技术的详尽信息。欢迎关注项目动态,并通过提交Issues或Pull Requests参与讨论和维护。
UniDepth - 单目深度测量的通用算法,兼容多种数据集
UniDepth深度估计CVPR 2024Python包Hugging FaceGithub开源项目
UniDepth项目提出了通用的单目深度测量方法,支持多个数据集如NYUv2、KITTI和SUN-RGBD。通过训练模型,该方法可直接从RGB图像生成深度和内参预测,无需预先深度数据。其高精度、低延迟的推理能力在多个基准测试中表现优秀。支持多种输入形状和比例,适合机器人视觉和自动驾驶等应用。
mickey - 通过2D图像匹配恢复3D场景的相对位姿
MicKeyCVPR 2024相对位姿特征检测NianticGithub开源项目
该项目介绍了MicKey,这是一种在CVPR 2024上发布的特征检测管道。MicKey通过描述符匹配实现度量对应,并可以恢复精确的相对位姿。其在端到端训练中仅需图像对及其相对位姿真值,主要针对AR即时定位进行了优化。在Map-free基准测试中,MicKey的性能得到了验证,大大简化了3D地图构建流程。
CVPR-2023-24-Papers - 汇集CVPR 2024会议的最新计算机视觉与深度学习研究
CVPR 2024计算机视觉深度学习研究论文GitHubGithub开源项目
构建CVPR 2024会议最新研究论文的全面合集,涵盖计算机视觉和深度学习领域的最新进展。提供代码实现,适用于科研和开发,助力推动视觉智能的发展。
GaussianDreamer - 通过桥接 2D 和 3D 扩散模型从文本快速生成到 3D 高斯
GaussianDreamer3D生成2D扩散模型3D扩散模型CVPR 2024Github开源项目
本文客观介绍了通过整合2D和3D扩散模型的快速3D对象生成框架GaussianDreamer。3D扩散模型提供初始几何信息,而2D扩散模型则增强了其几何和外观。GaussianDreamer在单个GPU上可在15分钟内生成高质量的3D实例,比现有方法更快。生成的3D实例支持实时渲染,可方便地整合到动画和仿真管道中。
visual_anagrams - 扩散模型生成多视角光学幻象图像
Visual Anagrams多视角光学幻象DeepFloyddiffusion模型CVPR 2024Github开源项目
Visual Anagrams是一个开源项目,使用扩散模型生成多视角光学幻象图像。这些图像在旋转、颜色反转或拼图重排等变换下会改变外观或身份。项目提供代码生成多种类型的幻象,如90度旋转、翻转、拼图、内圆和颜色反转等。通过选择提示词和视图类型,可以创建独特的幻象效果。项目还提供Colab演示,方便用户尝试和体验。
awesome-cvpr-2024 - CVPR 2024计算机视觉前沿进展集锦
CVPR 2024计算机视觉人工智能深度学习机器学习Github开源项目
该项目汇总了CVPR 2024会议的重要论文、挑战赛和教程。涵盖计算机视觉领域多个前沿方向,包括视觉变换器、视觉语言模型和3D重建等。为研究人员和从业者提供了解计算机视觉最新进展的全面资源,展现了该领域的创新趋势和突破性成果。
Smooth-Diffusion - 提升扩散模型潜在空间平滑性的新方法
Smooth Diffusion扩散模型图像生成潜在空间CVPR 2024Github开源项目
Smooth Diffusion是一种创新的扩散模型技术,通过优化潜在空间的平滑性来提升模型性能。这种方法在图像插值、反演和编辑任务中展现出显著优势,实现了更连续的过渡效果、更低的反演误差,以及更好的未修改内容保留。通过在训练过程中引入变化约束,Smooth Diffusion为扩散模型研究开辟了新方向。
Ranni - 将文本指令精确转化为图像的AI生成技术
Ranni文本生成图像AI绘画语义理解CVPR 2024Github开源项目
Ranni是一个创新的文本到图像生成项目,结合大型语言模型和扩散模型,提高了指令理解和图像生成的精确度。该项目由规划模型和绘画模型组成,可将文本指令准确转化为视觉元素。除了生成高质量图像,Ranni还支持交互式编辑,方便调整生成结果。项目已开源模型权重,包含经LoRA微调的LLaMa-2-7B和全面微调的SDv2.1模型。
Video-P2P - 跨注意力控制实现高质量视频内容转换技术
Video-P2P视频编辑跨注意力控制人工智能CVPR 2024Github开源项目
Video-P2P是一个发表于CVPR 2024的视频编辑项目,通过跨注意力控制机制实现视频内容的高质量转换。该项目提供快速和稳定两种运行模式,支持物体替换、风格转换等多种编辑场景。项目团队公开了相关数据集和在线演示,为研究人员和开发者提供了实用资源,促进了视频编辑技术的进步。
murf - 多基线辐射场技术革新三维场景重建
MuRF多基线辐射场计算机视觉3D重建CVPR 2024Github开源项目
MuRF是一种新型多基线辐射场技术,支持多种基线设置,在各类评估条件下表现卓越。该项目在三维场景重建领域取得突破,推动了计算机视觉和图形学的发展。MuRF在DTU、RealEstate10K和LLFF等数据集上展现出优异性能,为相关研究和应用提供了新思路。
RT-DETR - 超越YOLO的实时目标检测算法领域突破
RT-DETR实时目标检测CVPR 2024物体识别深度学习Github开源项目
RT-DETR是一个开源的实时目标检测算法项目,在性能上超越了YOLO系列。它提供多种模型变体,从轻量级R18到大型X模型,适应不同应用需求。在COCO和Objects365数据集上,RT-DETR展现出卓越性能,最高达到56.2mAP和217FPS。项目同时支持PyTorch和PaddlePaddle框架,便于研究和应用。
LAMP - 少量样本视频生成的创新技术
LAMP视频生成少样本学习动作模式CVPR 2024Github开源项目
LAMP是一种基于少量样本的视频生成技术,仅需8-16个视频和1个GPU即可训练。该方法可学习特定运动模式,用于文本到视频生成和视频编辑,能创造奔马、烟花等多种动态效果。LAMP为资源受限情况下的视频生成提供了新的解决方案,在视频生成领域具有重要意义。
SpaTracker - 将2D像素的3D空间运动轨迹可视化
SpatialTracker3D追踪计算机视觉CVPR 2024像素追踪Github开源项目
SpaTracker是一个计算机视觉项目,可在3D空间中追踪视频中任意2D像素的运动轨迹。该项目支持RGB和RGBD视频输入,采用单目深度估计技术实现像素级追踪。SpaTracker提供演示代码和预训练模型,可视化效果优秀。这一工具可应用于动作分析和视觉特效等领域。该项目在CVPR 2024被评为亮点论文,体现了其在3D视觉追踪领域的创新性。
MonoGS - 基于3D高斯分布的实时场景重建与定位系统
Gaussian Splatting SLAMCVPR 2024单目SLAM3D重建实时视觉定位Github开源项目
MonoGS是一个基于3D高斯分布的SLAM系统,支持单目、双目和RGB-D输入。该系统实现了实时稠密三维重建和精确相机定位,在室内场景中表现优异。通过高斯分布表示三维场景,MonoGS采用创新优化方法实现高效场景更新和渲染。作为CVPR 2024亮点论文,MonoGS展示了在计算机视觉和机器人领域的应用前景。