#CVPR 2024

mPLUG-Owl学习资料汇总 - 强大的多模态大语言模型家族

2024年09月10日

mPLUG-Owl mPLUG-Owl2 多模态大语言模型模块化 CVPR 2024 Github 开源项目

2024年09月10日

CVPR2024-Papers-with-Code-Demo 学习资料汇总 - 最新计算机视觉论文代码合集

2024年09月10日

CVPR 2024 论文 Diffusion Model 知识蒸馏多模态 Github 开源项目

2024年09月10日

CVPR2024-Papers-with-Code学习资料汇总 - 计算机视觉顶会论文与代码合集

2024年09月10日

CVPR 2024 计算机视觉人工智能机器学习深度学习 Github 开源项目

2024年09月10日

DriveLM入门指南-基于图视觉问答的自动驾驶模型

2024年09月10日

DriveLM Graph VQA 自主驾驶 CVPR 2024 nuScenes Github 开源项目

2024年09月10日

LAMP: 一种革命性的少样本视频生成方法

2024年09月05日

LAMP 视频生成少样本学习动作模式 CVPR 2024 Github 开源项目

2024年09月05日

MonoGS: 革命性的高斯飞溅SLAM技术

2024年09月05日

Gaussian Splatting SLAM CVPR 2024 单目SLAM 3D重建实时视觉定位 Github 开源项目

2024年09月05日

SpatialTracker: 在3D空间中追踪任意2D像素的突破性技术

2024年09月05日

SpatialTracker 3D追踪计算机视觉 CVPR 2024 像素追踪 Github 开源项目

2024年09月05日

RT-DETR: 实时目标检测的新突破

2024年09月05日

RT-DETR 实时目标检测 CVPR 2024 物体识别深度学习 Github 开源项目

2024年09月05日

Video-P2P:突破性视频编辑技术的革新之作

2024年09月05日

Video-P2P 视频编辑跨注意力控制人工智能 CVPR 2024 Github 开源项目

2024年09月05日

CVPR 2024人工智能生成内容(AIGC)研究进展综述

2024年09月05日

CVPR 2024 计算机视觉人工智能深度学习机器学习 Github 开源项目

2024年09月05日

相关项目

CVPR2024-Papers-with-Code

CVPR 2024的论文和代码集锦，涵盖3D建模、机器学习、视觉感知等多种计算机视觉领域，为研究人员和技术开发者提供一站式检索最新科研成果与实用工具。

CVPR2024-Papers-with-Code-Demo

CVPR2024-Papers-with-Code-Demo项目整合了CVPR会议的最新论文和开源代码，覆盖机器学习、计算机视觉等多个领域，提供丰富的论文资源和代码链接。适合学者和开发者深入探讨和应用最新科研成果。

mPLUG-Owl

mPLUG-Owl系列模型通过模块化强化其多模具集成，提升大型语言模型的功能。mPLUG-Owl2在CVPR 2024获得突出展示，而最新的mPLUG-Owl2.1则针对中文模式进行了优化，已在HuggingFace平台推出。

awesome-nerf-editing

本项目汇集了辐射场编辑领域的开创性研究成果、调查报告和最新进展。涵盖ECCV、SIGGRAPH、CVPR等顶级会议，提供不断更新的资源和文献。专业研究人员和爱好者均可在此找到关于NeRF和3D Gaussian Splatting技术的详尽信息。欢迎关注项目动态，并通过提交Issues或Pull Requests参与讨论和维护。

UniDepth

UniDepth项目提出了通用的单目深度测量方法，支持多个数据集如NYUv2、KITTI和SUN-RGBD。通过训练模型，该方法可直接从RGB图像生成深度和内参预测，无需预先深度数据。其高精度、低延迟的推理能力在多个基准测试中表现优秀。支持多种输入形状和比例，适合机器人视觉和自动驾驶等应用。

mickey

该项目介绍了MicKey，这是一种在CVPR 2024上发布的特征检测管道。MicKey通过描述符匹配实现度量对应，并可以恢复精确的相对位姿。其在端到端训练中仅需图像对及其相对位姿真值，主要针对AR即时定位进行了优化。在Map-free基准测试中，MicKey的性能得到了验证，大大简化了3D地图构建流程。

CVPR-2023-24-Papers

构建CVPR 2024会议最新研究论文的全面合集，涵盖计算机视觉和深度学习领域的最新进展。提供代码实现，适用于科研和开发，助力推动视觉智能的发展。

GaussianDreamer

本文客观介绍了通过整合2D和3D扩散模型的快速3D对象生成框架GaussianDreamer。3D扩散模型提供初始几何信息，而2D扩散模型则增强了其几何和外观。GaussianDreamer在单个GPU上可在15分钟内生成高质量的3D实例，比现有方法更快。生成的3D实例支持实时渲染，可方便地整合到动画和仿真管道中。

DriveLM

DriveLM项目集成nuScenes和CARLA数据集，提出基于VLM的图形视觉问答方法，实现图形VQA和端到端驾驶。作为CVPR 2024自主驾驶挑战的主要赛道，提供了基准、测试数据、提交格式和评估流程，帮助解决数据缺乏和闭环规划问题。了解DriveLM的关键特性、主要优势及最新更新，推动多模态模型在现实应用中的发展。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com