#CVPR 2024

mPLUG-Owl学习资料汇总 - 强大的多模态大语言模型家族

1 个月前

mPLUG-Owl是一个强大的多模态大语言模型家族,包括mPLUG-Owl、mPLUG-Owl2和mPLUG-Owl3三个版本。本文汇总了mPLUG-Owl的相关学习资源,帮助读者快速了解和使用这个模型。

mPLUG-Owl mPLUG-Owl2 多模态大语言模型模块化 CVPR 2024 Github 开源项目

1 个月前

CVPR2024-Papers-with-Code学习资料汇总 - 计算机视觉顶会论文与代码合集

1 个月前

本文汇总了CVPR2024-Papers-with-Code项目的主要内容和学习资源,包括项目简介、论文分类、代码链接等,为计算机视觉研究人员和爱好者提供了便捷的学习参考。

CVPR 2024 计算机视觉人工智能机器学习深度学习 Github 开源项目

1 个月前

LAMP: 一种革命性的少样本视频生成方法

2 个月前

LAMP是一种基于少量样本的文本到视频生成方法，只需8-16个视频和1个GPU就能学习运动模式并生成高质量视频。本文详细介绍了LAMP的原理、使用方法和应用前景。

LAMP 视频生成少样本学习动作模式 CVPR 2024 Github 开源项目

2 个月前

SpatialTracker: 在3D空间中追踪任意2D像素的突破性技术

2 个月前

探索CVPR 2024亮点论文SpatialTracker的创新方法,实现从2D视频到3D轨迹的精确追踪,为计算机视觉领域带来全新可能。

SpatialTracker 3D追踪计算机视觉 CVPR 2024 像素追踪 Github 开源项目

2 个月前

Video-P2P:突破性视频编辑技术的革新之作

2 个月前

Video-P2P是一项创新的视频编辑框架,通过交叉注意力控制实现了对真实世界视频的精确编辑。它克服了当前缺乏大规模视频生成模型的限制,巧妙地将图像生成扩散模型应用于视频编辑任务,为视频创作者提供了强大而灵活的编辑工具。

Video-P2P 视频编辑跨注意力控制人工智能 CVPR 2024 Github 开源项目

2 个月前

CVPR2024-Papers-with-Code-Demo 学习资料汇总 - 最新计算机视觉论文代码合集

1 个月前

本文汇总了CVPR2024-Papers-with-Code-Demo项目的各类学习资源,包括GitHub仓库、论文列表、代码实现等,帮助读者快速了解和学习CVPR 2024最新的计算机视觉研究成果。

CVPR 2024 论文 Diffusion Model 知识蒸馏多模态 Github 开源项目

1 个月前

DriveLM入门指南-基于图视觉问答的自动驾驶模型

1 个月前

DriveLM是一个基于图视觉问答(GVQA)的自动驾驶模型,旨在通过语言理解和推理来实现端到端的自动驾驶。本文汇总了DriveLM项目的学习资源,帮助读者快速入门这一前沿技术。

DriveLM Graph VQA 自主驾驶 CVPR 2024 nuScenes Github 开源项目

1 个月前

MonoGS: 革命性的高斯飞溅SLAM技术

2 个月前

探索CVPR 2024亮点项目MonoGS，一种基于3D高斯飞溅的创新单目SLAM系统，为计算机视觉和机器人领域带来突破性进展。

Gaussian Splatting SLAM CVPR 2024 单目SLAM 3D重建实时视觉定位 Github 开源项目

2 个月前

RT-DETR: 实时目标检测的新突破

2 个月前

RT-DETR是一种基于Transformer的实时目标检测模型,在速度和精度上都超越了YOLO系列,成为目前最先进的实时目标检测器。

RT-DETR 实时目标检测 CVPR 2024 物体识别深度学习 Github 开源项目

2 个月前

CVPR 2024人工智能生成内容(AIGC)研究进展综述

2 个月前

本文全面梳理了CVPR 2024会议中人工智能生成内容(AIGC)相关的最新研究进展,包括图像生成、视频生成、3D生成等多个热点方向,为读者提供了AIGC领域的前沿综述。

CVPR 2024 计算机视觉人工智能深度学习机器学习 Github 开源项目

2 个月前

相关项目

CVPR2024-Papers-with-Code

CVPR 2024的论文和代码集锦，涵盖3D建模、机器学习、视觉感知等多种计算机视觉领域，为研究人员和技术开发者提供一站式检索最新科研成果与实用工具。

CVPR2024-Papers-with-Code-Demo

CVPR2024-Papers-with-Code-Demo项目整合了CVPR会议的最新论文和开源代码，覆盖机器学习、计算机视觉等多个领域，提供丰富的论文资源和代码链接。适合学者和开发者深入探讨和应用最新科研成果。

mPLUG-Owl

mPLUG-Owl系列模型通过模块化强化其多模具集成，提升大型语言模型的功能。mPLUG-Owl2在CVPR 2024获得突出展示，而最新的mPLUG-Owl2.1则针对中文模式进行了优化，已在HuggingFace平台推出。

awesome-nerf-editing

本项目汇集了辐射场编辑领域的开创性研究成果、调查报告和最新进展。涵盖ECCV、SIGGRAPH、CVPR等顶级会议，提供不断更新的资源和文献。专业研究人员和爱好者均可在此找到关于NeRF和3D Gaussian Splatting技术的详尽信息。欢迎关注项目动态，并通过提交Issues或Pull Requests参与讨论和维护。

UniDepth

UniDepth项目提出了通用的单目深度测量方法，支持多个数据集如NYUv2、KITTI和SUN-RGBD。通过训练模型，该方法可直接从RGB图像生成深度和内参预测，无需预先深度数据。其高精度、低延迟的推理能力在多个基准测试中表现优秀。支持多种输入形状和比例，适合机器人视觉和自动驾驶等应用。

mickey

该项目介绍了MicKey，这是一种在CVPR 2024上发布的特征检测管道。MicKey通过描述符匹配实现度量对应，并可以恢复精确的相对位姿。其在端到端训练中仅需图像对及其相对位姿真值，主要针对AR即时定位进行了优化。在Map-free基准测试中，MicKey的性能得到了验证，大大简化了3D地图构建流程。

CVPR-2023-24-Papers

GaussianDreamer

本文客观介绍了通过整合2D和3D扩散模型的快速3D对象生成框架GaussianDreamer。3D扩散模型提供初始几何信息，而2D扩散模型则增强了其几何和外观。GaussianDreamer在单个GPU上可在15分钟内生成高质量的3D实例，比现有方法更快。生成的3D实例支持实时渲染，可方便地整合到动画和仿真管道中。

DriveLM

DriveLM项目集成nuScenes和CARLA数据集，提出基于VLM的图形视觉问答方法，实现图形VQA和端到端驾驶。作为CVPR 2024自主驾驶挑战的主要赛道，提供了基准、测试数据、提交格式和评估流程，帮助解决数据缺乏和闭环规划问题。了解DriveLM的关键特性、主要优势及最新更新，推动多模态模型在现实应用中的发展。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com