ECCV 2024论文开源项目全面汇总:前沿研究一览无遗
欧洲计算机视觉会议(ECCV)作为计算机视觉领域的顶级学术会议之一,每两年举办一次。ECCV 2024将于今年9月在苏黎世举行,目前录用结果已经公布。本文全面整理了ECCV 2024录用的开源论文及代码,涵盖了计算机视觉各大热门研究方向,为广大研究人员提供了最新最全的学术资源。
3D高斯散射(3D Gaussian Splatting)
3D高斯散射是近期兴起的一种新颖的3D场景表示和渲染方法,在ECCV 2024中有多篇相关论文被录用:
-
MVSplat: Efficient 3D Gaussian Splatting from Sparse Multi-View Images 这篇论文提出了一种从稀疏多视图图像高效重建3D高斯场景的方法。 项目主页 | 论文 | 代码
-
CityGaussian: Real-time High-quality Large-Scale Scene Rendering with Gaussians 该工作实现了大规模城市场景的实时高质量渲染。 论文 | 代码
-
FSGS: Real-Time Few-shot View Synthesis using Gaussian Splatting 这篇论文探索了基于高斯散射的少样本视图合成方法。 项目主页 | 论文 | 代码
Mamba / 状态空间模型(SSM)
Mamba是一种新兴的序列建模架构,在计算机视觉领域也开始有所应用:
-
VideoMamba: State Space Model for Efficient Video Understanding 这篇论文将Mamba应用于视频理解任务。 论文 | 代码
-
ZIGMA: A DiT-style Zigzag Mamba Diffusion Model 该工作提出了一种基于Mamba的图像生成扩散模型。 论文 | 项目主页
多模态大语言模型(MLLM)
多模态大语言模型是近期人工智能领域的研究热点,ECCV 2024也有多篇相关工作:
-
SQ-LLaVA: Self-Questioning for Large Vision-Language Assistant 这篇论文提出了一种自问自答的视觉语言助手模型。 论文 | 代码
-
ControlCap: Controllable Region-level Captioning 该工作实现了可控的区域级图像描述生成。 论文 | 代码
扩散模型(Diffusion Models)
扩散模型在图像生成领域持续发力,ECCV 2024中也有多项相关研究:
-
ZIGMA: A DiT-style Zigzag Mamba Diffusion Model 这篇论文将Mamba架构引入扩散模型。 论文 | 项目主页
-
Skews in the Phenomenon Space Hinder Generalization in Text-to-Image Generation 该工作探讨了文本到图像生成中的泛化问题。 论文 | 代码
-
The Lottery Ticket Hypothesis in Denoising: Towards Semantic-Driven Initialization 这篇论文研究了扩散模型去噪过程中的彩票假说。 项目主页 | 论文 | 代码
Vision Transformer
Transformer在计算机视觉领域的应用持续深入:
GiT: Towards Generalist Vision Transformer through Universal Language Interface 这篇论文提出了一种通用语言接口的通用视觉Transformer模型。 论文 | 代码
目标检测(Object Detection)
目标检测作为计算机视觉的基础任务,在ECCV 2024中也有新的突破:
-
Relation DETR: Exploring Explicit Position Relation Prior for Object Detection 这篇论文探索了显式位置关系先验在目标检测中的应用。 论文 | 代码 | 数据集
-
Cross-Domain Few-Shot Object Detection via Enhanced Open-Set Object Detector 该工作研究了跨域少样本目标检测问题。 项目主页 | 论文 | 代码
语义分割(Semantic Segmentation)
语义分割是计算机视觉的另一个重要任务,ECCV 2024也有相关创新:
Context-Guided Spatial Feature Reconstruction for Efficient Semantic Segmentation 这篇论文提出了一种基于上下文引导的空间特征重建方法,用于高效语义分割。 论文 | 代码
医学图像(Medical Image)
医学图像分析是计算机视觉在医疗领域的重要应用,ECCV 2024中有多项相关研究:
-
Brain-ID: Learning Contrast-agnostic Anatomical Representations for Brain Imaging 这篇论文研究了脑成像的对比度无关解剖表征学习。 论文 | 代码
-
FairDomain: Achieving Fairness in Cross-Domain Medical Image Segmentation and Classification 该工作探讨了跨域医学图像分割和分类中的公平性问题。 项目主页 | 论文 | 数据集 | 代码
-
ScribblePrompt: Fast and Flexible Interactive Segmentation for Any Biomedical Image 这篇论文提出了一种快速灵活的生物医学图像交互式分割方法。 项目主页 | 论文 | 代码
视频目标分割(Video Object Segmentation)
视频目标分割是视频理解的重要任务之一:
DVIS-DAQ: Improving Video Segmentation via Dynamic Anchor Queries 这篇论文提出了一种基于动态锚点查询的视频分割改进方法。 项目主页 | 论文 | 代码
自动驾驶(Autonomous Driving)
自动驾驶是计算机视觉的重要应用领域,ECCV 2024中有多项相关研究:
-
Fully Sparse 3D Occupancy Prediction 这篇论文提出了一种全稀疏3D占据预测方法。 论文 | 代码
-
milliFlow: Scene Flow Estimation on mmWave Radar Point Cloud for Human Motion Sensing 该工作研究了毫米波雷达点云上的场景流估计,用于人体运动感知。 论文 | 代码
-
4D Contrastive Superflows are Dense 3D Representation Learners 这篇论文提出了一种基于4D对比超流的密集3D表征学习方法。 论文 | 代码
3D目标检测(3D Object Detection)
3D目标检测在自动驾驶等领域有重要应用:
-
3D Small Object Detection with Dynamic Spatial Pruning 这篇论文提出了一种动态空间剪枝的3D小目标检测方法。 项目主页 | 论文 | 代码
-
Ray Denoising: Depth-aware Hard Negative Sampling for Multi-view 3D Object Detection 该工作提出了一种深度感知的硬负样本采样方法,用于多视图3D目标检测。 论文 | 代码
图像编辑(Image Editing)
图像编辑是计算机视觉的重要应用之一:
BrushNet: A Plug-and-Play Image Inpainting Model with Decomposed Dual-Branch Diffusion 这篇论文提出了一种即插即用的图像修复模型,基于分解的双分支扩散。 项目主页 | 论文 | 代码
Low-level Vision
低层视觉任务在计算机视觉中具有基础性作用:
-
Restoring Images in Adverse Weather Conditions via Histogram Transformer 这篇论文提出了一种基于直方图Transformer的恶劣天气图像恢复方法。 论文 | 代码
-
OneRestore: A Universal Restoration Framework for Composite Degradation 该工作提出了一种通用的复合退化图像恢复框架。 项目主页 | 论文 | 代码
图像生成(Image Generation)
图像生成是近年来计算机视觉和人工智能的热门研究方向:
-
Object-Conditioned Energy-Based Attention Map Alignment in Text-to-Image Diffusion Models 这篇论文研究了文本到图像扩散模型中的对象条件能量基注意力图对齐。 论文 | 代码
-
Every Pixel Has its Moments: Ultra-High-Resolution Unpaired Image-to-Image Translation via Dense Normalization 该工作提出了一种基于密集归一化的超高分辨率无配对图像到图像翻译方法。 项目主页 | 论文 | 代码
视频生成(Video Generation)
视频生成是图像生成的自然延伸,也是当前的研究热点:
VideoStudio: Generating Consistent-Content and Multi-Scene Videos 这篇论文提出了一种生成内容一致和多场景视频的方法。