Project Icon

ECCV2024-Papers-with-Code

ECCV 2024开源项目与论文合集

探索ECCV 2024的最新论文和开源项目,其中涵盖3D点云、自动驾驶、GAN和Vision Transformer等领域。ECCV 2024展示了前沿的计算机视觉和深度学习研究成果,提供论文和代码链接,帮助研究人员和开发者紧跟技术前沿。加入CVer学术交流群,与顶尖学者交流并获取最新的学习资料。

ECCV 2024 论文和开源项目合集(Papers with Code)

ECCV 2024 decisions are now available!

注1:欢迎各位大佬提交issue,分享ECCV 2024论文和开源项目!

注2:关于往年CV顶会论文以及其他优质CV论文和大盘点,详见: https://github.com/amusi/daily-paper-computer-vision

想看ECCV 2024和最新最全的顶会工作,欢迎扫码加入【CVer学术交流群】,这是最大的计算机视觉AI知识星球!每日更新,第一时间分享最新最前沿的计算机视觉、深度学习、自动驾驶、医疗影像和AIGC等方向的学习资料,学起来!

【ECCV 2024 论文开源目录】

3DGS(Gaussian Splatting)

MVSplat: Efficient 3D Gaussian Splatting from Sparse Multi-View Images

CityGaussian: Real-time High-quality Large-Scale Scene Rendering with Gaussians

FSGS: Real-Time Few-shot View Synthesis using Gaussian Splatting

Mamba / SSM

VideoMamba: State Space Model for Efficient Video Understanding

ZIGMA: A DiT-style Zigzag Mamba Diffusion Model

Avatars

Backbone

CLIP

MAE

Embodied AI

GAN

OCR

Bridging Synthetic and Real Worlds for Pre-training Scene Text Detectors

PosFormer: Recognizing Complex Handwritten Mathematical Expression with Position Forest Transformer

Occupancy

Fully Sparse 3D Occupancy Prediction

NeRF

NeRF-MAE: Masked AutoEncoders for Self-Supervised 3D Representation Learning for Neural Radiance Fields

DETR

Prompt

多模态大语言模型(MLLM)

SQ-LLaVA: Self-Questioning for Large Vision-Language Assistant

ControlCap: Controllable Region-level Captioning

大语言模型(LLM)

NAS

ReID(重识别)

扩散模型(Diffusion Models)

ZIGMA: A DiT-style Zigzag Mamba Diffusion Model

Skews in the Phenomenon Space Hinder Generalization in Text-to-Image Generation

The Lottery Ticket Hypothesis in Denoising: Towards Semantic-Driven Initialization

Vision Transformer

GiT: Towards Generalist Vision Transformer through Universal Language Interface

视觉和语言(Vision-Language)

GalLoP: Learning Global and Local Prompts for Vision-Language Models

目标检测(Object Detection)

Relation DETR: Exploring Explicit Position Relation Prior for Object Detection

Cross-Domain Few-Shot Object Detection via Enhanced Open-Set Object Detector

异常检测(Anomaly Detection)

目标跟踪(Object Tracking)

语义分割(Semantic Segmentation)

Context-Guided Spatial Feature Reconstruction for Efficient Semantic Segmentation

医学图像(Medical Image)

Brain-ID: Learning Contrast-agnostic Anatomical Representations for Brain Imaging

FairDomain: Achieving Fairness in Cross-Domain Medical Image Segmentation and Classification

医学图像分割(Medical Image Segmentation)

ScribblePrompt: Fast and Flexible Interactive Segmentation for Any Biomedical Image

AnatoMask: Enhancing Medical Image Segmentation with Reconstruction-guided Self-masking

Representing Topological Self-Similarity Using Fractal Feature Maps for Accurate Segmentation of Tubular Structures

视频目标分割(Video Object Segmentation)

DVIS-DAQ: Improving Video Segmentation via Dynamic Anchor Queries

自动驾驶(Autonomous Driving)

Fully Sparse 3D Occupancy Prediction

milliFlow: Scene Flow Estimation on mmWave Radar Point Cloud for Human Motion Sensing

4D对比超流是密集3D表征学习器

3D点云(3D-Point-Cloud)

3D目标检测(3D Object Detection)

具有动态空间剪枝的3D小目标检测

光线去噪:基于深度感知的难负样本采样用于多视图3D目标检测

3D语义分割(3D Semantic Segmentation)

图像编辑(Image Editing)

图像补全/图像修复(Image Inpainting)

BrushNet:具有分解双分支扩散的即插即用图像补全模型

视频编辑(Video Editing)

低级视觉(Low-level Vision)

通过直方图变换在恶劣天气条件下恢复图像

OneRestore:复合退化的通用恢复框架

超分辨率(Super-Resolution)

去噪(Denoising)

图像去噪(Image Denoising)

3D人体姿态估计(3D Human Pose Estimation)

图像生成(Image Generation)

在文本到图像扩散模型中基于对象条件的能量式注意力图对齐

每个像素都有其时刻:通过密集归一化实现超高分辨率的无对齐图像到图像翻译

ZIGMA:一种DiT风格的之字形曼巴扩散模型

现象空间中的倾斜阻碍了文本到图像生成的泛化

视频生成(Video Generation)

VideoStudio:生成内容一致和多场景的视频

3D生成

视频理解(Video Understanding)

VideoMamba:高效视频理解的状态空间模型

C2C:用于零样本组合动作识别的组件到组合学习

行为识别(Action Recognition)

SA-DVAE:通过解耦变分自编码器改进零样本基于骨架的动作识别

知识蒸馏(Knowledge Distillation)

图像压缩(Image Compression)

基于空间频率自适应的机器和人类视觉图像压缩

立体匹配(Stereo Matching)

场景图生成(Scene Graph Generation)

计数(Counting)

通过良好示例进行零样本目标计数

视频质量评价(Video Quality Assessment)

数据集(Datasets)

其他(Others)

用于3D视觉定位的多分支协作学习网络

PDiscoFormer:通过视觉变压器放宽部分发现约束

SPVLoc:在未知环境中用于6D相机定位的语义全景视口匹配

REFRAME:移动设备实时渲染反射表面

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号