#CVPR
Realtime_Multi-Person_Pose_Estimation - 实时多人人体姿态估计的开源实现
Realtime Multi-Person Pose EstimationOpenPoseCVPRMSCOCO Keypoints ChallengePart Affinity FieldsGithub开源项目
该项目展示了一种无需人体检测器的实时多人人体姿态估计方法,曾获2016年MSCOCO关键点挑战赛冠军等多个奖项。项目提供了C++、TensorFlow、Pytorch等多种实现版本,适用于不同应用场景。页面还包括详细的测试与训练步骤,以及相关的代码库和资源链接,适合研究人员和开发者使用。
benchmark_results - 前沿视觉追踪技术的最新论文和研究动态
视觉跟踪CVPRAAAIICCVSiamRPN++Github开源项目
本页面汇总了包括CVPR、AAAI、和ICCV在内的顶级会议上视觉对象跟踪领域的论文。详细介绍包括Siam R-CNN、PrDiMP等在内的多种跟踪技术及其实现代码与研究要点。
siam-mot - 区域基的多目标追踪网络
SiamMOT多目标跟踪运动模型深度学习CVPRGithub开源项目
SiamMOT是一种基于区域的连体多目标追踪网络,通过在帧间估算对象实例的运动,实现目标检测和关联。项目展示了显式和隐式运动建模的重要性,显著提升了在MOT17、TAO-person和Caltech Roadside Pedestrians数据集上的性能,且在HiEve数据集上超越了ACM MM'20 HiEve Grand Challenge的获胜者。SiamMOT在单个现代GPU上以每秒17帧的速度运行,支持对人或人和车辆的联合追踪,并提供丰富的预训练模型供用户使用。
Awesome-World-Model - 自动驾驶领域的世界模型研究与应用进展
Autonomous DrivingWorld ModelsCVPRGenerative AISurveyGithub开源项目
本页面汇总了关于自动驾驶世界模型的最新论文和研究成果,涵盖包括CVPR、ECCV、ICML和ICLR等知名会议和期刊的前沿研究。通过这些世界模型,研究人员能够预测未来状态,提升基础模型性能,并生成未来的点云数据。此外,页面还介绍了重要的研讨会与挑战赛,以及业界专家的技术博客和视频,提供了对自动驾驶世界模型应用的全面视角。
Pointcept - 开源点云感知研究平台
Pointcept点云感知CVPR3D表示学习预训练Github开源项目
Pointcept 是一个专为点云感知研究设计的开源代码库,集成了 Point Transformer V3、OA-CNNs 和 PonderV2 等顶尖技术。通过多数据集预训练架构和高效的场景对比学习框架,Pointcept 在室内外场景中表现出色。用户可以使用统一接口和预处理支持,快速部署点云感知解决方案。项目持续更新,最近的新版本优化数据集结构,提升整体性能。
Awesome-Monocular-3D-detection - 最新单目3D物体检测的研究进展与资源汇总
3D检测Monocular 3D Object Detection深度学习CVPRPytorchGithub开源项目
了解单目3D物体检测的最新研究进展,页面涵盖2024至2016年的相关学术论文,并持续更新。您可浏览详细的文章列表,涉及单目3D检测领域的各种关键主题和方法。此外,网站还提供Pytorch代码,方便研究和应用。适合研究人员、开发人员和单目3D检测领域的爱好者。
DisCo - 人类舞蹈生成的多用途工具包
DisCo舞蹈生成深度学习CVPR视频合成Github开源项目
DisCo 是一个生成逼真人类舞蹈的多用途工具包,支持图像与视频生成。它具有优秀的泛化能力,无需人类特定的微调,同时提供特定人类的细调,以满足多样化的研究需求。其框架操作简便,支持高效训练和多种研究方向。DisCo 在实际应用中表现出色,支持预训练、细调和人类特定细调,适用于广泛的应用场景。用户可以通过在线演示或本地部署模型推理,研究人员也可以利用该代码库进行再实现和开发。
awesome-hand-pose-estimation - 手部姿态估计研究与资源合集
hand pose estimation3D hand reconstructionself-supervised learningCVPRdepth-based estimationGithub开源项目
本项目汇集了手部姿态估计的核心资源,包括评估方法、权威期刊论文、顶级会议论文和预印本等,从2014年到2024年覆盖最前沿的研究成果,囊括了多视角视频数据集和RGB+深度数据集。本项目提供该领域的最新动态,适合研究人员和开发者参考,用户亦可贡献资源,共同完善这一知识库。
GenerateU - 开创无预定义类别的目标检测新范式
GenerateU目标检测预训练计算机视觉CVPRGithub开源项目
GenerateU项目提出新型开放式目标检测方法,通过生成式区域语言预训练实现无需预定义类别的检测。在LVIS数据集零样本迁移测试中,即使推理时未见类别名称,也达到开放词汇目标检测方法GLIP的性能水平。该项目入选CVPR2024,为通用目标检测领域带来创新突破,特别适用于用户缺乏精确物体类别知识的场景。
RAVE - 基于扩散模型的高效视频编辑技术
RAVE视频编辑扩散模型零样本CVPRGithub开源项目
RAVE是一种基于预训练文本到图像扩散模型的视频编辑技术,无需额外训练即可实现高质量视频编辑。通过创新的噪声重排策略,RAVE提高了视频的时间一致性和处理效率。它支持从局部属性调整到形状变换等多种编辑类型,并可处理任意长度的视频。在多种编辑场景中,RAVE展现出优于现有方法的性能,为视频创作提供了高效灵活的解决方案。
SyncTalk - 同步技术驱动的高质量说话头像合成
SyncTalk头像合成人工智能计算机视觉CVPRGithub开源项目
SyncTalk项目通过三平面哈希表示法实现高度同步的说话头像视频合成。该技术生成同步的唇部运动、面部表情和稳定的头部姿势,同时还原发型细节,创造高分辨率视频。在保持人物身份的同时,项目显著提升了说话头像的自然度和真实感。
CFLD - 粗到细潜在扩散实现姿态引导人像合成
CFLDpose-guided人物图像合成潜在扩散CVPRGithub开源项目
CFLD项目提出粗到细潜在扩散方法,用于姿态引导的人像合成。该方法采用多阶段策略,先生成粗略草图再逐步细化,提高了生成图像质量和准确性。作为CVPR 2024亮点论文,CFLD在人像合成领域展现了重要进展。
Awesome-CVPR2024-CVPR2021-CVPR2020-Low-Level-Vision - CVPR 2020-2024年底层视觉论文代码汇总
CVPR底层视觉论文集代码集图像处理Github开源项目
该项目整理了CVPR 2020至2024年底层视觉领域的重要论文和代码,包括超分辨率、图像去雨、去雾、去模糊、去噪等任务。项目为研究人员提供全面资源,促进底层视觉技术发展。此外,还收录了其他相关会议和研究组信息,是计算机视觉研究的重要参考。项目收录了数百篇论文及其相应的代码实现链接,为研究者提供了丰富的学习和实践资源。
awesome-6d-object - 6D物体姿态估计与重建资源汇总
物体姿态估计3D重建计算机视觉深度学习CVPRGithub开源项目
这个项目整理了6D物体姿态估计、单视图3D物体重建和3D手-物体姿态估计领域的重要资源。内容包括arXiv论文、期刊会议论文、学位论文、数据集、研讨会和挑战赛信息。资源按年份和会议分类,涵盖2014年至今的研究进展,为相关研究人员提供了全面的参考。
mip-splatting - 实现无锯齿3D高斯渲染的创新技术
3D Gaussian SplattingMip-Splatting计算机视觉图形渲染CVPRGithub开源项目
Mip-Splatting是一个创新的3D高斯渲染项目,通过3D平滑滤波器和2D Mip滤波器消除渲染伪影,实现无锯齿效果。该技术在CVPR 2024获得最佳学生论文奖,体现了其在计算机视觉和图形学领域的重要性。项目提供在线演示,展示了其高质量的渲染效果。
LIVE-Layerwise-Image-Vectorization - 基于层次化方法的图像矢量化技术
LIVE图像矢量化SVG生成计算机视觉CVPRGithub开源项目
LIVE-Layerwise-Image-Vectorization是一个图像矢量化项目,采用逐层生成SVG的方法拟合栅格图像。该技术通过递归学习视觉概念,添加和优化闭合贝塞尔路径来重建输入图像。LIVE能以更少的路径实现精确的图像重建,展示了紧凑的层次化表示能力。这一方法在图像矢量化领域具有潜在应用价值,可能对图形设计和图像处理等领域产生影响。
HumanBench - 推动人体感知基础模型研究进展
HumanBench人体感知基础模型计算机视觉CVPRGithub开源项目
HumanBench项目致力于开发通用人体感知基础模型,包含PATH和UniHCP两个子项目,均发表于CVPR 2023。该项目采用投影辅助预训练技术,旨在提升模型性能,为计算机视觉领域提供新的研究方向。项目代码已开源,上海人工智能实验室正在招募相关研究人员和工程师,共同推进人体感知基础模型的研究。
MAD - 大规模电影音频数据集用于视频语言定位研究
MAD数据集视频语言定位电影音频描述计算机视觉CVPRGithub开源项目
MAD是一个用于视频语言定位研究的大规模数据集,源自电影音频描述。它包含384K个句子,涵盖650部电影的1.2K小时视频内容。数据集横跨22个电影类型和90年电影史,提供多样化的动作、场景和语言素材。MAD的独特之处在于其长形式定位设置,具有庞大的语言词汇量,对准确性和效率提出了挑战。这一资源为研究人员开拓了视频语言理解的新领域。
VoxFormer - 基于稀疏体素变换器的相机驱动3D语义场景补全方法
VoxFormer3D语义场景补全计算机视觉CVPR语义分割Github开源项目
VoxFormer是一种基于Transformer的创新框架,仅通过2D图像即可生成完整的3D语义体素。它采用两阶段设计:先从深度估计生成可见占据体素查询,再通过密集化阶段生成完整3D体素。在SemanticKITTI数据集上,VoxFormer在几何和语义方面分别提升了20.0%和18.1%,同时将训练所需GPU内存减少约45%。这为相机驱动的3D语义场景补全任务提供了一个强有力的基线。
Awesome-Computer-Vision-Paper-List - AI顶会论文集大全 一站式检索平台
人工智能会议论文收集CVPRNeurIPSICCVGithub开源项目
项目收录了CVPR、ICCV、ECCV、AAAI、IJCAI、NeurIPS等AI顶级会议论文,覆盖计算机视觉和人工智能多个领域。研究人员可快速检索特定主题论文或相似研究。数据源自官方网站,确保信息准确。资源库持续更新,是AI研究人员的重要参考工具。
KL-Loss - 创新边界框回归提升物体检测精度
目标检测边界框回归不确定性KL-LossCVPRGithub开源项目
KL-Loss提出了一种新型边界框回归损失函数,同时学习边界框变换和定位方差。该方法显著提高了物体检测的定位精度,几乎不增加计算量。在MS-COCO数据集上,KL-Loss将多种检测架构的平均精度(AP)提升1.8%-5.5%,尤其在高IoU阈值下表现出色,大幅超越现有方法。
ECON - 单图高精度3D人体重建 支持复杂姿态和宽松服装
3D人体重建深度学习计算机视觉CVPRECONGithub开源项目
ECON是一种从单张彩色图像进行人体数字化的先进技术。它结合隐式和显式表示的优点,能从日常图像中重建高保真3D着装人体模型,即使对象穿着宽松服装或处于复杂姿势。该技术支持多人重建和SMPL-X动画,采用创新的d-BiNI方法优化前后2.5D表面,保证细节与法线图一致并与SMPL-X表面对齐。ECON在处理各种实际场景中的人体重建任务时表现出色。
相关文章