#计算机视觉

mar - 创新自回归图像生成方法
MAR图像生成自回归模型深度学习计算机视觉Github开源项目
MAR是一个开源项目,专注于自回归图像生成。它独创性地避免使用向量量化,在ImageNet 256x256数据集上实现了1.55的FID-50K分数。项目提供完整的PyTorch实现、预训练模型、在线演示和实验脚本。MAR通过创新设计,在不牺牲生成质量的前提下,显著提升了模型效率。
Awesome-Image-Composition - 图像合成领域资源精选 从论文到工具的全面集合
图像合成AIGC深度学习计算机视觉人工智能Github开源项目
Awesome-Image-Composition汇集了图像合成领域的核心资源,包括论文、数据集和相关链接。涵盖图像融合、调和、阴影生成和对象放置等多个子领域,该项目为研究人员和开发者提供了全面的参考资料。此外,项目还包含在线演示和实用工具箱,方便用户实践和探索图像合成技术。收录了超过100篇高质量论文和20多个开源工具,是图像合成研究和应用的首选资源库。
shape-of-motion - 从单个视频实现4D场景重建的前沿技术
4D重建单视频重建Shape of Motion计算机视觉深度学习Github开源项目
Shape of Motion项目展示了一种新型4D重建方法,可从单个视频重建动态3D场景。该项目结合深度学习和计算机视觉技术,实现运动物体的精确重建。项目包含完整工作流程,涵盖预处理、模型训练和性能评估。研究团队公开了源代码和数据集,为计算机视觉领域提供了有价值的研究资源。这一技术可能在计算机图形学、增强现实等方面带来应用突破。
FollowYourClick - 基于短提示的开放域图像区域动画生成技术
Follow-Your-Click图像动画人工智能深度学习计算机视觉Github开源项目
FollowYourClick是一个开放域图像区域动画生成项目,通过简短文本提示控制图像特定区域的动画效果。支持表情变化、物体运动等多种动画类型,为图像动画创作提供灵活直观的体验。该项目展示了AI技术在图像处理领域的先进应用,可用于创意内容制作和视觉效果生成。
GPS-Gaussian - 通用像素级3D高斯表示实现实时人体新视角合成
3D Gaussian Splatting人体新视角合成实时渲染深度学习计算机视觉Github开源项目
GPS-Gaussian提出了一种通用像素级3D高斯表示方法,可实时合成未见过人物的新视角。无需微调或优化即可生成高质量图像,具有出色的泛化性能。项目包含安装指南、数据准备、训练和测试流程,支持合成和真实数据集评估。该方法在人体新视角合成任务中展现实时渲染能力。
ProPainter - 创新视频修复技术提升传播和变换器效果
ProPainter视频修复深度学习计算机视觉ICCV 2023Github开源项目
ProPainter是一个开源的视频修复项目,通过改进传播和变换器技术提高修复质量。它支持对象移除和视频补全,可处理高分辨率视频,并提供内存高效的推理。该项目开放了源代码和预训练模型,还提供在线演示。ProPainter在视频修复领域取得了显著进展,为相关研究和应用提供了有力支持。
T-Rex - 融合文本和视觉提示的通用目标检测模型
T-Rex2目标检测计算机视觉视觉提示APIGithub开源项目
T-Rex2是一款融合文本和视觉提示的通用目标检测模型。它突破传统模型局限,具备零样本检测能力,适用于农业、工业和生物医学等领域。该模型支持交互式视觉提示、通用视觉提示和文本提示三种工作流程,满足多样化的目标检测需求。项目提供在线演示和API接口,便于快速体验和集成。
DSINE - 创新表面法线估计技术提高精度和适应性
DSINE表面法线估计归纳偏置计算机视觉深度学习Github开源项目
DSINE项目开发了创新的表面法线估计算法,通过分析像素光线方向和相邻法线关系,实现了对复杂真实图像的精确预测。该方法在小规模数据集训练条件下,展现出优于ViT模型的泛化能力。DSINE可适应多种分辨率和纵横比的图像,为计算机视觉领域提供了高精度的表面法线估计解决方案。
AIGS - AI生成图像作为数据源的前沿探索与应用
AI生成图像数据源综述计算机视觉深度学习Github开源项目
AIGS项目系统研究了AI生成图像(AIGC)作为数据源的最新发展。通过对方法和应用的分类,该项目全面概述了AIGC在视觉领域的进展,包括生成模型、神经渲染等技术,以及在2D/3D视觉感知、图像生成和自监督学习等方面的应用。此外,项目整理了相关数据集,为AIGC研究提供了丰富资源。
splatter-image - 基于单一图像的快速3D重建技术 适用于多种物体
Splatter Image3D重建计算机视觉深度学习图像处理Github开源项目
splatter-image是一个3D重建开源项目,能从单一图像快速生成物体的3D模型。它兼容Objaverse、ShapeNet和CO3D等多个数据集,并提供在线演示。项目使用高斯点云渲染技术,在多类别ShapeNet数据集上表现出色。安装过程简单,支持多GPU训练,无需预处理相机姿态数据。
dreamscene4d - 从单目视频生成动态多目标3D场景的突破性技术
DreamScene4D3D场景生成视频处理计算机视觉多目标跟踪Github开源项目
DreamScene4D是一种从单目视频生成动态多目标3D场景的开源技术。它采用3D高斯和形变优化方法,能处理不同长度的视频和多个目标。项目提供自动化和分阶段优化脚本,支持处理有遮挡和无遮挡的视频。DreamScene4D在复杂场景和长视频序列处理方面表现优异,为计算机视觉和图形学研究提供了新思路。
EfficientSAM - 基于掩码预训练的实时图像分割模型
EfficientSAM分割模型图像处理计算机视觉深度学习Github开源项目
EfficientSAM是一个基于掩码图像预训练的通用图像分割模型,支持点提示、框提示、全景分割和显著性检测等功能。该模型在保持高精度的同时显著提高了处理速度,已集成到多个开源工具中。项目提供在线演示和Jupyter notebook示例,便于研究人员和开发者快速上手和应用。
K-Planes - 多维场景的显式辐射场模型,支持静态、动态和可变外观数据集
K-Planes辐射场计算机视觉三维重建深度学习Github开源项目
K-Planes是一个创新的显式辐射场模型,可扩展到任意维度场景,适用于静态、动态和可变外观的数据集。该项目在空间、时间和外观上进行了明确建模,推动了神经辐射场研究的发展。K-Planes提供完整的代码实现、预训练模型,并与NerfAcc和NerfStudio集成,便于研究人员进行开发和应用。在多个基准数据集上,K-Planes展现了良好的性能,为3D场景重建和渲染领域提供了新的思路。
U-KAN - 提升医学图像分割和生成效能的创新框架
U-KAN医学图像分割医学图像生成深度学习计算机视觉Github开源项目
U-KAN是一个将Kolmogorov-Arnold网络(KAN)层整合到U-Net结构中的医学图像处理框架。这种创新设计在提高图像分割和生成任务准确性的同时,降低了计算成本。U-KAN在多个医学图像数据集的分割任务中表现出色,并在图像生成领域展现潜力。这项研究为医学图像处理技术的进步提供了新思路,有望推动更精准、高效的诊断和分析工具的发展。
APISR - 动漫超分辨率技术提升图像视频质量
APISR动漫超分辨率图像增强深度学习计算机视觉Github开源项目
APISR是一个开源的动漫超分辨率项目,专注于恢复和增强现实世界中低质量的动漫图像和视频。该技术融合了动漫制作流程的特点,能有效处理各种复杂的图像退化情况。项目提供预训练模型、在线演示和训练流程,支持单张图像和视频的超分辨率处理。APISR在真实动漫内容质量提升方面表现出色,为研究者和开发者提供了实用的工具。
Depth-Anything - 大规模无标注数据驱动的强大单目深度估计模型
Depth Anything深度估计计算机视觉人工智能图像处理Github开源项目
Depth Anything是一款基于大规模数据训练的单目深度估计模型。它利用150万标注图像和6200万无标注图像进行训练,提供小型、中型和大型三种预训练模型。该模型不仅支持相对深度和度量深度估计,还可用于ControlNet深度控制、场景理解和视频深度可视化等任务。在多个基准数据集上,Depth Anything的性能超越了此前最佳的MiDaS模型,展现出优异的鲁棒性和准确性。
pi-card - 树莓派上的离线AI智能助手
Raspberry PiAI助手语音交互离线系统计算机视觉Github开源项目
Pi-C.A.R.D是一个完全运行在树莓派上的离线AI智能助手项目。它集成了标准大语言模型的对话能力,同时支持拍照、图像描述和分析功能。该系统通过唤醒词或按钮触发对话,具有可配置的对话记忆功能。Pi-C.A.R.D采用C++实现音频转录和视觉语言模型,确保高效运行,同时保护用户隐私。
VanillaNet - 高效简约的深度学习神经网络架构
VanillaNet深度学习神经网络计算机视觉模型效率Github开源项目
VanillaNet是一种创新的神经网络架构,专注于简洁性和效率。它摒弃了复杂的快捷连接和注意力机制,仅使用较少的层数就能保持出色的性能。该项目展示了精简架构也能实现有效结果,为计算机视觉领域开辟了新路径,挑战了基础模型的现状。与主流模型相比,VanillaNet在保持相当性能的同时,具有更少的层数和更快的推理速度。
lerf - 基于语言嵌入的辐射场技术 实现3D场景的语义理解与交互
LERFNeRF计算机视觉3D渲染自然语言处理Github开源项目
LERF是一个创新的3D场景理解项目,结合了语言嵌入技术和辐射场。它能实现3D场景的语义理解和文本交互,生成高质量相关性图,支持复杂文本查询。LERF提供灵活的可视化选项,与Nerfstudio集成,并有多个版本适应不同硬件。该项目支持自定义图像编码器扩展,为计算机视觉和自然语言处理的交叉领域提供新的研究方向。
vissl - 自监督视觉学习框架 促进计算机视觉研究
VISSL自监督学习计算机视觉PyTorch模型库Github开源项目
VISSL是一个计算机视觉库,专注于自监督学习研究。它实现了最新的自监督方法,提供全面的基准测试,采用简便的配置系统和模块化设计,并支持大规模训练。VISSL致力于加快自监督任务的设计和评估过程,为研究人员提供实用且灵活的工具。
Total-Recon - 可变形场景重建技术实现沉浸式视角合成
可变形场景重建视角合成3D重建计算机视觉ICCV 2023Github开源项目
Total-Recon是一种可变形场景重建系统,能从RGBD传感器拍摄的长视频中重建场景几何、外观和物体运动。该系统支持从新视角渲染场景,包括第一人称和第三人称跟随视角,并提供3D视频滤镜功能。这项技术为沉浸式视角合成和增强现实应用提供了基础支持。
SIFU - 单图高精度3D人体重建技术 适用于实际应用场景
SIFU3D人体重建隐式函数计算机视觉深度学习Github开源项目
SIFU是一项创新的3D人体重建技术,能够从单一图像生成高质量的3D clothed human模型。该技术采用Side-view Conditioned Implicit Function提升特征提取和几何精度,并通过3D Consistent Texture Refinement改善纹理质量。SIFU在处理复杂姿势和宽松服装方面表现突出,适用于3D打印和场景创建等实际应用。作为CVPR 2024的亮点论文,SIFU为真实世界的人体重建任务提供了有效解决方案。
Awesome-Low-Level-Vision-Research-Groups - 全球底层视觉研究领军团队概览
计算机视觉底层视觉研究团队学术机构Github开源项目
这个项目汇集了全球范围内从事底层视觉研究的领先团队信息,涵盖了北美、欧洲和亚洲等多个国家的著名研究机构和学者。项目为底层视觉领域的研究人员提供了一个综合性资源,有助于了解该领域的前沿动态并发掘潜在的合作机会。内容包括各研究团队的主要负责人和所属机构信息,重点关注引用量达5000以上的高影响力团队。此外,项目还提供了相关的CVPR、ECCV和ICCV等顶级会议论文整理资源链接,为研究者提供了全面的学术参考。
FoundationPose - 创新性6D物体姿态估计与跟踪的统一框架
FoundationPose6D物体姿态估计物体跟踪计算机视觉机器人应用Github开源项目
FoundationPose是一个统一的6D物体姿态估计和跟踪框架,支持基于模型和无模型两种方式。该框架无需微调即可应用于新物体,通过大规模合成训练、大型语言模型辅助和创新架构实现强大泛化能力。在多个公共数据集的评估中,FoundationPose在challenging场景下显著优于现有方法,即使减少假设也能达到与实例级方法相当的效果。
ReLA - 先进的泛化引用表达分割技术
GRES引用表达分割计算机视觉深度学习语义分割Github开源项目
GRES项目提出了一种新颖的泛化引用表达分割方法,在CVPR 2023会议上被评为亮点论文。该项目采用Swin Transformer骨干网络,在gIoU指标上达到63.60%的性能。GRES项目不仅发布了新数据集,还开源了代码实现,支持ResNet-50和Swin-Tiny等多种骨干网络,为研究人员提供了多样化选择。项目的GitHub仓库提供了详细的安装说明、推理和训练代码,以及预训练模型。
Awesome-ECCV2024-ECCV2020-Low-Level-Vision - ECCV底层视觉研究论文与代码汇总
ECCV底层视觉论文收集计算机视觉图像处理Github开源项目
本资源库汇集了ECCV2024和2020年底层视觉领域的论文及代码。涵盖超分辨率、图像去雨、去雾、去模糊、去噪、恢复和增强等多个研究方向。项目提供了便捷的平台,使研究人员和开发者能够快速获取最新成果。此外,仓库还链接了CVPR、ICCV等相关会议论文集,以及底层视觉和AIGC研究组的整理资料。
Real3D - 基于真实图像的大规模3D重建模型
Real3D3D重建深度学习计算机视觉自监督学习Github开源项目
Real3D是一种创新的大规模3D重建模型系统,首次实现了使用单视图真实图像进行训练。该系统采用自训练框架,结合3D/多视图合成数据和单视图真实图像,并引入两种无监督损失函数,实现像素和语义层面的模型监督。在包含真实和合成数据、域内和域外形状的四种评估场景中,Real3D均显著优于现有方法。
flickr_scraper - 专为YOLO训练集收集的Flickr图片爬取工具
Flickr图像爬虫数据集收集YOLO训练计算机视觉Github开源项目
flickr_scraper是一款针对YOLO训练数据集收集开发的Python工具。该工具通过Flickr API实现关键词搜索和批量下载功能,可快速获取并保存相关图片。它简化了计算机视觉任务的数据准备流程,使用者只需配置API密钥即可开始使用。这个开源项目为研究者和开发者提供了便捷的图像数据采集方式。
OnePose_Plus_Plus - 关键点自由的单次目标姿态估计方法
OnePose++物体姿态估计计算机视觉神经网络3D重建Github开源项目
OnePose++是一种目标姿态估计方法,无需CAD模型和预定义关键点。该方法通过结构光重建和深度学习,实现单次拍摄即可估计物体姿态。项目提供训练、推理和演示代码,支持OnePose和OnePose_LowTexture数据集,可扩展至LINEMOD数据集。OnePose++在计算机视觉和机器人领域有潜在应用价值。
Awesome-Text-to-3D - 前沿文本和图像到3D内容生成技术资源集
text-to-3D图像生成深度学习计算机视觉AI模型Github开源项目
该项目汇总了文本到3D和图像到3D的前沿生成技术。内容涵盖基于2D先验模型学习3D的方法,以及直接在3D数据上训练的生成模型。资源列表包含DreamFusion、Magic3D、Shap·E等创新方法,展现了从文本或单一图像生成高质量3D内容的最新进展。这为研究人员和开发者提供了探索和应用3D生成技术的重要参考。
glomap - 全局结构运动重建的高效解决方案
GLOMAP三维重建结构运动计算机视觉COLMAPGithub开源项目
GLOMAP是一个基于图像的通用全局结构运动重建管线,与COLMAP相比,它提供了更高效和可扩展的重建过程。GLOMAP以COLMAP数据库为输入,输出COLMAP稀疏重建结果,重建速度通常快1-2个数量级,同时保持或超越原有重建质量。该项目支持从数据库或图像开始的端到端重建,并提供重建结果优化指南。
infinigen - 程序化生成无限逼真3D世界的开源工具
Infinigen程序化生成3D场景计算机视觉渲染Github开源项目
Infinigen是一个基于Blender开发的开源项目,通过程序化生成技术创建多样化的逼真3D世界。它可生成户外自然场景和室内环境,输出高质量图像、深度图和法线图等多模态数据。该项目主要用于计算机视觉和机器学习领域的数据生成与研究。Infinigen提供详细文档和贡献指南,鼓励研究人员和开发者参与项目。
opencv_zoo - OpenCV深度学习模型库及多平台性能评测
OpenCV深度学习模型计算机视觉模型性能基准人工智能应用Github开源项目
opencv_zoo是一个针对OpenCV DNN优化的深度学习模型库,涵盖人脸检测、目标跟踪、图像分割等多种计算机视觉任务。该项目提供各类预训练模型,并包含多平台性能基准测试结果,便于开发者选择合适模型。此外,项目还提供详细的安装指南和使用示例,有助于快速集成和应用。
C2PNet - 物理感知单图像去雾的课程对比正则化方法
图像去雾CVPR 2023C2PNet深度学习计算机视觉Github开源项目
C2PNet是一种基于课程对比正则化的单图像去雾方法。该方法结合物理原理和深度学习技术,在SOTS室内和室外数据集上实现了领先性能。C2PNet的核心架构融合了课程学习和对比正则化策略,旨在提升去雾质量和模型泛化能力。项目开源了完整的训练和评估代码,便于研究者在不同数据集上进行实验和改进。
opencv_contrib - OpenCV的实验性扩展模块库
OpenCV额外模块计算机视觉开源库贡献功能Github开源项目
opencv_contrib 是 OpenCV 库的扩展模块仓库,包含多个实验性计算机视觉功能。它允许开发者贡献和测试新算法,同时保持 OpenCV 主库的稳定性。仓库涵盖目标检测、3D重建和机器学习等高级技术。用户可通过 CMake 将这些模块集成到 OpenCV 构建过程中,从而增强库的功能。
fastai - 一个为从业者提供快速提供在标准深度学习领域中提供最先进的高级组件,并提供可以混合和匹配的低级组件构建新方法的深度学习库
fastaiPyTorch深度学习计算机视觉GPU优化Github开源项目
fastai是一个深度学习库,提供高层组件以快速实现高性能结果,同时为研究人员提供可组合的低层组件。通过分层架构和Python、PyTorch的灵活性,fastai在不牺牲易用性、灵活性和性能的情况下,实现了高效的深度学习。支持多种安装方式,包括Google Colab和conda,适用于Windows和Linux。学习资源丰富,包括书籍、免费课程和详细文档。