#图像处理

ppl.cv - 跨平台图像处理库 专为深度学习优化
ppl.cv图像处理深度学习高性能OpenCVGithub开源项目
ppl.cv是一款轻量级可定制的图像处理框架,针对深度学习应用优化设计。支持x86、CUDA、aarch64、RISC-V和OpenCL等多个平台,实现了算术运算、色彩空间转换、直方图等常用图像算法的高性能版本。该项目追求极致性能,功能与OpenCV对齐,同时保持独立性,便于开发和部署。
ImageMagick - 多功能开源图像处理软件
ImageMagick图像处理开源软件命令行工具图像格式转换Github开源项目
ImageMagick是一个功能丰富的开源图像处理工具,支持JPEG、PNG、GIF等多种格式的图像创建、编辑和转换。它提供命令行和API接口,便于执行复杂的图像处理任务和集成到其他应用中。这个软件在Web开发、图形设计、科学研究等多个领域得到广泛应用。
VMamba - 高效的线性时间复杂度视觉骨干网络
VMamba计算机视觉深度学习图像处理神经网络Github开源项目
VMamba是一种创新的视觉骨干网络,将Mamba状态空间语言模型应用于计算机视觉。其核心是视觉状态空间块堆栈,结合2D选择性扫描模块,实现线性时间复杂度。VMamba在图像分类、目标检测和语义分割等多项视觉任务中表现出色,特别是在输入尺度扩展效率方面优于现有模型。项目提供多种规模的预训练模型,适用于各类视觉感知任务。
ZoomVideoComposer - 将AI生成图像序列合成为变焦视频的Python工具
ZoomVideoComposerAI绘图视频制作图像处理放大缩小效果Github开源项目
ZoomVideoComposer是一个开源的Python工具,主要用于将AI生成的图像序列合成为变焦视频。它具有多种变焦效果、图像混合、自定义分辨率和帧率等功能。该工具支持处理Midjourney、Stable Diffusion等AI工具生成的图像,可通过命令行或Web界面操作。ZoomVideoComposer为用户提供了一种将静态AI图像转化为动态视频的方法,适用于展示AI生成图像的连续变化效果。
Segment-Any-Anomaly - 基于混合提示正则化的零样本异常分割方法
SAA+异常分割零样本学习计算机视觉图像处理Github开源项目
Segment-Any-Anomaly项目提出了一种基于混合提示正则化的零样本异常分割方法。该方法通过适配Grounding DINO和Segment Anything等基础模型,实现了对多种异常检测数据集的高效分割。项目在MVTec-AD、VisA等公开数据集上展现出优秀性能,并在VAND工作坊竞赛中取得佳绩。仓库包含完整代码实现、演示和使用说明,便于研究者复现和应用。
Vision-RWKV - 基于RWKV架构的高效视觉感知模型
Vision-RWKV计算机视觉深度学习图像处理神经网络Github开源项目
Vision-RWKV是一种基于RWKV架构的视觉感知模型。该模型可高效处理高分辨率图像,具有全局感受野,并通过大规模数据集预训练实现良好扩展性。在图像分类任务中,Vision-RWKV性能超越ViT模型;在密集预测任务中,它以更低计算量和更快速度胜过基于窗口的ViT,并与全局注意力ViT相当。Vision-RWKV展现出成为多种视觉任务中ViT替代方案的潜力。
menyoki - 轻量级多功能命令行图像处理工具
menyoki命令行工具屏幕录制截图图像处理Github开源项目
menyoki是一款功能全面的命令行图像工具,支持屏幕截图、动画录制和多种图像处理操作。它可处理GIF、PNG、JPEG等多种格式,能够录制窗口或全屏动画,截取指定区域,还提供图像编辑和分析功能。menyoki设计轻量灵活,适用于日常简单任务和复杂图像处理需求,为开发和设计工作提供便利。
One2345plus - 单图快速生成高保真3D模型技术
3D建模图像处理深度学习One-2-3-45++人工智能Github开源项目
One-2-3-45++是一项创新的单图3D重建技术,能在一分钟内将单张RGB图像转换为高质量纹理网格模型。该技术生成的3D模型高度还原原始图像细节,仅需8台A100 GPU即可完成训练。这一技术在单图像3D重建领域表现出色,为创意设计、游戏开发等领域提供了高效的3D建模方案。
ToonCrafter - 卡通图像插帧生成工具
ToonCrafter卡通插值生成式AI图像处理视频生成Github开源项目
ToonCrafter是一个开源项目,专注于卡通图像插帧生成。它利用预训练的图像到视频扩散模型,可生成最多16帧、分辨率512x320的动画序列。该工具支持稀疏草图引导和基于参考的草图着色功能。项目提供代码和模型权重,为卡通动画创作提供新的可能性。ToonCrafter主要用于研究目的,不对潜在的滥用负责。
aura-sr - 基于GAN的真实世界图像超分辨率增强工具
AuraSR超分辨率图像处理GAN人工智能Github开源项目
AuraSR是一款基于GAN技术的图像超分辨率工具,专为真实世界图像设计。作为GigaGAN论文的变体,它用于图像条件下的放大。该开源项目基于Torch实现,提供简洁的Python API,支持4倍图像放大,并能减少接缝伪影。AuraSR安装使用便捷,为开发者和研究者提供了强大的图像处理工具,适用于多种需要高质量图像增强的场景。
splatter-image - 基于单一图像的快速3D重建技术 适用于多种物体
Splatter Image3D重建计算机视觉深度学习图像处理Github开源项目
splatter-image是一个3D重建开源项目,能从单一图像快速生成物体的3D模型。它兼容Objaverse、ShapeNet和CO3D等多个数据集,并提供在线演示。项目使用高斯点云渲染技术,在多类别ShapeNet数据集上表现出色。安装过程简单,支持多GPU训练,无需预处理相机姿态数据。
EfficientSAM - 基于掩码预训练的实时图像分割模型
EfficientSAM分割模型图像处理计算机视觉深度学习Github开源项目
EfficientSAM是一个基于掩码图像预训练的通用图像分割模型,支持点提示、框提示、全景分割和显著性检测等功能。该模型在保持高精度的同时显著提高了处理速度,已集成到多个开源工具中。项目提供在线演示和Jupyter notebook示例,便于研究人员和开发者快速上手和应用。
Depth-Anything - 大规模无标注数据驱动的强大单目深度估计模型
Depth Anything深度估计计算机视觉人工智能图像处理Github开源项目
Depth Anything是一款基于大规模数据训练的单目深度估计模型。它利用150万标注图像和6200万无标注图像进行训练,提供小型、中型和大型三种预训练模型。该模型不仅支持相对深度和度量深度估计,还可用于ControlNet深度控制、场景理解和视频深度可视化等任务。在多个基准数据集上,Depth Anything的性能超越了此前最佳的MiDaS模型,展现出优异的鲁棒性和准确性。
Segment-Everything-Everywhere-All-At-Once - 基于多模态提示的图像分割模型
SEEM分割多模态交互式图像处理Github开源项目
SEEM是一种新型图像分割模型,支持多种交互方式如点击、框选、涂鸦、文本和音频提示。该模型可接受任意组合的提示输入,精确分割图像中的目标对象并赋予语义标签。SEEM采用统一架构,具备多模态交互、语义理解和泛化能力,为图像分割任务提供了灵活通用的解决方案。
Awesome-ECCV2024-ECCV2020-Low-Level-Vision - ECCV底层视觉研究论文与代码汇总
ECCV底层视觉论文收集计算机视觉图像处理Github开源项目
本资源库汇集了ECCV2024和2020年底层视觉领域的论文及代码。涵盖超分辨率、图像去雨、去雾、去模糊、去噪、恢复和增强等多个研究方向。项目提供了便捷的平台,使研究人员和开发者能够快速获取最新成果。此外,仓库还链接了CVPR、ICCV等相关会议论文集,以及底层视觉和AIGC研究组的整理资料。
LayerDiffuse - 基于潜在透明度的图层扩散技术 突破图像处理新境界
LayerDiffuse透明图层扩散潜在透明度AI绘图图像处理Github开源项目
LayerDiffuse是一个开源图像处理项目,专注于利用潜在透明度实现透明图层扩散。目前支持Stable Diffusion WebUI和Diffusers CLI平台,未来将扩展到Gradio、Colab和Huggingface Space。项目计划发布数据集和训练代码,为图像处理领域提供新的技术方案。通过创新的图层处理工具,LayerDiffuse开启了图像创作的无限可能。
Awesome-CVPR2024-CVPR2021-CVPR2020-Low-Level-Vision - CVPR 2020-2024年底层视觉论文代码汇总
CVPR底层视觉论文集代码集图像处理Github开源项目
该项目整理了CVPR 2020至2024年底层视觉领域的重要论文和代码,包括超分辨率、图像去雨、去雾、去模糊、去噪等任务。项目为研究人员提供全面资源,促进底层视觉技术发展。此外,还收录了其他相关会议和研究组信息,是计算机视觉研究的重要参考。项目收录了数百篇论文及其相应的代码实现链接,为研究者提供了丰富的学习和实践资源。
Awesome-diffusion-model-for-image-processing - 扩散模型在图像处理领域的最新进展与应用汇总
扩散模型图像处理超分辨率图像复原深度学习Github开源项目
本项目汇总了扩散模型在图像处理领域的最新研究进展,涵盖图像复原、增强、编码和质量评估等方面。重点关注图像超分辨率、修复和去噪等任务,提供全面的调查报告和定期更新的研究成果。项目收录了大量相关开源代码和数据集资源,为研究人员提供了重要的参考信息。
opencv-python - OpenCV的Python接口
OpenCVPython计算机视觉图像处理机器学习Github开源项目
opencv-python是OpenCV的预编译Python包,提供广泛的计算机视觉功能。支持主流桌面和服务器环境,包含完整和headless版本。易于安装使用,适合各级开发者的计算机视觉应用。定期随OpenCV更新,保证用户可使用最新算法和功能。
clean-fid - 准确评估生成模型的标准化指标库
生成模型评估FID图像处理数据集统计clean-fidGithub开源项目
clean-fid是一个用于评估生成模型的开源工具库,致力于解决FID计算中的不一致问题。通过精确处理图像重采样和压缩等细节,该库确保了不同方法、论文和团队之间FID分数的可比性。clean-fid支持计算FID和KID指标,提供多个常用数据集的预计算统计数据,操作简便。它旨在为生成模型评估提供标准化和可靠的解决方案,提高了评估结果的准确性和可重复性。
Awesome-Mamba-in-Low-Level-Vision - Mamba模型在低级视觉任务中的应用资源汇总
Mamba计算机视觉图像处理深度学习状态空间模型Github开源项目
该项目汇总了Mamba状态空间模型在低级视觉任务中的应用资源。涵盖图像恢复、超分辨率、去雨、去雾等多个领域的最新研究。提供论文链接和代码仓库,便于研究者了解和实践这一前沿技术。资源涉及图像处理、视频修复、遥感图像等多个方向,为探索Mamba模型在计算机视觉领域潜力的研究人员提供参考。
opencv_extra - OpenCV额外数据与资源库
OpenCV计算机视觉开源库图像处理GitHubGithub开源项目
opencv_extra仓库为OpenCV库提供额外数据支持。包含官方网站、文档、问答论坛等重要资源链接,以及问题追踪系统。仓库还提供了详细的贡献指南,涵盖pull request规范、分支选择、测试文档要求、提交历史管理和编码风格等关键开发规则。
LLIE_Survey - 低光照图像和视频增强技术最新进展综述
低光照图像增强深度学习计算机视觉图像处理视频增强Github开源项目
该研究全面综述了低光照图像和视频增强(LLIE)技术,提出SICE_Grad和SICE_Mix数据集用于复杂混合曝光场景,引入Night Wenzhou视频数据集包含航拍和街景。研究梳理LLIE发展历程,系统分类各种方法,提供基准数据集和评估指标,为研究者提供重要参考。
vision - TorchVision 计算机视觉库 提供数据集模型和图像处理功能
torchvision计算机视觉PyTorch图像处理深度学习Github开源项目
TorchVision是PyTorch生态系统的计算机视觉库,提供常用数据集、模型架构和图像变换功能。它支持torch张量和PIL图像后端,具备视频处理能力。该库同时提供Python和C++ API,适用于各种计算机视觉任务。TorchVision版本与PyTorch和Python版本兼容,持续更新以支持最新技术。
DeSRA - GAN超分辨率模型伪影智能检测与消除
DeSRAGAN超分辨率图像处理人工智能Github开源项目
DeSRA项目开发了创新方法,用于检测和消除GAN实际场景超分辨率模型中的伪影。该方法能高效识别伪影区域,通过微调策略消除同类伪影,只需少量样本即可。这一技术突破缩小了超分辨率算法在实际应用中的差距,为图像质量提升开辟了新途径。
factor-fields - 神经场和信号表示的统一框架
Factor Fields神经场图像处理3D场景重建深度学习Github开源项目
Factor Fields是一个新型神经场表示框架,提供高质量近似、紧凑模型和快速训练。该框架支持图像处理、SDF表示、NeRF渲染等多种应用,并具有跨场景泛化能力。作为信号建模和表示的统一方法,Factor Fields在多个领域展现出卓越性能,为未见图像和3D场景的处理提供了创新解决方案。
arxiv-latex-cleaner - LaTeX 代码清理工具助力 arXiv 提交流程优化
LaTeX清理arXiv提交图像处理代码优化隐私保护Github开源项目
arxiv-latex-cleaner 是一个专为 arXiv 提交准备而设计的 LaTeX 代码清理工具。它能够自动删除多余文件、压缩图像、隐藏 TikZ 源代码,并允许自定义替换规则。该工具重视隐私保护,同时优化文件大小以符合 arXiv 的 50MB 上传限制。支持命令行操作,可通过 pip 安装,兼容 Python 3.9 及更高版本。这个工具能够显著简化研究人员准备 LaTeX 项目以提交到 arXiv 的过程。
Mamba-in-CV - Mamba模型在计算机视觉领域的最新应用概览
Mamba计算机视觉深度学习图像处理神经网络Github开源项目
本项目整理了近期Mamba模型在计算机视觉领域的研究论文,涵盖分类、检测、分割、增强等多项CV任务。内容展示了Mamba在视觉应用中的潜力,并持续更新,为研究者提供了解该领域最新进展的便捷渠道。
StreamDiffusion - 高性能实时AI图像生成框架
StreamDiffusion实时生成AI绘图图像处理深度学习Github开源项目
StreamDiffusion是一个开源的高性能AI图像生成框架,专为实时交互应用设计。它采用流批处理、残差无分类引导等创新技术,大幅提升了扩散模型的生成速度。在RTX 4090显卡上,使用SD-turbo模型可实现每秒106帧的文生图速度,LCM-LoRA与KohakuV2模型组合也能达到每秒38帧。该项目为开发实时AI图像生成应用提供了有力支持。
ComfyUI_LayerStyle - ComfyUI图层处理与合成工具集
ComfyUI图层样式Photoshop功能图像处理插件Github开源项目
ComfyUI_LayerStyle是为ComfyUI开发的图层处理和合成工具集,将Photoshop部分基本功能迁移至ComfyUI。项目提供多种功能节点,如图层混合、蒙版处理、背景去除和图像分割等,实现类似Photoshop的图层效果。通过集中工作流程,减少软件切换,提高图像处理效率。项目持续更新,不断优化性能并增加新功能,适合ComfyUI用户进行复杂图像处理。
pillow-simd - 针对x86架构优化的高性能图像处理库
Pillow-SIMD图像处理性能优化SIMD计算Pillow库Github开源项目
Pillow-SIMD是针对x86架构优化的Pillow库版本,适用于Intel和AMD CPU。通过SIMD计算技术,它显著提升了图像处理性能,部分操作比原版Pillow快16-40倍。支持SSE4和AVX2指令集,可直接替代同版本Pillow。该项目已在生产环境验证,获得Uploadcare支持。Pillow-SIMD优化了多种图像操作,包括调整大小、模糊和合成等。
ViTamin - 推动计算机视觉进入新时代的可扩展视觉语言模型
ViTamin视觉语言模型计算机视觉深度学习图像处理Github开源项目
ViTamin是一系列可扩展的视觉语言模型,在图像分类、开放词汇检测和分割等任务上取得突破。以436M参数量在DataComp-1B数据集训练,实现82.9%的ImageNet零样本准确率。在7个开放词汇分割基准测试中创新纪录,并提升大型多模态模型能力。获timm和OpenCLIP官方支持,提供简单接口。ViTamin为计算机视觉领域带来新的可能性。
Kaggle-PANDA-1st-place-solution - Kaggle冠军前列腺癌诊断AI模型准确率达94%
PANDA竞赛前列腺癌分级人工智能深度学习图像处理Github开源项目
本项目展示Kaggle PANDA竞赛冠军解决方案,应用深度学习技术进行前列腺癌诊断和Gleason评分。模型利用图像分割和标签清洗等技术,在公开数据集上达到94%准确率,并在多项国际研究中得到验证。项目开源代码和模型,为医疗AI研究提供参考。
RestoreFormerPlusPlus - 先进的高质量人脸图像修复技术
人脸修复RestoreFormer++深度学习图像处理AIGithub开源项目
RestoreFormerPlusPlus是一种高级人脸图像修复方法,采用全空间注意力机制和扩展退化模型(EDM)提高修复效果的保真度和真实感。该方法利用丰富的上下文信息和高质量先验,提升了对真实场景的适应性和通用性。项目开源了预训练模型、推理代码和在线演示,为研究和开发人员提供了实现高质量人脸图像修复的便捷工具。
InstantID - 使用单张图像秒级生成保持身份特征的逼真人像
InstantIDAI图像生成身份保持人脸识别图像处理Github开源项目
InstantID是一个开源项目,提供创新的身份保持生成技术。该技术只需一张图像就能快速生成保持身份特征的高质量人像。项目包含训练代码和推理脚本,支持在自定义数据集上复现原作者的预训练模型效果。InstantID适用于多种下游任务,为AI图像生成领域提供了新的可能性。
GFPGAN - 提升图像细节和自然效果的实用人脸修复算法
GFPGAN面部修复AI绘图图像处理生成式对抗网络Github开源项目
GFPGAN利用预训练的StyleGAN2等人脸生成网络进行盲人脸修复。项目提供多种在线演示,包括Huggingface Gradio和Colab,支持增强背景区域,适用于各种质量的图像输入。最新1.4版本生成更多细节并保持身份一致性。无需CUDA扩展的清洁版本适用于多平台运行。