Logo

#图像处理

Logo of deep-learning-for-image-processing
deep-learning-for-image-processing
本教程介绍深度学习在图像处理中的应用,涵盖使用Pytorch和Tensorflow进行网络结构搭建和训练。课程内容包括图像分类、目标检测、语义分割、实例分割和关键点检测,适合研究生和深度学习爱好者。所有PPT和源码均可下载,助力学习和研究。
Logo of SmartOpenCV
SmartOpenCV
SmartOpenCV是一个用于Android平台的增强型OpenCV库,解决了官方SDK在图像预览中的问题。无需修改SDK源码,只需替换xml标签,即可自动适应摄像头参数、横竖屏切换及预览帧大小。该库支持USB摄像头,提供友好的API接口,方便开发者灵活控制预览显示。SmartOpenCV与官方SDK解耦,确保项目能够轻松升级至最新版本。
Logo of SUPIR
SUPIR
SUPIR借助先进的AI技术,为用户提供了下一级别的图像处理和上采样体验。该技术专为处理真实世界中的图像恢复而优化,确保图片质量和细节的极致呈现。无论您是摄影爱好者、数字艺术家还是图像增强爱好者,都可以免费试用并体验其卓越性能。
Logo of PoseFix_RELEASE
PoseFix_RELEASE
PoseFix是一个模块化设计的人体姿态优化工具,通过精炼现有的姿态估计结果来提升精度。此项目提供了完整的TensorFlow实现,兼容多个公开的2D多人物姿态数据集,如MPII、PoseTrack 2018和MS COCO 2017。用户只需使用简单的.json文件即可改进姿态估计结果。该工具具有灵活性和易于集成的特点,适用于各种姿态估计方法,应用前景广阔。
Logo of ComfyUI_Custom_Nodes_AlekPet
ComfyUI_Custom_Nodes_AlekPet
ComfyUI Custom Nodes项目提供多种自定义节点,显著增强了ComfyUI的功能。这些节点涵盖图像处理(如PoseNode和PainterNode)、文本翻译(如GoogleTranslateTextNode和DeepTranslatorTextNode)、以及其他附加和实验性节点(如PreviewTextNode和IDENode)。用户可以通过Git或直接从GitHub仓库下载并安装这些节点,以提升ComfyUI在图像处理、文本翻译等方面的性能。
Logo of dm_pix
dm_pix
PIX是一个基于JAX的开源图像处理库,具备优化和并行化能力。支持通过jax.jit、jax.vmap和jax.pmap进行加速与并行处理,适用于高性能计算需求。安装便捷,只需通过pip安装后即可使用。提供丰富的示例代码,易于上手操作,同时配备完整的测试套件,确保开发环境的可靠性,并接受社区贡献。
Logo of Anime2Sketch
Anime2Sketch
Anime2Sketch是一款适用于插画、动漫艺术和漫画图像的草图提取工具。基于《Adversarial Open Domain Adaption for Sketch-to-Photo Synthesis》论文,提供测试代码和预训练权重。支持Linux、macOS和Docker环境,推荐使用Anaconda的Python 3版本,兼容CPU和NVIDIA GPU。提供详细的安装、下载和测试指南,以及Docker运行指令。
Logo of byol-pytorch
byol-pytorch
这个开源项目提供了一种无需对比学习和负样本分配的自监督学习方法,其性能超过了SimCLR。它支持轻松集成任何基于图像的神经网络,并利用未标记数据提升模型性能。该项目还支持批量规范化和组规范化替代方案,适用于定制化和分布式训练。
Logo of Deep-Live-Cam
Deep-Live-Cam
Deep-Live-Cam是一个开源的实时人脸替换项目,支持视频和网络摄像头人脸替换。该工具采用深度学习算法,提供GPU加速,可快速完成高质量人脸替换。项目面向艺术家和内容创作者,注重伦理使用,内置不当内容检测。Deep-Live-Cam安装简便,界面直观,为AI生成媒体领域提供了实用解决方案。
Logo of ppl.cv
ppl.cv
ppl.cv是一款轻量级可定制的图像处理框架,针对深度学习应用优化设计。支持x86、CUDA、aarch64、RISC-V和OpenCL等多个平台,实现了算术运算、色彩空间转换、直方图等常用图像算法的高性能版本。该项目追求极致性能,功能与OpenCV对齐,同时保持独立性,便于开发和部署。
Logo of Segment-Any-Anomaly
Segment-Any-Anomaly
Segment-Any-Anomaly项目提出了一种基于混合提示正则化的零样本异常分割方法。该方法通过适配Grounding DINO和Segment Anything等基础模型,实现了对多种异常检测数据集的高效分割。项目在MVTec-AD、VisA等公开数据集上展现出优秀性能,并在VAND工作坊竞赛中取得佳绩。仓库包含完整代码实现、演示和使用说明,便于研究者复现和应用。
Logo of aura-sr
aura-sr
AuraSR是一款基于GAN技术的图像超分辨率工具,专为真实世界图像设计。作为GigaGAN论文的变体,它用于图像条件下的放大。该开源项目基于Torch实现,提供简洁的Python API,支持4倍图像放大,并能减少接缝伪影。AuraSR安装使用便捷,为开发者和研究者提供了强大的图像处理工具,适用于多种需要高质量图像增强的场景。
Logo of Segment-Everything-Everywhere-All-At-Once
Segment-Everything-Everywhere-All-At-Once
SEEM是一种新型图像分割模型,支持多种交互方式如点击、框选、涂鸦、文本和音频提示。该模型可接受任意组合的提示输入,精确分割图像中的目标对象并赋予语义标签。SEEM采用统一架构,具备多模态交互、语义理解和泛化能力,为图像分割任务提供了灵活通用的解决方案。
Logo of LaTeX-OCR
LaTeX-OCR
这是一个基于机器学习的系统,可以将数学公式图像转换为相应的LaTeX代码。系统支持命令行工具、图形用户界面、API和Python集成,提供多种使用方式。适用于不同分辨率的图像,自动优化处理以提高识别性能。还包括模型训练指南和数据集生成工具,适用于科研和教育用途。
Logo of IOPaint
IOPaint
IOPaint是一款基于最新AI模型技术,提供免费且开源的图像修复与扩展工具。该项目支持多种AI模型,如Erase模型和Diffusion模型等,助力用户轻松移除图片中不想要的对象或缺陷。全面支持CPU、GPU以及苹果硅片,并提供丰富的插件,满足各种图片处理需求。用户可通过简易的Web界面操作,编辑和批处理图片,体验逼真的图像处理效果。
Logo of 360智绘
360智绘
该平台提供多功能AI图像生成服务,支持多种模式如文生图、图生图和涂鸦生图。支持文本输入或图片上传后,AI可即刻生成独特的图像作品。此外,该平台还提供图像增强、修复和风格转换等实用工具,便于实现个性化视觉创意。
Logo of ICCV2023-Papers-with-Code
ICCV2023-Papers-with-Code
收录ICCV 2023大会接受的2160篇论文及开源代码,涵盖计算机视觉领域的多个前沿主题,包括Backbone、CLIP、GAN、NeRF、扩散模型、自监督学习、目标检测和医学图像处理,为研究和学习者提供一站式资源。
Logo of diffusionbee-stable-diffusion-ui
diffusionbee-stable-diffusion-ui
Diffusion Bee在Mac上简便运行Stable Diffusion,支持Intel和M1/M2芯片,无需其他软件或技术知识,采用一键安装,确保数据隐私。主要功能涵盖图像生成、多模型支持、图像放大和历史记录,提供全面便捷的图像生成体验。
Logo of superpixel-benchmark
superpixel-benchmark
该项目是一款全面的超像素算法评估平台,评估28种算法在5个数据集上的性能。通过参数优化和使用边界召回率、分割错误率、解释方差等指标,实现了客观和公平的比较。项目包含Docker实现、平均指标计算工具和详细文档,适用于研究人员和开发者进行深入研究与应用。
Logo of cucim
cucim
cuCIM 是一个开源的高性能多维图像处理和计算机视觉软件库,应用于生物医学、地理空间、材料科学、生命科学和遥感领域。利用基于 GPU 的加速技术,cuCIM 提供了增强的大规模和多维 TIFF 文件处理能力,并且支持简便的 Python 接口和多种图像格式,如 Aperio ScanScope 虚拟切片、Philips TIFF 和多分辨率压缩 TIFF 文件。
Logo of Inpaint-Anything
Inpaint-Anything
Inpaint Anything是一款结合先进计算机视觉模型的图像编辑工具。用户只需点击即可选择图像中的任意对象,然后可以移除对象、根据文本提示填充新内容或替换背景。该项目还支持视频和3D场景编辑,提供灵活强大的图像处理功能。
Logo of fast-average-color
fast-average-color
fast-average-color是一个高效的JavaScript库,用于计算图像和视频的平均或主导色彩。支持多种资源类型和计算算法,适用于浏览器环境,并兼容Web Workers和Node.js。该库具有轻量级、性能优秀的特点,适合各种色彩分析需求。
Logo of ImageMagick
ImageMagick
ImageMagick是一个功能丰富的开源图像处理工具,支持JPEG、PNG、GIF等多种格式的图像创建、编辑和转换。它提供命令行和API接口,便于执行复杂的图像处理任务和集成到其他应用中。这个软件在Web开发、图形设计、科学研究等多个领域得到广泛应用。
Logo of Vision-RWKV
Vision-RWKV
Vision-RWKV是一种基于RWKV架构的视觉感知模型。该模型可高效处理高分辨率图像,具有全局感受野,并通过大规模数据集预训练实现良好扩展性。在图像分类任务中,Vision-RWKV性能超越ViT模型;在密集预测任务中,它以更低计算量和更快速度胜过基于窗口的ViT,并与全局注意力ViT相当。Vision-RWKV展现出成为多种视觉任务中ViT替代方案的潜力。
Logo of splatter-image
splatter-image
splatter-image是一个3D重建开源项目,能从单一图像快速生成物体的3D模型。它兼容Objaverse、ShapeNet和CO3D等多个数据集,并提供在线演示。项目使用高斯点云渲染技术,在多类别ShapeNet数据集上表现出色。安装过程简单,支持多GPU训练,无需预处理相机姿态数据。
Logo of GFPGAN
GFPGAN
GFPGAN利用预训练的StyleGAN2等人脸生成网络进行盲人脸修复。项目提供多种在线演示,包括Huggingface Gradio和Colab,支持增强背景区域,适用于各种质量的图像输入。最新1.4版本生成更多细节并保持身份一致性。无需CUDA扩展的清洁版本适用于多平台运行。
Logo of awesome-project-ideas
awesome-project-ideas
提供30多个深度学习和机器学习项目创意,从入门到研究级别,适用于学术界和工业界。涵盖黑客松创意、文本处理、时间序列预测、推荐系统、图像和视频处理、音乐和音频处理等多个领域,帮助开发者和研究人员实践最新技术。
Logo of imaginAIry
imaginAIry
imaginAIry是一个先进的AI工具,支持生成高稳定性的图像和视频。项目适用于Linux和macOS操作系统,支持Nvidia GPUs,可通过Python轻松集成。它集成了最新的视频帧插值技术和多种控制模式,如深度图、正常图和控制网图等。此外,imaginAIry还引入了视频输出支持多种格式,如MP4、WebP和GIF,用户可按需生成高质量媒体内容。
Logo of DeepLearning
DeepLearning
探索全面的深度学习资源,涵盖教程、图书和实战项目,适合从新手到专家的每一个阶段。
Logo of overeasy
overeasy
Overeasy允许无大规模数据集,通过链式预训练零样本视觉模型实现高效图像处理。利用专用工具和工作流,用户可定制端到端管道,支持边框检测及分类。功能涵盖执行图和检测,安装简便,文档详尽,并提供Colab示例。
Logo of carefree-drawboard
carefree-drawboard
carefree-drawboard是一个利用纯Python构建的高性能绘图和图像处理平台。它支持插件化的功能,包括高斯模糊和Stable Diffusion等图像处理及生成。通过简单的安装和初始化命令,可以快速创建和运行定制化的绘图应用。项目虽然处于早期阶段,但提供定期更新和全面的文档支持,非常适合对AI和图像处理有兴趣的开发者。
Logo of ComputerVisionPractice
ComputerVisionPractice
这个开源项目包含了全面的图像处理和计算机视觉教程,覆盖了从基本操作到高级算术运算、阈值处理、平滑处理、形态学处理及特征点检测等OpenCV实践范例。此外,项目还提供了VisionPro的学习笔记,帮助用户理解和应用前沿视觉软件,适合希望深入学习图像处理与计算机视觉的用户。
Logo of telephoto
telephoto
Telephoto 是专为 Android Compose UI 开发的媒体交互库。它提供 ZoomableImage 组件,支持图片平移和缩放,并可自动对大图进行子采样以优化内存使用。库中的 Modifier.zoomable() 修饰符可用于非图片组件。Telephoto 简化了流畅媒体交互界面的开发过程,有助于提升应用的用户体验。
Logo of roop
roop
roop是一款高效的视频人脸替换工具,只需一张目标人脸图片即可完成替换。无需数据集和训练过程,支持CPU和GPU加速,提供多种帧处理器和输出选项。该开源项目致力于推动AI生成媒体技术发展,同时强调合法和负责任的使用。roop集成了多个第三方库和预训练模型,使用时需注意相关许可条款。
Logo of seemore
seemore
seemore是一个基于PyTorch的开源视觉语言模型(VLM)项目。它包括图像编码器、视觉-语言投影器和解码器三个核心组件,参考了CLIP和LLaVA等前沿VLM架构。项目提供完整代码实现和详细教程,有助于开发者理解VLM原理。seemore在Databricks平台开发,支持GPU加速,并集成MLFlow用于实验管理。
Logo of VMamba
VMamba
VMamba是一种创新的视觉骨干网络,将Mamba状态空间语言模型应用于计算机视觉。其核心是视觉状态空间块堆栈,结合2D选择性扫描模块,实现线性时间复杂度。VMamba在图像分类、目标检测和语义分割等多项视觉任务中表现出色,特别是在输入尺度扩展效率方面优于现有模型。项目提供多种规模的预训练模型,适用于各类视觉感知任务。
Logo of One2345plus
One2345plus
One-2-3-45++是一项创新的单图3D重建技术,能在一分钟内将单张RGB图像转换为高质量纹理网格模型。该技术生成的3D模型高度还原原始图像细节,仅需8台A100 GPU即可完成训练。这一技术在单图像3D重建领域表现出色,为创意设计、游戏开发等领域提供了高效的3D建模方案。
Logo of EfficientSAM
EfficientSAM
EfficientSAM是一个基于掩码图像预训练的通用图像分割模型,支持点提示、框提示、全景分割和显著性检测等功能。该模型在保持高精度的同时显著提高了处理速度,已集成到多个开源工具中。项目提供在线演示和Jupyter notebook示例,便于研究人员和开发者快速上手和应用。
Logo of emgucv
emgucv
跨平台.NET封装,支持调用OpenCV图像处理库功能。通过Visual Studio、Unity和'dotnet'命令编译,兼容Windows、Mac OS、Linux、iOS和Android系统。
Logo of backgroundremover
backgroundremover
BackgroundRemover是一款使用AI技术为图像和视频去除背景的命令行工具。该工具支持高效的背景处理能力,提供多种模型选择及高级设置以适应不同的处理需求。无论是静态图像还是动态视频,BackgroundRemover均能高质量完成背景透明处理,是设计师和视频制作人员的得力助手。
Logo of Final2x
Final2x
Final2x是一个开源的跨平台图片超分辨率工具,提供多种模型包括RealCUGAN、RealESRGAN和Waifu2x,旨在无损质量地提升图片清晰度。支持各主要操作系统如Windows、MacOS和Linux,并允许用户自定义输出尺寸,适配多语言环境。
Logo of AnimeGANv3
AnimeGANv3
AnimeGANv3是一种新型双尾生成对抗网络,能够快速将照片转换为各种动画风格。支持的风格包括油画、可爱、8bit和素描等。最新更新提供了面部到油画风格的新模型,并且在多个平台上提供了在线演示和使用指南,适用于不同操作系统和设备。该工具不仅易于安装和使用,还支持高效推理和视频动画转换,满足爱好者和专业人士的需求。
Logo of ComfyUI-PhotoMaker-ZHO
ComfyUI-PhotoMaker-ZHO
ComfyUI-PhotoMaker 是 PhotoMaker 的非官方实现,支持 lora、多批次处理和通用提示词输入。用户可以下载或本地加载模型,并应用多种风格模板生成高质量图像。适合需要快速生成多样风格图像的设计师和开发者,版本 V2.5 新增了对 Disney-Character 和 DragNUWA 工作流的支持,提升了生成速度和操作便捷性。
Logo of FILTER.js
FILTER.js
FILTER.js是一款纯JavaScript库,专注于图像和视频处理,支持HTML5特性如Canvas、Web Workers、WebAssembly和WebGL,并兼容Node.js环境。提供多种功能强大的滤镜和插件,实现高效的CPU和GPU并行处理。支持自定义构建,适用于各种应用需求。
Logo of zero123plus
zero123plus
Zero123++ v1.2 提升了相机内参处理,增强了视角和视野范围的适应性。模型专注于 3D 生成,输出统一的 30° 视角,确保对象的归一化尺寸。新增的法线生成器 ControlNet 可以生成更精确的法线图像和遮罩。该模型与代码在 Apache 2.0 和 CC-BY-NC 4.0 许可证下发布,非商业用途自由度更高。用户可简单配置生成多视图图像。
Logo of roop-unleashed
roop-unleashed
roop-unleashed是一个开源的AI换脸项目,无需训练即可实现高质量图像和视频换脸。该工具提供浏览器图形界面,支持多种换脸模式、批量处理、遮罩生成和人脸增强等功能。项目还包括实时换脸摄像头和视频处理工具,主要用于技术研究和学术目的。roop-unleashed定期更新,不断改进性能和用户体验。
Logo of diffae
diffae
diffae项目实现了基于扩散模型的自编码器框架,用于高质量图像的生成和编辑。该项目提供多个预训练模型,支持FFHQ、LSUN等数据集,实现了无条件生成、图像操作和插值等功能。项目包含使用说明、模型检查点和针对不同数据集的训练脚本,为图像生成和编辑研究提供了完整的工具链。
Logo of ZoomVideoComposer
ZoomVideoComposer
ZoomVideoComposer是一个开源的Python工具,主要用于将AI生成的图像序列合成为变焦视频。它具有多种变焦效果、图像混合、自定义分辨率和帧率等功能。该工具支持处理Midjourney、Stable Diffusion等AI工具生成的图像,可通过命令行或Web界面操作。ZoomVideoComposer为用户提供了一种将静态AI图像转化为动态视频的方法,适用于展示AI生成图像的连续变化效果。
Logo of ToonCrafter
ToonCrafter
ToonCrafter是一个开源项目,专注于卡通图像插帧生成。它利用预训练的图像到视频扩散模型,可生成最多16帧、分辨率512x320的动画序列。该工具支持稀疏草图引导和基于参考的草图着色功能。项目提供代码和模型权重,为卡通动画创作提供新的可能性。ToonCrafter主要用于研究目的,不对潜在的滥用负责。
Logo of Depth-Anything
Depth-Anything
Depth Anything是一款基于大规模数据训练的单目深度估计模型。它利用150万标注图像和6200万无标注图像进行训练,提供小型、中型和大型三种预训练模型。该模型不仅支持相对深度和度量深度估计,还可用于ControlNet深度控制、场景理解和视频深度可视化等任务。在多个基准数据集上,Depth Anything的性能超越了此前最佳的MiDaS模型,展现出优异的鲁棒性和准确性。