#图像处理

dont-crop - 轻量级JavaScript库用于图像主色提取和渐变背景生成
Dont-crop图像处理渐变拟合调色板提取JavaScript库Github开源项目
dont-crop是专注于图像处理的轻量级JavaScript库,主要用于颜色提取和渐变背景生成。通过getPalette()和fitGradient()功能,实现高效的图像主色分析和背景拟合。适用于图像填充、模糊预览等多种图像处理场景。该库兼容现代浏览器和Node.js,性能优异,提供完整文档和丰富示例,已通过全面测试验证。
SVGcode - 栅格图像转SVG矢量图的在线转换工具
SVGcode矢量图转换PWA开源项目图像处理Github
SVGcode是一款免费的在线图像转换工具,支持将JPG、PNG、GIF等常见栅格图像格式转换为可缩放的SVG矢量图形。它可在浏览器中直接使用,也可从Microsoft Store安装,适用于设计、开发等多种场景。基于开源项目Potrace,SVGcode提供高质量的转换结果,并支持多语言界面。作为Progressive Web App,它集成了先进的Web API,实现了便捷的文件处理和剪贴板操作。
Diffusers_IPAdapter - 基于Diffusers的多功能IPAdapter实现
IPAdapterDiffusersAI绘图图像处理深度学习Github开源项目
Diffusers_IPAdapter是基于Hugging Face Diffusers的IPAdapter模型实现。该项目支持多输入图像处理、权重调整和负面图像输入,提供了统一的IPAdapter类接口。其简洁的代码结构便于维护,使用户能轻松实现高质量图像生成和编辑。这一工具适合需要精细控制图像生成的研究人员和开发者使用。
ViT-Prisma - 视觉变换器和CLIP模型机制解析开源库
Vision Transformer机器学习解释性图像处理开源库神经网络可视化Github开源项目
ViT-Prisma是一个专注于Vision Transformer和CLIP模型的开源机制解析库。它提供logit归因、注意力可视化和激活修补等技术,用于深入分析模型内部机制。该库还包含ViT训练代码和预训练模型,支持ImageNet-1k和dSprites分类任务。ViT-Prisma为视觉模型可解释性研究提供了实用的工具集。
multimodal-maestro - 多模态AI模型控制与高效提示策略框架
Multimodal-Maestro大型多模态模型图像处理AI提示PythonGithub开源项目
multimodal-maestro是一个开源框架,旨在增强对大型多模态AI模型的控制能力。该项目提供先进的提示策略,使模型能够执行复杂的视觉理解任务。支持图像标注、掩码生成等功能,并具有简洁的API设计。multimodal-maestro能够充分发挥GPT-4V等多模态模型的潜力,实现更精准的视觉分析和处理。
msdfgen - 生成矢量图形和字体字形的多通道有符号距离场工具
MSDF距离场矢量图形字体渲染图像处理Github开源项目
msdfgen是一个生成矢量图形和字体字形多通道有符号距离场的开源工具。它采用创新方法,能够精确再现锐角,提高图像质量。该项目既可作为库也可作为控制台程序使用,支持加载TTF字体和SVG文件,提供多种输出格式。msdfgen还包含测试渲染和形状导出功能,适用于实时图形中的高效形状复制。
Awesome-Super-Resolution - 全面收录超分辨率技术研究资源
超分辨率深度学习图像处理论文列表GitHubGithub开源项目
项目提供了丰富的超分辨率技术资源,包括按年份和主题分类的论文列表、数据集和代码仓库。内容涵盖2014年至2024年的研究成果,包括传统方法、深度学习方法、非深度学习方法以及超分辨率研讨会论文。资源库还收录了超分辨率调查报告,并设有快速导航功能,为研究人员和开发者提供便捷的资源检索体验。
night-enhancement - 将层分解与光效抑制结合的无监督夜间图像增强方法
夜间图像增强无监督学习图像处理计算机视觉ECCVGithub开源项目
这个项目提出了一种新型无监督夜间图像增强方法,结合层分解和光效抑制技术来提升夜间图像质量。该方法能有效去除不必要的光效,同时提高图像整体可见度。在多个低光照数据集上,这种方法展现出优异性能,为夜间图像处理领域开辟了新思路。项目公开了源代码、预训练模型和数据集,便于研究人员进行深入研究和应用。
titok-pytorch - 32 Token图像编码与重建框架
TiTok图像处理深度学习Pytorch图像重建Github开源项目
TiTok-Pytorch是一个基于PyTorch实现的图像编码和重建框架,源自ByteDance的研究。该项目将图像压缩为32个token,实现高效的图像重构和生成。TiTok-Pytorch提供简便的安装和使用方法,支持图像tokenization、重建和代码提取。这个框架适用于图像压缩、生成和重建等领域的深度学习项目,为高效图像处理提供了新的解决方案。
Awesome-CVPR2024-Low-Level-Vision - CVPR2024低层视觉任务论文与代码汇总
CVPR2024低层视觉图像处理计算机视觉深度学习Github开源项目
这个项目汇总了CVPR2024会议中与低层视觉任务相关的论文和代码,内容涵盖图像复原、超分辨率、去噪和去模糊等多个研究方向。项目提供了这些领域最新研究成果的概览,包括创新方法及其开源实现。通过持续更新,该资源库为计算机视觉领域的研究人员和开发者提供了及时、全面的学术参考。
OnnxStack - 高效机器学习集成框架 无缝对接.NET生态
ONNX Runtime机器学习.NETStableDiffusion图像处理Github开源项目
OnnxStack为.NET开发者提供了一个便捷的机器学习集成方案。它与ONNX Runtime和Microsoft ML无缝对接,支持Stable Diffusion、图像放大和对象检测等AI模型。开发者可以在.NET环境中直接构建和运行机器学习应用,不再依赖Python。这个框架大大简化了AI开发流程,是.NET生态系统中的一个重要补充。
ai_webui - AI-WEBUI 多功能图像音频视频处理平台
AI-WEBUIAI创作平台图像处理音频处理视频处理Github开源项目
AI-WEBUI是一个开源的通用AI创作平台,集成图像分割、物体追踪、语音识别等基础功能,以及聊天机器人、视频翻译等高级功能。支持ChatGLM2、SAM和Whisper等多种AI模型,可显著提高短视频创作效率。通过简单的界面操作,用户能轻松完成复杂AI任务,适合个人和专业用户使用。
joliGEN - 集成GAN、扩散和一致性模型的AI图像生成框架
JoliGEN生成式AI图像处理GAN扩散模型Github开源项目
joliGEN是一个集成框架,用于训练自定义的AI图像转换模型。该框架集成了GAN、扩散和一致性模型,可用于配对和无配对的图像转换任务。joliGEN适用于图像生成控制、增强现实和数据集增强等实际场景。它支持快速稳定的训练过程,并提供REST API服务简化部署。凭借丰富的选项和参数,joliGEN可应用于多种图像生成和处理任务。
sd-webui-replacer - Stable Diffusion WebUI自动化对象检测与图像修复扩展
Replacerstable-diffusion-webui图像处理人工智能扩展程序Github开源项目
sd-webui-replacer扩展为Stable Diffusion WebUI提供自动化对象检测、遮罩和图像修复功能。它不仅支持批量和视频处理,还整合了高分辨率修复和ControlNet功能,优化了对象替换和图像编辑流程。该扩展兼容Lama cleaner、AnimateDiff等多个插件,功能丰富,使用便捷,能显著提高图像处理效率。
ComfyUI-IDM-VTON - AI驱动的虚拟试衣技术 ComfyUI与IDM-VTON的结合
虚拟试衣ComfyUIIDM-VTON图像处理深度学习Github开源项目
ComfyUI-IDM-VTON是一个开源的虚拟试衣项目,将IDM-VTON技术整合到ComfyUI框架中。这个项目结合了高级图像处理和深度学习技术,实现了自动图像蒙版生成和人体姿态估计功能,提高了虚拟试衣的精确度。该工具需要至少16GB显存的GPU支持,主要面向研究AI驱动时尚技术的开发者和研究人员。
DocDiff - 基于残差扩散模型的轻量级文档图像增强工具
DocDiff文档增强扩散模型图像处理深度学习Github开源项目
DocDiff是一个基于残差扩散模型的轻量级文档增强工具,用于文档去模糊、去噪、二值化和去水印等任务。该模型在128*128分辨率上训练仅需12GB显存。除文档处理外,DocDiff还适用于自然场景图像处理和语义分割。项目提供完整代码和预训练模型,便于快速实现和应用。
PanelCleaner - 基于机器学习的漫画文本清理工具
Panel Cleaner机器学习文本检测图像处理OCRGithub开源项目
PanelCleaner 是一款开源的漫画文本清理工具,采用机器学习技术精确识别文本区域并生成高质量遮罩。该工具能自动清理简单对话气泡,支持批量处理和自定义清理参数,并提供OCR文本提取功能。通过直观的图形界面,PanelCleaner 可大幅提高漫画翻译效率,减少重复性工作,同时避免误删非文本内容。
AI-Lossless-Zoomer - 基于Real-ESRGAN模型的图像无损放大工具
AI无损放大Real-ESRGAN图像处理多线程处理批量处理Github开源项目
AI-Lossless-Zoomer是一个开源的图像放大工具,基于腾讯ARC Lab的Real-ESRGAN模型。该工具支持多线程和批量处理,可自定义输出格式和路径,并提供AI引擎选择功能。它在处理人像和动漫图片时表现出色,能实现高质量的图像放大。适用于Windows 7及以上系统,提供安装版和绿色版两种选择。
imgutils - 全面的动漫图像处理Python库 集成多种AI技术
imgutils图像处理动漫风格Python库深度学习Github开源项目
imgutils是一个功能丰富的Python库,专为动漫风格图像处理而设计。该库集成了多种先进AI模型,提供差分检测与聚类、角色图像预训练、物体检测、线稿生成等功能。此外,imgutils还支持单色图像检测、图像分级、标签生成和截断图像检查等实用工具。这些功能使其成为处理动漫图像数据集和进行图像分析的理想选择。
awesome-ocr - 综合OCR工具和技术资源库
OCR文本检测文档分析图像处理深度学习Github开源项目
该项目整合了OCR领域的多种前沿工具和技术,涵盖图像校正、文本检测、表格识别和手写识别等方面。它提供了从预处理到后处理的完整OCR解决方案,包含大量开源实现和相关研究论文链接。这个资源库对从事文档分析和文本提取的开发者及研究人员具有重要参考价值。
receipt-parser-legacy - Python实现的模糊收据信息提取工具
Pythonreceipt parser图像处理文本提取开源项目Github
receipt-parser-legacy是一个Python编写的模糊收据解析工具,可从扫描收据中提取店铺、日期和总额等关键信息。此项目既可独立运行,也可集成到iOS和Android应用中。支持Docker部署,使用方便。项目源于黑客马拉松,目前已在PyPi上发布,方便开发者使用和扩展。
tesstrain - Tesseract 5训练流程自动化工具
TesseractOCR模型训练机器学习图像处理Github开源项目
tesstrain是一个基于Makefile的Tesseract 5训练工作流工具。它提供完整的OCR模型训练流程,包括数据准备、训练、评估和可视化。支持自定义模型、微调和从头训练,具有灵活的配置选项。tesstrain能生成traineddata文件和错误率图表,适用于高效开发和优化Tesseract模型。
HivisionIDPhotos - 开源证件照制作工具 支持多种规格自动生成
证件照制作AI抠图图像处理HivisionIDPhotoAPI服务Github开源项目
HivisionIDPhotos是一个开源的证件照智能制作项目。它采用模型工作流程实现照片识别、抠图和证件照生成。支持轻量级抠图、多种规格标准证件照和六寸排版照制作。项目提供Web界面和API服务,可通过Docker部署。适用于证件照快速制作需求,支持自定义尺寸和背景色等功能。
lcnn - 高效的端到端线框解析神经网络
wireframe解析神经网络L-CNN计算机视觉图像处理Github开源项目
L-CNN是一种用于图像线框检测的高效神经网络。该项目在GitHub上开源了完整的PyTorch实现,包含数据处理、模型训练和评估等模块。L-CNN在多项定量指标上超越了现有方法,为线框解析领域提供了新的基准。项目还提供了预训练模型,方便研究者进行复现和进一步开发。
Convolutional-KANs - KAN卷积网络探索参数效率与性能提升
CKAN神经网络卷积机器学习图像处理Github开源项目
Convolutional-KANs项目将Kolmogorov-Arnold网络(KAN)架构应用于卷积层,引入可学习的非线性激活函数。初步实验表明,KAN卷积在保持准确性的同时,可能比传统卷积网络更具参数效率。该项目正在更复杂的数据集上进行进一步测试,以评估KAN卷积的实际性能。这一创新为计算机视觉领域开辟了新的研究方向。
DeepCrack - 深度学习驱动的自动裂缝检测网络
DeepCrack裂缝检测卷积神经网络图像处理深度学习Github开源项目
DeepCrack是一种端到端深度卷积神经网络,用于自动裂缝检测。该网络通过学习分层卷积特征来表示裂缝,融合多尺度特征以捕捉线性结构。基于SegNet架构,DeepCrack在三个挑战性数据集上平均F值超过0.87,性能优于现有方法。项目提供四个裂缝数据集和预训练模型,为相关研究提供支持。
keras-ocr - 基于Keras的开源文本检测和OCR解决方案
keras-ocr文字识别深度学习计算机视觉图像处理Github开源项目
keras-ocr是一个开源的文本检测和OCR工具包,集成了CRAFT检测模型和CRNN识别模型。该项目提供高级API用于训练和部署OCR流程,支持Python 3.6+和TensorFlow 2.0.0+环境。keras-ocr自带预训练模型,在COCO-Text验证集上表现接近主流云服务。它为开发者提供了一个灵活、高效且易于使用的OCR开发平台。
deep-license-plate-recognition - 基于深度学习的多功能车牌识别系统
ALPR车牌识别机器学习API图像处理Github开源项目
deep-license-plate-recognition是一个基于深度神经网络的自动车牌识别系统。该项目可在复杂环境下准确识别车牌,支持90多个国家,能识别车辆类型、品牌、型号和颜色。系统提供REST API接口,兼容多种编程语言和操作系统平台。适用于停车场管理、道路监控等场景,并提供免费试用。
topaz - 冷冻电镜图像颗粒检测和去噪的神经网络工具
Topaz粒子检测冷冻电镜卷积神经网络图像处理Github开源项目
Topaz是一个用于冷冻电镜图像分析的开源工具。它使用卷积神经网络进行颗粒检测,并提供显微图和断层图去噪功能。Topaz的处理流程包括图像预处理、模型训练、分割和颗粒提取。该工具支持GPU加速,可通过多种方式安装。Topaz为冷冻电镜数据处理提供了全面的解决方案,助力结构生物学研究。
AttGAN-Tensorflow - 精准控制的人脸属性编辑框架
AttGAN人脸属性编辑深度学习生成对抗网络图像处理Github开源项目
AttGAN-Tensorflow是一个开源的人脸属性编辑框架,基于深度学习技术实现。该项目允许精确控制并编辑人脸图像的特定属性,如发型、眼镜和胡须等。AttGAN支持高达40种属性的编辑和高分辨率图像处理。项目提供完整的TensorFlow实现、预训练模型和数据准备脚本,便于研究人员和开发者进行实验和应用。凭借其出色的性能和灵活性,AttGAN在人脸属性编辑领域具有重要价值。
VSGAN - VapourSynth超分辨率和图像修复模块
VSGANVapourSynth超分辨率图像处理PyTorchGithub开源项目
VSGAN是一个为VapourSynth开发的超分辨率和图像修复处理模块,基于PyTorch实现。该模块利用深度学习技术,提供视频和图像的高质量超分辨率和修复功能。VSGAN兼容Python 3.7+和VapourSynth R55+版本,在GitHub上开源并提供详细文档。这个持续更新的项目为视频处理爱好者和专业人士提供了强大的图像增强工具。
imageio - 多功能Python图像处理库
Imageio图像处理Python库多格式支持跨平台Github开源项目
imageio是一个多功能Python图像处理库,支持读写295多种格式的图像数据,包括动画、视频和科学格式。该库跨平台兼容Python 3.8+,依赖少,易于安装使用。它提供简洁的API接口、标准化元数据处理和高级选项,适用于各种复杂图像处理任务。
NextLevel - iOS高级相机开发框架 支持多样化媒体捕捉和处理
NextLeveliOS相机系统Swift视频录制图像处理Github开源项目
NextLevel是一款基于Swift的iOS相机开发框架,具备媒体捕捉和图像处理能力。该框架支持视频剪辑录制编辑、照片捕捉、ARKit集成、多镜头支持、帧率调节和深度数据捕捉等功能。NextLevel提供可扩展API,便于开发者实现图像处理和计算机视觉应用,适合构建各类高级相机应用程序。
cellpose - 多功能细胞分割和图像修复工具
Cellpose细胞分割图像处理机器学习生物医学图像Github开源项目
Cellpose是一款开源的细胞分割和图像处理工具,适用于各类生物图像分析。它支持细胞和细胞核的通用分割,可针对特定数据进行优化。Cellpose提供图形界面、API和命令行接口,支持人机交互训练。最新版本还增加了图像去噪、去模糊和上采样等修复功能,进一步提升分割效果。该工具具有高度灵活性和准确性,能满足研究人员的多样化需求。
exiftool-vendored.js - Node.js 的高性能跨平台 ExifTool 库
ExifToolNode.js元数据跨平台图像处理Github开源项目
exiftool-vendored.js 为 Node.js 提供快速、跨平台的 ExifTool 访问。这个库具有优异的性能和可靠性,支持读写标签、提取嵌入二进制和恢复元数据。它为常见标签提供强大的类型定义,支持 ExifTool 自动更新,并有完善的测试覆盖。该库被 PhotoStructure 等500多个项目用于处理照片和视频元数据。
cloudinary_npm - Node.js媒体资源管理与优化工具
CloudinaryNode SDK图像处理视频处理资产管理Github开源项目
Cloudinary Node SDK是一个用于Node.js的媒体资源管理工具。它提供了资产转换、优化、标签生成和安全URL生成等功能。该SDK支持大文件分块上传,并具有完善的安全机制。开发者可通过此SDK高效管理、处理和分发图像与视频,实现响应式和个性化的媒体呈现。