#图像处理

zoedepth-nyu-kitti - 基于DPT框架的深度估计神经网络
ZoeDepth图像处理计算机视觉深度估计深度学习模型GithubHuggingface开源项目
ZoeDepth-nyu-kitti是一个基于DPT框架开发的深度估计模型,通过NYU和KITTI数据集进行微调。该模型结合相对深度和度量深度估计方法,可输出实际度量值的深度数据,支持零样本单目深度估计应用。模型提供pipeline API接口,便于集成使用。通过扩展DPT框架的功能,实现了从相对深度到度量深度的转换。
ldm-super-resolution-4x-openimages - 基于潜在扩散模型的图像超分辨率开源工具
图像超分辨率GithubHuggingface深度学习LDM图像处理开源项目神经网络模型
ldm-super-resolution-4x-openimages项目利用潜在扩散模型技术实现图像超分辨率处理。该项目在预训练自编码器的潜在空间中应用扩散模型,平衡了计算资源消耗与图像细节保留。项目支持图像4倍放大,并提供了完整的推理pipeline,适用于图像修复、无条件生成和语义场景合成等任务。
Depth-Anything-V2-Base - 更快更精细的单目深度估计模型
图像处理计算机视觉深度估计深度学习模型GithubDepth-Anything-V2Huggingface开源项目
Depth-Anything-V2是一款先进的单目深度估计模型,由595K合成标记图像和62M+真实未标记图像训练而成。它在细节表现、鲁棒性和效率上都超越了V1版本,处理速度比基于SD的模型快10倍。采用ViT-B架构,该模型为计算机视觉领域提供了高效的深度预测工具,尤其适用于需要精确深度信息的应用场景。
depth_anything_vitl14 - 先进的计算机视觉深度估计开源框架
图像处理计算机视觉开源项目深度学习模型深度估计Depth AnythingGithubHuggingface
depth_anything_vitl14是一个深度估计模型框架,专注于从单张图像中提取深度信息。该框架采用大规模无标记数据训练方式,具备完整的模型部署文档和Python接口。开发者可通过简单的代码调用实现图像深度估计,项目同时提供在线演示平台和技术文档支持。
segformer-b5-finetuned-cityscapes-1024-1024 - SegFormer-b5模型在CityScapes数据集上微调的语义分割应用
图像处理模型SegFormer深度学习Github语义分割Huggingface开源项目Transformer
SegFormer-b5是一个在CityScapes数据集上微调的语义分割模型。它结合层次化Transformer编码器和轻量级MLP解码头,在1024x1024分辨率下展现优秀性能。该模型经ImageNet-1k预训练后,通过添加解码头并在特定数据集微调,可应用于自动驾驶场景理解等多种语义分割任务。
AnimateLCM - 基于机器学习的轻量级视频生成框架
AnimateLCM图像处理模型深度学习Github视频生成人工智能动画Huggingface开源项目
AnimateLCM是一个视频生成框架,支持文本到视频和图像到视频的转换功能。该框架采用轻量级计算方式,无需使用预训练视频数据即可生成个性化视频。框架集成了SVD-xt和I2V模型,通过6步推理完成视频生成。基于Diffusers库开发,支持多种复杂场景的视频生成任务。
Chat-UniVi - 基于动态视觉令牌的图像视频双模态理解模型
图像处理开源项目模型多模态Github视频理解Chat-UniVi大语言模型Huggingface
Chat-UniVi是一个创新的大语言模型框架,采用动态视觉令牌技术实现图像和视频的统一处理。通过混合数据集训练,模型可同时处理图像空间信息和视频时序关系,性能超越了单一模态的专用模型。该项目为多模态AI技术发展提供了新的解决方案。
depth_anything_vits14 - 大规模无标签数据训练的开源深度估计工具
图像处理计算机视觉开源项目模型深度估计Depth Anything深度感知GithubHuggingface
Depth Anything是一个基于ViT-L/14架构的深度估计模型,通过大规模无标签数据训练。模型提供Python接口,支持518x518分辨率的图像深度估计,具备良好的泛化能力。采用模块化设计,支持自定义图像预处理和批量处理功能,可集成到现有项目中。研究人员和开发者可通过Hugging Face平台快速部署使用。
qinglong_controlnet-lllite - 轻量级动漫图像控制模型集成多种处理功能
ControlNet-LLLite深度学习模型Github模型训练开源项目HuggingfaceAI绘画图像处理
ControlNet-LLLite是一套基于ControlNet架构的轻量级图像控制模型,针对动漫图像处理进行了优化。它支持动漫人物面部分割、线条提取、深度图生成和色彩重构等功能。项目提供多个预训练模型,如AnimeFaceSegment、Normal和T2i-Color,可与ComfyUI和SD-WebUI集成。这套工具适用于需要精确控制动漫图像生成和编辑的场景。
Flux.1-dev-Controlnet-Upscaler - 基于ControlNet的Flux.1-dev兼容图像超分辨率模型
图像超分辨率图像处理Github图像增强开源项目模型HuggingfaceControlNet人工智能
Jasper研究团队开发的Flux.1-dev ControlNet超分辨率模型,专门处理低分辨率图像。采用合成复杂数据降质方案训练,可将图像分辨率提升4倍。基于diffusers库实现,支持高斯噪声、泊松噪声、图像模糊和JPEG压缩等多种图像降质处理。该模型与Flux.1-dev完全兼容,提供高质量的图像超分辨率功能。
vilt-b32-mlm - 探索无卷积技术在ViLT模型中的应用
语言建模Github开源项目PyTorch模型HuggingfaceViLT深度学习图像处理
ViLT模型利用无卷积方法在多个数据集进行预训练,专注于掩码语言建模。由Kim等人发布,适用于图像与文本结合场景。可通过PyTorch代码实现简单安装和试用,支持掩码位置的文本填补,推动自然语言处理和图像识别时跨模态学习的进展。
control_v11f1p_sd15_depth - 基于深度图的ControlNet模型为Stable Diffusion提供精准深度控制
Stable DiffusionGithub开源项目图像生成模型ControlNetHuggingface图像处理深度估计
control_v11f1p_sd15_depth是ControlNet v1.1系列的深度图控制模型。它通过深度信息精确控制图像生成,支持多种深度估计方法。相比1.0版本,新模型优化了训练数据,提高了预处理器兼容性,增强了通用性和鲁棒性。该模型可与Stable Diffusion等扩散模型配合使用,为图像生成提供精确的深度控制。
deit-tiny-patch16-224 - 高效小型视觉Transformer模型用于图像分类
ImageNet图像处理Github开源项目图像分类HuggingfaceDeiT深度学习模型
DeiT-tiny-patch16-224是一个在ImageNet-1k数据集上训练的高效视觉Transformer模型。该模型仅有5M参数,却在ImageNet top-1分类准确率上达到72.2%。它可处理224x224分辨率的图像输入,输出1000个ImageNet类别的预测结果,适用于各种图像分类任务。
DUSt3R_ViTLarge_BaseDecoder_512_dpt - ViT架构的多分辨率3D几何视觉模型用于深度估计
计算机视觉Github开源项目三维视觉DUSt3R模型Huggingface深度学习图像处理
该模型使用ViT-Large编码器和ViT-Base解码器构建,采用DPT结构设计。支持处理512x384至512x160等多种分辨率图像,为3D几何视觉提供简化实现方案。开发者可通过PyTorch快速部署使用,模型由NAVER开源并遵循CC BY-NC-SA 4.0许可协议。
control_v11p_sd15_lineart - 基于ControlNet的Stable Diffusion线稿生成控制模型
Stable DiffusionGithub机器学习开源项目AI图像生成模型ControlNetHuggingface图像处理
ControlNet v1.1 lineart是Stable Diffusion的线稿控制模型,通过输入线稿图像实现对生成结果的精确引导。该模型基于OpenRAIL许可证开源,支持草图转成品图像、线稿自动上色等功能,可与Stable Diffusion v1-5完美集成。作为专业的AI图像生成工具,它为数字艺术创作提供了更精准的控制方式。
nomic-embed-vision-v1.5 - 高性能视觉嵌入模型实现多模态共享空间
模型训练开源项目nomic-embed-vision-v1.5模型GithubHuggingface嵌入模型多模态图像处理
nomic-embed-vision-v1.5是一款视觉嵌入模型,与nomic-embed-text-v1.5共享嵌入空间。该模型在ImageNet零样本和Datacomp基准测试中表现出色,优于OpenAI CLIP和Jina CLIP。它支持多模态检索,适用于文本到图像的检索场景。开发者可通过Nomic嵌入API或Transformers库使用该模型生成嵌入。nomic-embed-vision-v1.5为多模态检索增强生成(RAG)应用提供了有力支持。
swin2SR-realworld-sr-x4-64-bsrgan-psnr - 基于SwinV2的实景图像4倍超分辨率模型
Swin2SR图像处理Github模型开源项目深度学习Huggingface计算机视觉图像超分辨率
Swin2SR是一款图像超分辨率模型,支持图像4倍放大。该模型由Conde等人开发,基于SwinV2 Transformer架构,专注于解决实际场景中的图像超分辨率问题,可有效处理压缩图像的放大和修复。模型提供完整的官方文档支持。
TTPLanet_SDXL_Controlnet_Tile_Realistic - SDXL Controlnet Tile模型:实现真实风格图像细节增强与重构
HuggingfaceSDXL图像处理ControlNetGithub模型开源项目人工智能模型图像增强
SDXL Controlnet Tile模型是为真实风格图像优化设计的控制网络,兼容WebUI扩展和ComfyUI控制节点。通过改进的训练数据集,该模型实现了自动物体识别、色彩修正和控制强度增强。它主要用于图像细节增强和风格转换,尤其适合高分辨率图像的细节优化。模型适用于多种场景,如图像风格转换和高级放大处理,可显著提升图像质量和细节表现。
controlnet-depth-sdxl-1.0 - ControlNet Depth与Stable Diffusion XL结合提升图像生成质量
开源项目模型GithubHuggingface图像生成深度检测深度学习图像处理ControlNet
项目ControlNet Depth SDXL 1.0结合Zoe和Midas检测器,通过ControlNet与Stable Diffusion XL技术提升图像生成的质量与多样性。该工具支持不同分辨率的图像处理,可选择双重检测器和多种调度器优化生成过程,是实现高质量图像生成的强大解决方案。
blip2-flan-t5-xxl - 整合CLIP和Flan T5的多模态模型实现图像理解与语言生成
图像处理HuggingfaceGithub开源项目视觉问答BLIP-2图像标注模型语言模型
BLIP2-FLAN-T5-XXL是一个集成CLIP图像编码器、查询转换器和Flan T5-xxl语言模型的多模态系统。通过查询转换架构连接图像特征和语言理解,实现图像描述生成、视觉问答和基于图像的对话功能。模型支持CPU/GPU部署,提供float16、int8等多种精度配置选项。目前主要应用于图像理解和自然语言生成的研究领域。
Emu3-Gen - 统一模型驱动的AI系统实现图像文本与视频的生成与理解
Emu3图像处理深度学习多模态模型HuggingfaceGithubAI生成开源项目模型
Emu3采用单一变换器架构,将图像、文本和视频转化为统一序列空间进行处理。通过纯粹的下一标记预测训练方式,该系统在图像生成、视觉语言理解和视频生成等多个任务中展现出优异性能。与SDXL、LLaVA-1.6等专门模型相比,Emu3以更简洁的架构实现了更强的多模态处理能力。
bakLlava-v1-hf - 基于Mistral-7B的视觉到文本生成模型
AI绘图BakLLaVAGithub开源项目模型模型优化Huggingface开源图像处理
该模型基于Mistral-7B,支持多图像与多提示操作,性能在多项基准测试中优于Llama 2 13B,适用于学术任务和视觉问答。项目更新中,以进一步优化使用体验。