#图像处理

Colour-Checker Detection: 先进的色彩检查器检测Python库

3 个月前

色彩检查器检测 Python包开源软件图像处理机器学习 Github 开源项目

3 个月前

FFN: 洪水填充网络 - 3D体积实例分割的革命性技术

3 个月前

Flood-Filling Networks 实例分割神经网络 TensorFlow 图像处理 Github 开源项目

3 个月前

Eynollah: 先进的文档布局分析工具

3 个月前

Eynollah 文档布局分析深度学习启发式算法图像处理 Github 开源项目

3 个月前

探索Mediapy: 一款强大的Python图像和视频处理库

3 个月前

mediapy 图像处理视频处理 Jupyter Python Github 开源项目

3 个月前

OpenCV与Python深度学习实战:4小时掌握计算机视觉基础

3 个月前

OpenCV Python 计算机视觉图像处理人脸识别 Github 开源项目

3 个月前

NextLevel: 打造您的梦想工作平台

3 个月前

NextLevel iOS相机系统 Swift 视频录制图像处理 Github 开源项目

3 个月前

VSGAN: 基于PyTorch的VapourSynth超分辨率和图像修复模块

3 个月前

VSGAN VapourSynth 超分辨率图像处理 PyTorch Github 开源项目

3 个月前

AttGAN-Tensorflow: 只改变你想要的人脸属性编辑技术

3 个月前

AttGAN 人脸属性编辑深度学习生成对抗网络图像处理 Github 开源项目

3 个月前

Topaz: 革新性的冷冻电镜图像粒子检测与去噪工具

3 个月前

Topaz 粒子检测冷冻电镜卷积神经网络图像处理 Github 开源项目

3 个月前

HivisionIDPhotos: 轻量级高效的AI证件照制作工具

3 个月前

证件照制作 AI抠图图像处理 HivisionIDPhoto API服务 Github 开源项目

3 个月前

相关项目

bakLlava-v1-hf

该模型基于Mistral-7B，支持多图像与多提示操作，性能在多项基准测试中优于Llama 2 13B，适用于学术任务和视觉问答。项目更新中，以进一步优化使用体验。

Emu3-Gen

Emu3采用单一变换器架构，将图像、文本和视频转化为统一序列空间进行处理。通过纯粹的下一标记预测训练方式，该系统在图像生成、视觉语言理解和视频生成等多个任务中展现出优异性能。与SDXL、LLaVA-1.6等专门模型相比，Emu3以更简洁的架构实现了更强的多模态处理能力。

blip2-flan-t5-xxl

BLIP2-FLAN-T5-XXL是一个集成CLIP图像编码器、查询转换器和Flan T5-xxl语言模型的多模态系统。通过查询转换架构连接图像特征和语言理解，实现图像描述生成、视觉问答和基于图像的对话功能。模型支持CPU/GPU部署，提供float16、int8等多种精度配置选项。目前主要应用于图像理解和自然语言生成的研究领域。

controlnet-depth-sdxl-1.0

项目ControlNet Depth SDXL 1.0结合Zoe和Midas检测器，通过ControlNet与Stable Diffusion XL技术提升图像生成的质量与多样性。该工具支持不同分辨率的图像处理，可选择双重检测器和多种调度器优化生成过程，是实现高质量图像生成的强大解决方案。

TTPLanet_SDXL_Controlnet_Tile_Realistic

SDXL Controlnet Tile模型是为真实风格图像优化设计的控制网络，兼容WebUI扩展和ComfyUI控制节点。通过改进的训练数据集，该模型实现了自动物体识别、色彩修正和控制强度增强。它主要用于图像细节增强和风格转换，尤其适合高分辨率图像的细节优化。模型适用于多种场景，如图像风格转换和高级放大处理，可显著提升图像质量和细节表现。

swin2SR-realworld-sr-x4-64-bsrgan-psnr

Swin2SR是一款图像超分辨率模型，支持图像4倍放大。该模型由Conde等人开发，基于SwinV2 Transformer架构，专注于解决实际场景中的图像超分辨率问题，可有效处理压缩图像的放大和修复。模型提供完整的官方文档支持。

nomic-embed-vision-v1.5

nomic-embed-vision-v1.5是一款视觉嵌入模型，与nomic-embed-text-v1.5共享嵌入空间。该模型在ImageNet零样本和Datacomp基准测试中表现出色，优于OpenAI CLIP和Jina CLIP。它支持多模态检索，适用于文本到图像的检索场景。开发者可通过Nomic嵌入API或Transformers库使用该模型生成嵌入。nomic-embed-vision-v1.5为多模态检索增强生成(RAG)应用提供了有力支持。

control_v11p_sd15_lineart

ControlNet v1.1 lineart是Stable Diffusion的线稿控制模型，通过输入线稿图像实现对生成结果的精确引导。该模型基于OpenRAIL许可证开源，支持草图转成品图像、线稿自动上色等功能，可与Stable Diffusion v1-5完美集成。作为专业的AI图像生成工具，它为数字艺术创作提供了更精准的控制方式。

DUSt3R_ViTLarge_BaseDecoder_512_dpt

该模型使用ViT-Large编码器和ViT-Base解码器构建，采用DPT结构设计。支持处理512x384至512x160等多种分辨率图像，为3D几何视觉提供简化实现方案。开发者可通过PyTorch快速部署使用，模型由NAVER开源并遵循CC BY-NC-SA 4.0许可协议。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com