#图像处理

Colour-Checker Detection: 先进的色彩检查器检测Python库

3 个月前
Cover of Colour-Checker Detection: 先进的色彩检查器检测Python库

FFN: 洪水填充网络 - 3D体积实例分割的革命性技术

3 个月前
Cover of FFN: 洪水填充网络 - 3D体积实例分割的革命性技术

Eynollah: 先进的文档布局分析工具

3 个月前
Cover of Eynollah: 先进的文档布局分析工具

探索Mediapy: 一款强大的Python图像和视频处理库

3 个月前
Cover of 探索Mediapy: 一款强大的Python图像和视频处理库

OpenCV与Python深度学习实战:4小时掌握计算机视觉基础

3 个月前
Cover of OpenCV与Python深度学习实战:4小时掌握计算机视觉基础

NextLevel: 打造您的梦想工作平台

3 个月前
Cover of NextLevel: 打造您的梦想工作平台

VSGAN: 基于PyTorch的VapourSynth超分辨率和图像修复模块

3 个月前
Cover of VSGAN: 基于PyTorch的VapourSynth超分辨率和图像修复模块

AttGAN-Tensorflow: 只改变你想要的人脸属性编辑技术

3 个月前
Cover of AttGAN-Tensorflow: 只改变你想要的人脸属性编辑技术

Topaz: 革新性的冷冻电镜图像粒子检测与去噪工具

3 个月前
Cover of Topaz: 革新性的冷冻电镜图像粒子检测与去噪工具

HivisionIDPhotos: 轻量级高效的AI证件照制作工具

3 个月前
Cover of HivisionIDPhotos: 轻量级高效的AI证件照制作工具
相关项目
Project Cover

bakLlava-v1-hf

该模型基于Mistral-7B,支持多图像与多提示操作,性能在多项基准测试中优于Llama 2 13B,适用于学术任务和视觉问答。项目更新中,以进一步优化使用体验。

Project Cover

Emu3-Gen

Emu3采用单一变换器架构,将图像、文本和视频转化为统一序列空间进行处理。通过纯粹的下一标记预测训练方式,该系统在图像生成、视觉语言理解和视频生成等多个任务中展现出优异性能。与SDXL、LLaVA-1.6等专门模型相比,Emu3以更简洁的架构实现了更强的多模态处理能力。

Project Cover

blip2-flan-t5-xxl

BLIP2-FLAN-T5-XXL是一个集成CLIP图像编码器、查询转换器和Flan T5-xxl语言模型的多模态系统。通过查询转换架构连接图像特征和语言理解,实现图像描述生成、视觉问答和基于图像的对话功能。模型支持CPU/GPU部署,提供float16、int8等多种精度配置选项。目前主要应用于图像理解和自然语言生成的研究领域。

Project Cover

controlnet-depth-sdxl-1.0

项目ControlNet Depth SDXL 1.0结合Zoe和Midas检测器,通过ControlNet与Stable Diffusion XL技术提升图像生成的质量与多样性。该工具支持不同分辨率的图像处理,可选择双重检测器和多种调度器优化生成过程,是实现高质量图像生成的强大解决方案。

Project Cover

TTPLanet_SDXL_Controlnet_Tile_Realistic

SDXL Controlnet Tile模型是为真实风格图像优化设计的控制网络,兼容WebUI扩展和ComfyUI控制节点。通过改进的训练数据集,该模型实现了自动物体识别、色彩修正和控制强度增强。它主要用于图像细节增强和风格转换,尤其适合高分辨率图像的细节优化。模型适用于多种场景,如图像风格转换和高级放大处理,可显著提升图像质量和细节表现。

Project Cover

swin2SR-realworld-sr-x4-64-bsrgan-psnr

Swin2SR是一款图像超分辨率模型,支持图像4倍放大。该模型由Conde等人开发,基于SwinV2 Transformer架构,专注于解决实际场景中的图像超分辨率问题,可有效处理压缩图像的放大和修复。模型提供完整的官方文档支持。

Project Cover

nomic-embed-vision-v1.5

nomic-embed-vision-v1.5是一款视觉嵌入模型,与nomic-embed-text-v1.5共享嵌入空间。该模型在ImageNet零样本和Datacomp基准测试中表现出色,优于OpenAI CLIP和Jina CLIP。它支持多模态检索,适用于文本到图像的检索场景。开发者可通过Nomic嵌入API或Transformers库使用该模型生成嵌入。nomic-embed-vision-v1.5为多模态检索增强生成(RAG)应用提供了有力支持。

Project Cover

control_v11p_sd15_lineart

ControlNet v1.1 lineart是Stable Diffusion的线稿控制模型,通过输入线稿图像实现对生成结果的精确引导。该模型基于OpenRAIL许可证开源,支持草图转成品图像、线稿自动上色等功能,可与Stable Diffusion v1-5完美集成。作为专业的AI图像生成工具,它为数字艺术创作提供了更精准的控制方式。

Project Cover

DUSt3R_ViTLarge_BaseDecoder_512_dpt

该模型使用ViT-Large编码器和ViT-Base解码器构建,采用DPT结构设计。支持处理512x384至512x160等多种分辨率图像,为3D几何视觉提供简化实现方案。开发者可通过PyTorch快速部署使用,模型由NAVER开源并遵循CC BY-NC-SA 4.0许可协议。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号