#图像处理

OpenCV Extra: 扩展OpenCV功能的额外数据仓库

3 个月前
Cover of OpenCV Extra: 扩展OpenCV功能的额外数据仓库

OpenCV-Python: 强大的计算机视觉库

3 个月前
Cover of OpenCV-Python: 强大的计算机视觉库

LayerDiffuse: 革新透明图层生成的新方法

3 个月前
Cover of LayerDiffuse: 革新透明图层生成的新方法

低光照图像和视频增强技术综述:从传统方法到深度学习

3 个月前
Cover of 低光照图像和视频增强技术综述:从传统方法到深度学习

扩散模型在图像处理中的创新应用与进展

3 个月前
Cover of 扩散模型在图像处理中的创新应用与进展

CVPR 2020-2024 底层视觉研究进展概述

3 个月前
Cover of CVPR 2020-2024 底层视觉研究进展概述

Awesome-ECCV2024/ECCV2020低层视觉论文代码集锦

3 个月前
Cover of Awesome-ECCV2024/ECCV2020低层视觉论文代码集锦

Mamba模型在低层视觉任务中的应用与进展

3 个月前
Cover of Mamba模型在低层视觉任务中的应用与进展

Clean-FID: 修复FID计算中的不一致问题

3 个月前
Cover of Clean-FID: 修复FID计算中的不一致问题

Splatter Image: 超快速单视图3D重建技术

3 个月前
Cover of Splatter Image: 超快速单视图3D重建技术
相关项目
Project Cover

bakLlava-v1-hf

该模型基于Mistral-7B,支持多图像与多提示操作,性能在多项基准测试中优于Llama 2 13B,适用于学术任务和视觉问答。项目更新中,以进一步优化使用体验。

Project Cover

Emu3-Gen

Emu3采用单一变换器架构,将图像、文本和视频转化为统一序列空间进行处理。通过纯粹的下一标记预测训练方式,该系统在图像生成、视觉语言理解和视频生成等多个任务中展现出优异性能。与SDXL、LLaVA-1.6等专门模型相比,Emu3以更简洁的架构实现了更强的多模态处理能力。

Project Cover

blip2-flan-t5-xxl

BLIP2-FLAN-T5-XXL是一个集成CLIP图像编码器、查询转换器和Flan T5-xxl语言模型的多模态系统。通过查询转换架构连接图像特征和语言理解,实现图像描述生成、视觉问答和基于图像的对话功能。模型支持CPU/GPU部署,提供float16、int8等多种精度配置选项。目前主要应用于图像理解和自然语言生成的研究领域。

Project Cover

controlnet-depth-sdxl-1.0

项目ControlNet Depth SDXL 1.0结合Zoe和Midas检测器,通过ControlNet与Stable Diffusion XL技术提升图像生成的质量与多样性。该工具支持不同分辨率的图像处理,可选择双重检测器和多种调度器优化生成过程,是实现高质量图像生成的强大解决方案。

Project Cover

TTPLanet_SDXL_Controlnet_Tile_Realistic

SDXL Controlnet Tile模型是为真实风格图像优化设计的控制网络,兼容WebUI扩展和ComfyUI控制节点。通过改进的训练数据集,该模型实现了自动物体识别、色彩修正和控制强度增强。它主要用于图像细节增强和风格转换,尤其适合高分辨率图像的细节优化。模型适用于多种场景,如图像风格转换和高级放大处理,可显著提升图像质量和细节表现。

Project Cover

swin2SR-realworld-sr-x4-64-bsrgan-psnr

Swin2SR是一款图像超分辨率模型,支持图像4倍放大。该模型由Conde等人开发,基于SwinV2 Transformer架构,专注于解决实际场景中的图像超分辨率问题,可有效处理压缩图像的放大和修复。模型提供完整的官方文档支持。

Project Cover

nomic-embed-vision-v1.5

nomic-embed-vision-v1.5是一款视觉嵌入模型,与nomic-embed-text-v1.5共享嵌入空间。该模型在ImageNet零样本和Datacomp基准测试中表现出色,优于OpenAI CLIP和Jina CLIP。它支持多模态检索,适用于文本到图像的检索场景。开发者可通过Nomic嵌入API或Transformers库使用该模型生成嵌入。nomic-embed-vision-v1.5为多模态检索增强生成(RAG)应用提供了有力支持。

Project Cover

control_v11p_sd15_lineart

ControlNet v1.1 lineart是Stable Diffusion的线稿控制模型,通过输入线稿图像实现对生成结果的精确引导。该模型基于OpenRAIL许可证开源,支持草图转成品图像、线稿自动上色等功能,可与Stable Diffusion v1-5完美集成。作为专业的AI图像生成工具,它为数字艺术创作提供了更精准的控制方式。

Project Cover

DUSt3R_ViTLarge_BaseDecoder_512_dpt

该模型使用ViT-Large编码器和ViT-Base解码器构建,采用DPT结构设计。支持处理512x384至512x160等多种分辨率图像,为3D几何视觉提供简化实现方案。开发者可通过PyTorch快速部署使用,模型由NAVER开源并遵循CC BY-NC-SA 4.0许可协议。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号