LLVIP

针对低光环境的可见光红外配对数据集

LLVIP 低光照视觉可见光红外配对数据集行人检测图像融合 Github 开源项目

LLVIP是一个面向低光环境视觉任务的可见光-红外配对数据集,包含30,976对高质量图像。该数据集涵盖多种场景和光照条件下的行人,可用于图像融合、行人检测和图像转换等计算机视觉应用。LLVIP为低光环境视觉研究提供了宝贵的数据资源,有助于推动相关技术发展,提升夜间和低光照条件下视觉系统的性能。

easyportrait - 人像分割和面部解析大规模数据集

EasyPortraitGithub人像分割人工智能开源项目数据集面部解析

EasyPortrait是一个包含40,000张高质量标注RGB图像的数据集，用于人像分割和面部解析研究。数据集提供9个类别的标注，涵盖背景、人物、皮肤、眉毛、眼睛等。它可应用于视频会议背景移除、面部美化等多个场景。数据集基于用户ID划分训练、验证和测试集，并提供多个基线模型的预训练权重，为计算机视觉研究提供了有价值的资源。

IC-Light - AI驱动的图像光照重塑技术

GithubIC-Light人工智能图像重新照明开源项目深度学习照明操控

IC-Light项目通过人工智能技术实现图像光照的精确控制和重塑。该项目提供基于文本提示的重光照模型和基于背景的条件模型，可根据需求调整前景图像的光照效果。这一技术不仅能创造出独特的视觉效果，还能保持高度的光照一致性，为图像编辑和视觉内容创作提供新的可能性。

LLaVA - 提升大型语言与视觉模型的视觉指令调优

GPT-4GithubLLaVA多模态交互大型语言与视觉模型开源项目视觉指令调优

LLaVA项目通过视觉指令调优提升大型语言与视觉模型的性能，达到了GPT-4级别。最新更新包括增强版LLaVA-NeXT模型及其在视频任务上的迁移能力，以及高效的LMMs-Eval评估管道。这些更新提升了模型的多任务和像素处理能力，支持LLama-3和Qwen等不同规模的模型，并提供丰富的示例代码、模型库和数据集，方便用户快速上手和深度研究。

ILCC - 3D激光雷达与相机自动外参标定方法

3D重建GithubLiDAR开源项目点云处理相机标定计算机视觉

ILCC是一个开源项目，提供基于激光反射强度的3D激光雷达和相机自动外参标定方法。项目功能包括点云分割、棋盘格检测、角点提取和外参优化，支持多种激光雷达型号。ILCC适用于全景和单目相机标定，提供3D点云可视化工具。项目附有使用说明和示例数据，便于研究人员使用。

HD-VG-130M - 大规模文本-视频对数据集助力AI视频生成研究

GithubHD-VG-130M学术研究开源项目数据集文本到视频生成高清无水印

HD-VG-130M是一个包含1.3亿对高清、宽屏、无水印的开放域文本-视频对的大规模数据集。专为AI视频生成研究设计，即将推出经过文本、动作和美学筛选的4000万高质量子集。目前已被50多家学术机构使用，仅限学术研究用途。研究者可通过Google Drive获取数据，并须遵守相关许可协议。

Retinexformer - Retinexformer：高效低光照图像增强工具，支持15个基准测试和超高分辨率

GithubICCV 2023NTIRE 2024Retinexformer低光照图像增强开源项目高分辨率图像

Retinexformer是一个低光照图像增强项目，支持超过15个基准测试和超高分辨率图像（最高4000x6000）。该项目在NTIRE 2024挑战中获得第二名，提供代码、预训练模型和训练日志。Retinexformer框架支持分布式数据并行和混合精度训练，自适应分割测试策略显著提升模型性能。

EnlightenGAN - 无监督深度光照增强技术

EnlightenGANGithub图像增强开源项目无配对监督深度学习计算机视觉

EnlightenGAN是一种用于增强低光照图像质量的深度学习方法。该技术采用无监督学习方式，无需配对的低光/正常光照图像进行训练。EnlightenGAN基于生成对抗网络(GAN)架构，能有效提升各种复杂场景下的图像亮度和细节。在多个公开数据集上，EnlightenGAN展现出优秀性能，为计算机视觉和图像处理领域提供了新的解决方案。

Video-LLaVA - 统一视觉表示学习的新方法增强跨模态交互能力

GithubVideo-LLaVA图像理解多模态开源项目视觉语言模型视频理解

Video-LLaVA项目提出了一种新的对齐方法,实现图像和视频统一视觉表示的学习。该模型在无图像-视频配对数据的情况下,展现出色的跨模态交互能力,同时提升图像和视频理解性能。研究显示多模态学习的互补性明显改善了模型在各类视觉任务上的表现,为视觉-语言模型开发提供新思路。

VILA - 创新的视觉语言模型预训练方法

GithubVILA多模态开源项目视觉语言模型量化预训练

VILA是一种新型视觉语言模型，采用大规模交错图像-文本数据预训练，增强了视频和多图像理解能力。通过AWQ 4位量化和TinyChat框架，VILA可部署到边缘设备。该模型在视频推理、上下文学习和视觉思维链等方面表现出色，并在多项基准测试中获得了优异成绩。项目完全开源，包括训练和评估代码、数据集以及模型检查点。

CLIP-ReID - 基于CLIP的无标签图像重识别新方法

CLIP-ReIDGithub人工智能图像重识别开源项目视觉语言模型计算机视觉

CLIP-ReID提出了一种无需具体文本标签的图像重识别新方法。该方法基于CLIP视觉-语言模型,结合CNN和ViT架构,并运用SIE和OLP等技术进行优化。在MSMT17等多个基准数据集上,CLIP-ReID展现了领先的性能,为图像重识别领域开辟了新的研究方向。

相关项目

推荐项目

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com