lang-segment-anything

基于文本提示的开源图像分割工具

Language Segment-Anything 图像分割对象检测深度学习计算机视觉 Github 开源项目

Lang-segment-anything是一个开源项目，结合实例分割和文本提示功能，用于生成图像中特定对象的掩码。该工具基于Meta的segment-anything模型和GroundingDINO检测模型，实现了零样本文本到边界框的对象检测。项目支持自定义文本提示进行精确对象分割，并可在Lightning AI应用平台上部署。这一工具为图像分析和对象识别提供了新的解决方案。

访问官网

Github

介绍相关项目

evf-sam2-multitask - 创新视觉语言融合技术提升文本引导图像分割效果

EVF-SAMGithubHuggingface人工智能图像分割开源项目模型深度学习视觉语言融合

EVF-SAM项目引入了早期视觉语言融合技术，旨在优化文本引导的图像分割任务。通过有效结合视觉与语言信息，该技术显著提升了分割的精确度和效率。项目提供了模型检查点，使用者可通过源代码中的'inference.py'文件了解具体应用方法。值得注意的是，当前版本需要从源代码直接导入模型脚本，尚不支持'AutoModel.from_pretrained(...)'功能。

RegionSpot - 基于深度学习的智能区域识别开源项目

AI模型GithubRegionSpot区域检测图像识别开源项目计算机视觉

RegionSpot是一个开源计算机视觉项目，专门用于识别图像中的任意区域。该项目利用深度学习技术，通过文本提示或边界框输入来定位和分割图像中的特定区域。RegionSpot提供了多个预训练模型，在罕见物体检测中实现了26.3%的框AP和23.4%的掩码AP。项目支持自定义词汇，并提供简单的API接口，适用于多种计算机视觉应用场景。

depth_anything_vits14 - 大规模无标签数据训练的开源深度估计工具

Depth AnythingGithubHuggingface图像处理开源项目模型深度估计深度感知计算机视觉

Depth Anything是一个基于ViT-L/14架构的深度估计模型，通过大规模无标签数据训练。模型提供Python接口，支持518x518分辨率的图像深度估计，具备良好的泛化能力。采用模块化设计，支持自定义图像预处理和批量处理功能，可集成到现有项目中。研究人员和开发者可通过Hugging Face平台快速部署使用。

LLM-groundedDiffusion - 优化文本到图像合成的提示理解能力

GPT-4GithubHuggingFaceLLM-grounded DiffusionStable DiffusionTMLR开源项目

本项目通过将大型语言模型（LLM）与文本到图像扩散模型结合，提高了提示理解能力。LLM负责解析文本请求，生成中间表示如图像布局，最终通过稳定扩散模型生成高质量图像。项目支持多种生成方法和开源模型，用户可自行设置实现自托管，从而节约API调用成本。项目更新频繁，包括支持高分辨率生成和集成SDXL精炼器等功能。

ritm_interactive_segmentation - 迭代训练与掩码引导的交互式图像分割方法

Github交互式图像分割开源项目神经网络计算机视觉迭代训练遮罩引导

该项目提出了一种基于掩码引导的迭代训练方法，用于交互式图像分割。这种方法能够分割新对象，也可从外部掩码开始修正。采用简单前馈模型，无需额外优化即可达到先进性能。项目提供训练和测试代码、预训练模型及交互式演示，支持多种数据集和评估指标。

depth-anything-large-hf - 基于DPT和DINOv2的大规模深度估计模型

Depth AnythingGithubHuggingface人工智能图像处理开源项目模型深度估计计算机视觉

Depth Anything是一个基于DPT架构和DINOv2主干的深度估计模型，通过6200万张图像训练而成。该模型在相对和绝对深度估计方面均达到最先进水平，可用于零样本深度估计等任务。它提供简单的pipeline接口，支持任意尺寸输入图像，并输出高质量深度图。Depth Anything为计算机视觉领域提供了强大的深度感知能力，可应用于多个场景。

GeoSeg - 遥感图像语义分割框架支持多种数据集和先进模型

GeoSegGithubVision Transformer开源项目深度学习语义分割遥感图像

GeoSeg是一个开源的遥感图像语义分割工具箱,基于PyTorch等框架开发。它专注于先进视觉Transformer模型,支持多个遥感数据集,提供统一训练脚本和多尺度训练测试功能。项目实现了Mamba、Vision Transformer和CNN等多种网络架构,为遥感图像分割研究提供统一基准平台。

depth-anything-small-hf - 基于大规模无标注数据的先进深度估计模型

Depth AnythingGithubHuggingface图像处理开源项目模型深度估计视觉模型零样本学习

Depth Anything是一款基于DPT架构和DINOv2骨干网络的创新深度估计模型。通过对约6200万张图像的训练，该模型在相对和绝对深度估计领域均实现了突破性成果。它不仅支持零样本深度估计，还能适应多样化的场景图像。研究人员和开发者可以通过简洁的pipeline或灵活的自定义类，轻松实现高精度的图像深度估计。

SLiMe - 基于Stable Diffusion的单样本图像分割方法

GithubPyTorchSLiMeStable Diffusion图像分割开源项目深度学习

SLiMe是一种基于Stable Diffusion的单样本图像分割方法，通过单个训练样本实现准确分割。项目提供PyTorch实现，包含训练、测试和数据处理指南。SLiMe在PASCAL-Part和CelebAMask-HQ数据集上表现优异，为图像分割研究提供新思路。项目开源代码，支持自定义数据集训练和测试。SLiMe采用图像分块处理技术，提高分割精度。研究者可基于此探索更多单样本学习应用场景。

X-Decoder - 像素、图像和语言的统一解码模型

GithubX-Decoder图像分割多任务学习开放词汇分割开源项目计算机视觉

X-Decoder是一个通用解码模型,可生成像素级分割和标记级文本。该模型在多个数据集上实现了开放词汇分割和指代分割的最佳结果,在分割和视觉语言任务上表现出色。X-Decoder支持语义、实例和全景分割,以及图像描述、图像-文本检索等多种任务。此外,它还能进行区域检索、指代描述、图像编辑等零样本任务组合。

相关项目

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计是一个多功能的在线设计和创意平台，提供广泛的设计工具和资源，以满足不同用户的需求。从专业的图形设计师到普通用户，无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑，稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合，帮助用户轻松实现创意设计。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号