#零样本学习
open_clip - 探索前沿图像与语言对比预训练技术
OpenCLIP预训练模型对比学习图像识别零样本学习Github开源项目
OpenCLIP是一个先进的开源深度学习项目,专注于OpenAI的CLIP模型的实现和优化。该项目在多样化的数据源和不同的计算预算下成功训练出多个高效能模型,涵盖图像和文本嵌入、模型微调及新模型开发等多个领域。通过增强图像与语言的联合理解能力,OpenCLIP显著推动了人工智能技术的发展,拓宽了其应用领域。
GenerSpeech - 文本转语音模型,可实现 OOD 自定义语音的高保真零样本样式传输
GenerSpeech文本到语音风格转换零样本学习多GPU支持Github开源项目
GenerSpeech: PyTorch实现的NeurIPS 2022文本到语音模型,专注于无监督出域场景下的高保真样式转换。提供多层级样式转换、优化的模型泛化功能,并支持多GPU环境。完整指南及音频样例可在线获取,助您快速实施和部署。
zshot - 零样本与少样本命名实体和关系识别的开源框架
Zshot命名实体识别零样本学习关系抽取实体链接Github开源项目
Zshot是一个高度可定制的开源框架,支持零样本和少样本的命名实体识别和关系识别。该框架提供提及抽取、维基化和关系抽取等功能,并利用SpaCy进行可视化。适用于研究和工业应用,支持最新的方法和预训练模型,并提供易于扩展的API接口。
recognize-anything - 通用图像识别模型:支持开放域类别和高精度标签生成
RAM++图像识别开源模型零样本学习多模态Github开源项目
Recognize Anything Model是一系列开源图像识别模型,包括RAM++、RAM和Tag2Text。这些模型能准确识别常见和开放域类别,支持高精度图像标签生成和全面描述。项目提供预训练模型、推理代码和训练数据集,适用于多种计算机视觉任务。模型性能优于现有先进方案,尤其在零样本识别方面表现突出。
Segment-Any-Anomaly - 基于混合提示正则化的零样本异常分割方法
SAA+异常分割零样本学习计算机视觉图像处理Github开源项目
Segment-Any-Anomaly项目提出了一种基于混合提示正则化的零样本异常分割方法。该方法通过适配Grounding DINO和Segment Anything等基础模型,实现了对多种异常检测数据集的高效分割。项目在MVTec-AD、VisA等公开数据集上展现出优秀性能,并在VAND工作坊竞赛中取得佳绩。仓库包含完整代码实现、演示和使用说明,便于研究者复现和应用。
VoiceCraft - 实现零样本语音编辑和实时文本转语音的革命性技术
VoiceCraft语音编辑文本转语音神经编解码语言模型零样本学习Github开源项目
VoiceCraft是一个开源的语音技术项目,专注于零样本语音编辑和实时文本转语音。该项目仅需几秒钟的参考音频即可克隆或编辑未知声音,在有声书、网络视频和播客等真实场景中表现出色。VoiceCraft提供多种运行方式,包括Google Colab、Docker和本地环境,方便研究人员和开发者使用。项目在语音编辑和零样本TTS领域达到了先进水平,为语音技术的发展开辟了新方向。
naturalspeech2-pytorch - NaturalSpeech 2在PyTorch中的开源实现
语音合成深度学习自然语音Pytorch零样本学习Github开源项目
NaturalSpeech 2是一个基于PyTorch的开源项目,实现了零样本语音和歌唱合成。该项目采用神经音频编解码器和潜在扩散模型,结合非自回归生成和去噪扩散技术,实现高质量的文本到语音转换。项目还优化了注意力机制和Transformer组件,为研究人员和开发者提供了探索先进TTS技术的平台。
AnyDoor - 实现对象级图像灵活定制和编辑
AnyDoor图像定制零样本学习目标级处理深度学习Github开源项目
AnyDoor是一种零样本对象级图像定制技术,实现灵活的图像编辑。它能将参考对象无缝插入目标图像,保持风格一致性和真实感。项目提供训练和推理代码、预训练模型及在线演示。AnyDoor适用于虚拟试穿、换脸等任务,也可作为区域到区域生成任务的基础模型。该技术为图像编辑和生成领域提供了新的可能性。
MS-Diffusion - 基于布局引导的多主体零样本图像个性化框架
MS-Diffusion图像生成多主题个性化布局引导零样本学习Github开源项目
MS-Diffusion是一个多主体零样本图像个性化框架,利用布局引导技术提高生成质量。该框架通过接地令牌和特征重采样器保持细节保真度,并引入多主体交叉注意力机制协调主体组合。实验显示,MS-Diffusion在图像和文本保真度方面表现优异,有助于推进个性化文本到图像生成技术的发展。
ReCon - 融合对比和生成方法的3D表示学习框架
ReCon3D表示学习点云分类零样本学习少样本学习Github开源项目
ReCon是一个融合对比学习和生成式预训练的3D表示学习框架,有效解决了数据不足和表示过拟合问题。该框架在3D点云分类、少样本学习和零样本迁移等任务中表现出色,在ScanObjectNN数据集上达到91.26%的分类准确率。ReCon展现了在3D表示学习领域的先进性能,为相关研究提供了新的思路。
Rerender_A_Video - 零样本文本引导的视频风格转换框架
Rerender A Video视频转换AI视频处理时间一致性零样本学习Github开源项目
Rerender_A_Video项目提出了一种零样本文本引导的视频到视频转换框架。该框架通过关键帧转换和全视频转换,实现了视频风格和纹理的时间一致性。无需重新训练,可与现有图像扩散技术兼容,支持使用LoRA自定义主题和ControlNet引入空间引导。这种方法能生成高质量、时间连贯的风格化视频。
CoT-Collection - 思维链微调数据集提升语言模型少样本学习能力
CoT-Collection思维链语言模型零样本学习few-shot学习Github开源项目
CoT-Collection数据集包含184万个思维链推理过程,覆盖1060个任务。该项目通过思维链微调提升语言模型的零样本和少样本学习能力。研究人员可通过Hugging Face获取数据集和预训练模型。这一资源有助于增强AI系统的推理能力,仅供非商业研究使用。
ICL_PaperList - 上下文学习研究论文集,从预训练到应用
上下文学习语言模型提示工程预训练零样本学习Github开源项目
ICL_PaperList是一个收录上下文学习(In-context Learning)研究论文的开源项目。内容涵盖模型预训练、提示调优、分析评估等方面,并对Survey、Model Training、Prompt Tuning等领域进行了分类整理。该项目为研究人员提供了全面的上下文学习文献资源,有助于了解该领域的最新进展和发展方向。
ZeroEval - 统一评估框架测试语言模型零样本推理
ZeroEval语言模型评估零样本学习任务性能AI框架Github开源项目
ZeroEval是一个评估语言模型零样本推理能力的统一框架。它通过控制提示、采样和输出解析等因素,在MMLU、GSM等任务上测试指令微调模型的性能。该框架要求模型以JSON格式输出推理过程和答案,并持续扩展评估任务范围。
YOLO-World - 下一代实时开放词汇目标检测模型
YOLO-World目标检测开放词汇预训练模型零样本学习Github开源项目
YOLO-World是一款创新的实时开放词汇目标检测模型。经过大规模数据集预训练,它展现出卓越的开放词汇检测和定位能力。采用'先提示后检测'范式,YOLO-World通过重参数化技术实现高效的自定义词汇推理。该模型支持零样本目标检测、分割等多种任务,并开源了在线演示、预训练权重和微调代码,为计算机视觉领域提供了实用的研究与应用工具。
UniTS - 统一时间序列模型实现多领域任务处理
UniTS时间序列模型多任务学习迁移学习零样本学习Github开源项目
UniTS是一种统一的时间序列模型,可处理多领域的分类、预测、插补和异常检测任务。该模型使用共享参数方法,无需任务特定模块,在38个多领域数据集上表现优异。UniTS具有零样本、少样本和提示学习能力,能适应新的数据领域和任务。其创新的统一网络主干融合了序列和变量注意力机制以及动态线性运算符,为时间序列分析提供了灵活的解决方案。
GLIP - 视觉语言预训练模型实现高效零样本和小样本物体检测
GLIP计算机视觉目标检测预训练零样本学习Github开源项目
GLIP是一种视觉语言预训练模型,在零样本和小样本物体检测任务中表现优异。该模型在COCO和LVIS等标准基准测试中超越了多个有监督基线。GLIP还具有出色的迁移能力,在13个下游物体检测任务中,少样本GLIP可与全监督Dynamic Head模型媲美。项目提供预训练、零样本评估和微调等功能的代码实现,以及多个预训练模型。
lang-seg - 语言驱动的零样本语义图像分割模型
LSeg语义分割零样本学习CLIP计算机视觉Github开源项目
LSeg是一种语言驱动的语义图像分割模型,结合文本编码器和Transformer图像编码器。它能将描述性标签与图像像素对齐,实现高效零样本分割。LSeg在多个数据集上表现出色,无需额外训练即可泛化到新类别。该模型在固定标签集上可与传统算法媲美,为语义分割任务提供了灵活有力的解决方案。
WinClip - 先进的零样本和少样本异常检测算法
WinCLIP异常检测计算机视觉零样本学习少样本学习Github开源项目
WinCLIP是计算机视觉领域的创新零样本和少样本异常检测算法,专注于异常分类和异常分割。该方法在MVTec-AD和VisA数据集上表现出色,在图像级和像素级异常检测任务中均展现优异性能。项目提供完整实现代码,包含环境配置、数据集准备和结果复现指南,为研究人员和开发者提供重要参考,推动了异常检测技术的发展。
OpenGraph - 图神经网络零样本学习的突破性研究
OpenGraph图神经网络零样本学习大语言模型图生成Github开源项目
OpenGraph是一个创新的图基础模型,通过从大语言模型中提取零样本图泛化能力,解决了图神经网络领域的关键技术挑战。该模型引入了统一图标记器、可扩展图transformer和基于大语言模型的数据增强机制,在多种场景下展现出优异的零样本图学习性能。这项研究为图神经网络的泛化能力提升和应用场景拓展开辟了新方向。
FRESCO - 基于空间-时间对应的零样本视频转换技术
FRESCO视频转换零样本学习时空对应稳定扩散Github开源项目
FRESCO是一种新型零样本视频转换技术,通过建立空间-时间约束来实现跨帧内容的一致转换。该方法结合帧内和帧间对应关系,对特征进行更新以保持与输入视频的一致性。FRESCO无需训练即可使用,兼容现有模型,能生成高质量连贯的视频,性能超过其他零样本方法。
chinese-clip-vit-base-patch16 - 中文数据驱动的多模态对比学习工具
Github模型开源项目零样本学习深度学习Chinese-CLIP图像识别Huggingface多模态检索
项目通过ViT和RoBERTa实现了中文CLIP模型,支持图像和文本的嵌入计算及相似性分析,具备零样本学习和图文检索功能。该模型在多项基准测试中表现优秀,包括MUGE、Flickr30K-CN等。结合其官方API,用户可轻松实现多场景中的图文转换与识别。详细信息和实施教程可在GitHub获取。
clip-vit-large-patch14 - OpenAI CLIP模型实现零样本图像分类和跨模态匹配
人工智能计算机视觉GithubHuggingface模型开源项目CLIP图像分类零样本学习
CLIP是OpenAI开发的视觉语言模型,结合ViT-L/14和Transformer架构。通过对比学习,CLIP能够实现零样本图像分类和跨模态匹配。虽然在多项计算机视觉任务中表现优异,但在细粒度分类等方面仍有局限。该模型主要供研究人员探索视觉模型的鲁棒性和泛化能力,不适用于商业部署。CLIP的数据来源广泛,但可能存在偏见,使用时需谨慎评估。
clip-vit-base-patch32 - OpenAI CLIP模型实现零样本图像分类的视觉语言预训练
零样本学习OpenAI图像分类CLIP开源项目计算机视觉GithubHuggingface模型
CLIP是OpenAI开发的视觉语言预训练模型,使用ViT-B/32和Transformer架构分别作为图像和文本编码器。通过对比学习训练,CLIP能实现零样本图像分类等任务,在多项计算机视觉基准测试中表现优异。尽管在细粒度分类和物体计数方面存在局限,CLIP为研究人员提供了探索模型鲁棒性和泛化能力的重要工具。
clip-vit-base-patch16 - OpenAI开发的CLIP模型实现零样本图像分类和跨模态理解
人工智能计算机视觉GithubHuggingface模型开源项目CLIP图像分类零样本学习
CLIP是OpenAI开发的视觉语言模型,结合ViT-B/16和masked self-attention Transformer架构。通过对比学习,实现零样本图像分类和跨模态理解。在多项计算机视觉基准测试中表现优异,但在细粒度分类和对象计数方面存在局限。该模型主要用于研究计算机视觉任务的鲁棒性和泛化能力,不适用于商业部署。
clipseg-rd64-refined - 基于文本和图像提示的先进图像分割策略
模型一样本学习零样本学习复杂卷积图像分割开源项目HuggingfaceGithubCLIPSeg
该模型引入先进的复杂卷积技术,支持零样本和单样本图像分割。结合文本与图像提示,该模型在图像分析中提供高效且准确的分割性能。
CLIP-ViT-B-16-laion2B-s34B-b88K - 基于LAION-2B数据集训练的CLIP零样本图像分类模型
CLIP模型多模态模型图像分类零样本学习GithubHuggingface开源项目LAION-2B
CLIP-ViT-B-16-laion2B-s34B-b88K是基于LAION-2B英文数据集训练的CLIP ViT-B/16模型,在ImageNet-1k上达到70.2%的零样本Top-1准确率。该模型适用于零样本图像分类、图像文本检索等任务,也可用于图像分类微调、线性探测分类和图像生成引导等下游任务。本模型主要面向研究用途,不适合直接应用于商业场景。
grounding-dino-tiny - Grounding DINO模型实现开放集目标检测的创新突破
模型目标检测零样本学习计算机视觉Github深度学习Grounding DINOHuggingface开源项目
Grounding DINO模型通过结合DINO与接地预训练技术,实现了开放集目标检测。该模型添加文本编码器,扩展了传统闭集检测模型的能力,可进行零样本目标检测。在COCO数据集上,Grounding DINO取得了52.5 AP的优秀成绩,为计算机视觉中未标记物体的识别提供了新的解决方案。
siglip-so400m-patch14-384 - SigLIP模型应用sigmoid损失函数提升多模态处理能力
模型WebLI数据集零样本学习开源项目多模态模型Huggingface图像分类SigLIPGithub
SigLIP模型基于WebLi数据集在384x384分辨率下预训练,采用SoViT-400m架构。通过sigmoid损失函数优化CLIP模型,在零样本图像分类和图像文本检索任务中表现优异。该模型可处理更大批量,同时在小批量下也有出色表现。经16个TPU-v4芯片3天训练,为多模态任务奠定了坚实基础。
owlvit-base-patch32 - OWL-ViT:基于CLIP的开放词汇目标检测模型
模型目标检测Github零样本学习开源项目HuggingfaceCLIP计算机视觉OWL-ViT
OWL-ViT是一种基于CLIP的目标检测模型,专注于开放词汇和零样本检测任务。它结合了ViT结构的视觉编码器和因果语言模型的文本编码器,通过端到端训练实现了灵活的文本条件目标检测。该模型支持单一或多个文本查询,能够在未见过的类别上进行定位和分类,为计算机视觉领域的研究提供了新的工具和方向。
depth-anything-small-hf - 基于大规模无标注数据的先进深度估计模型
图像处理零样本学习深度估计Huggingface模型GithubDepth Anything开源项目视觉模型
Depth Anything是一款基于DPT架构和DINOv2骨干网络的创新深度估计模型。通过对约6200万张图像的训练,该模型在相对和绝对深度估计领域均实现了突破性成果。它不仅支持零样本深度估计,还能适应多样化的场景图像。研究人员和开发者可以通过简洁的pipeline或灵活的自定义类,轻松实现高精度的图像深度估计。
grounding-dino-base - 实现开放集目标检测的创新模型
计算机视觉零样本学习Huggingface深度学习模型Grounding DINOGithub开源项目物体检测
Grounding DINO是一种创新的开放集目标检测模型,结合DINO与文本预训练技术。通过整合文本编码器,该模型将闭集目标检测扩展为零样本目标检测。在COCO数据集上,Grounding DINO达到了52.5 AP的性能。此模型支持研究人员直接进行零样本目标检测,无需额外的标记数据即可识别图像中的物体。
owlv2-base-patch16-ensemble - 基于CLIP的开放词汇目标检测模型
模型目标检测Github零样本学习开源项目HuggingfaceCLIPOWLv2计算机视觉
OWLv2是一个基于CLIP的开放词汇目标检测模型。它使用ViT-B/16和masked self-attention Transformer分别作为图像和文本编码器,通过对比学习训练。该模型支持多文本查询的零样本目标检测,无需预定义类别。OWLv2在开放词汇目标检测任务中表现优异,为计算机视觉研究开辟了新方向。
CLIP-ViT-B-32-laion2B-s34B-b79K - 基于LAION-2B数据集训练的CLIP ViT-B/32零样本图像识别模型
CLIP模型多模态模型图像分类零样本学习GithubHuggingface开源项目LAION-2B
CLIP-ViT-B-32-laion2B-s34B-b79K是一个基于LAION-2B英文数据集训练的CLIP ViT-B/32模型,在ImageNet-1k上实现66.6%的零样本top-1准确率。该模型适用于零样本图像分类、图像文本检索等任务,由Stability AI提供算力支持,采用OpenCLIP框架训练。此模型为研究人员提供了探索零样本任意图像分类的有力工具。
sam-vit-large - 高性能AI图像分割模型 多种输入方式生成精确物体遮罩
Segment Anything Model模型零样本学习计算机视觉Github深度学习图像分割Huggingface开源项目
sam-vit-large是Segment Anything Model (SAM)的一个版本,由Facebook开发。这是一个先进的计算机视觉模型,可根据点、框等输入生成高精度物体遮罩。经过1100万图像和11亿遮罩的训练,该模型展现出优秀的零样本性能。它能自动生成图像中所有物体的遮罩,适用于多种图像分割任务,为计算机视觉研究提供了新的基础工具。
vit_large_patch14_clip_224.openai - 探索OpenAI提出的CLIP模型在计算机视觉任务中零样本分类的潜力
HuggingfaceCLIP开源项目模型Github零样本学习计算机视觉偏见公平性
OpenAI开发的CLIP模型通过对比损失训练大量的图像与文本对展示了其在计算机视觉任务中实现零样本分类的能力。这一模型尤其适合AI研究人员用以深入理解计算机视觉模型的鲁棒性及泛化能力,同时关注于它的潜在局限与偏见。尽管在细粒度分类和对象计数任务中存在不足,CLIP提供了对于模型在不同任务表现及相关风险的深入认知。需要注意的是,CLIP模型并不适用于商业用途,且其数据训练主要基于英语环境。
相关文章
GenerSpeech: 突破性的零样本风格迁移文本转语音模型
2024年08月30日
VoiceCraft: 突破性的零样本语音编辑和文本转语音技术
2024年09月04日
Segment Any Anomaly: 零训练异常分割的创新方法
2024年09月04日
AnyDoor:突破性的零样本对象级图像定制技术
2024年09月04日
MS-Diffusion: 多主体零样本图像个性化的布局引导创新
2024年09月04日
ReCon: 对比重构引导的3D表示学习新方法
2024年09月04日
Recognize Anything: 强大而通用的图像识别模型
2024年09月05日
CoT-Collection: 推动语言模型通过思维链微调实现零样本和少样本学习的进步
2024年09月05日
OpenCLIP: 开源实现的CLIP模型
2024年08月30日