#零样本学习

GenerSpeech入门学习资料 - 高保真零样本风格迁移TTS模型

1 个月前

GenerSpeech是一个用于域外自定义语音高保真零样本风格迁移的文本转语音模型。本文汇总了GenerSpeech的相关学习资源,包括项目介绍、代码实现、演示样例等,帮助读者快速了解和上手这一前沿TTS技术。

GenerSpeech 文本到语音风格转换零样本学习多GPU支持 Github 开源项目

1 个月前

FRESCO:一种革命性的零样本视频翻译技术

2 个月前

FRESCO是一种新型的零样本视频翻译方法,通过引入空间-时间对应约束来实现高质量、连贯的视频风格转换。本文详细介绍了FRESCO的工作原理、主要特点以及应用示例。

FRESCO 视频转换零样本学习时空对应稳定扩散 Github 开源项目

2 个月前

UniTS: 构建统一时间序列模型的突破性研究

2 个月前

UniTS是一个革命性的统一时间序列模型，能够处理跨多个领域的各种任务，具有共享参数和无任务特定模块的特点。本文深入探讨了UniTS的创新设计、强大功能和广泛应用前景。

UniTS 时间序列模型多任务学习迁移学习零样本学习 Github 开源项目

2 个月前

GLIP: 突破性的图像-语言预训练模型

2 个月前

GLIP是微软研究院开发的图像-语言预训练模型,在多项视觉任务上展现出强大的零样本和少样本迁移能力,为计算机视觉和自然语言处理的结合开辟了新的方向。

GLIP 计算机视觉目标检测预训练零样本学习 Github 开源项目

2 个月前

YOLO-World: 开创实时开放词汇目标检测新纪元

2 个月前

YOLO-World是一种创新的实时开放词汇目标检测模型,它通过视觉-语言建模和大规模数据集预训练,为YOLO赋予了开放词汇检测能力,实现了高效、灵活的目标检测。

YOLO-World 目标检测开放词汇预训练模型零样本学习 Github 开源项目

2 个月前

open_clip学习资料汇总 - 开源CLIP实现

1 个月前

open_clip是OpenAI CLIP(对比语言-图像预训练)模型的开源实现,本文汇总了该项目的主要学习资源,帮助读者快速入门和深入学习。

OpenCLIP 预训练模型对比学习图像识别零样本学习 Github 开源项目

1 个月前

OpenGraph协议：让网页成为丰富的社交图谱对象

2 个月前

OpenGraph协议是一种让任何网页都能成为社交图谱中丰富对象的开放标准。本文深入介绍了OpenGraph的原理、实现方法和应用场景,帮助开发者更好地利用这一强大工具优化网站的社交分享体验。

OpenGraph 图神经网络零样本学习大语言模型图生成 Github 开源项目

2 个月前

WinCLIP: 零样本/少样本异常分类和分割的创新方法

2 个月前

WinCLIP是一种基于CLIP模型的创新方法,旨在解决工业质量检测中的零样本和少样本异常分类与分割问题。它通过窗口化CLIP和特征对齐等技术,显著提高了模型在无监督和少样本场景下的性能,为自动化质量检测提供了新的解决方案。

WinCLIP 异常检测计算机视觉零样本学习少样本学习 Github 开源项目

2 个月前

LSeg: 基于语言驱动的语义分割新模型

2 个月前

LSeg是一种创新的语言驱动语义图像分割模型,通过文本编码器和图像编码器的结合,实现了灵活的标签表示和出色的零样本分割性能。

LSeg 语义分割零样本学习 CLIP 计算机视觉 Github 开源项目

2 个月前

深入探讨In-context Learning: 从原理到应用的全面综述

2 个月前

本文全面介绍了In-context Learning(ICL)的发展历程、核心原理、关键技术以及最新研究进展,涵盖了ICL的模型训练、提示词调优、分析评估等多个方面,为读者提供了系统而深入的ICL学习指南。

上下文学习语言模型提示工程预训练零样本学习 Github 开源项目

2 个月前

相关项目

GenerSpeech

GenerSpeech: PyTorch实现的NeurIPS 2022文本到语音模型，专注于无监督出域场景下的高保真样式转换。提供多层级样式转换、优化的模型泛化功能，并支持多GPU环境。完整指南及音频样例可在线获取，助您快速实施和部署。

zshot

Zshot是一个高度可定制的开源框架，支持零样本和少样本的命名实体识别和关系识别。该框架提供提及抽取、维基化和关系抽取等功能，并利用SpaCy进行可视化。适用于研究和工业应用，支持最新的方法和预训练模型，并提供易于扩展的API接口。

recognize-anything

Recognize Anything Model是一系列开源图像识别模型，包括RAM++、RAM和Tag2Text。这些模型能准确识别常见和开放域类别，支持高精度图像标签生成和全面描述。项目提供预训练模型、推理代码和训练数据集，适用于多种计算机视觉任务。模型性能优于现有先进方案，尤其在零样本识别方面表现突出。

Segment-Any-Anomaly

Segment-Any-Anomaly项目提出了一种基于混合提示正则化的零样本异常分割方法。该方法通过适配Grounding DINO和Segment Anything等基础模型，实现了对多种异常检测数据集的高效分割。项目在MVTec-AD、VisA等公开数据集上展现出优秀性能，并在VAND工作坊竞赛中取得佳绩。仓库包含完整代码实现、演示和使用说明，便于研究者复现和应用。

VoiceCraft

VoiceCraft是一个开源的语音技术项目，专注于零样本语音编辑和实时文本转语音。该项目仅需几秒钟的参考音频即可克隆或编辑未知声音，在有声书、网络视频和播客等真实场景中表现出色。VoiceCraft提供多种运行方式，包括Google Colab、Docker和本地环境，方便研究人员和开发者使用。项目在语音编辑和零样本TTS领域达到了先进水平，为语音技术的发展开辟了新方向。

naturalspeech2-pytorch

NaturalSpeech 2是一个基于PyTorch的开源项目，实现了零样本语音和歌唱合成。该项目采用神经音频编解码器和潜在扩散模型，结合非自回归生成和去噪扩散技术，实现高质量的文本到语音转换。项目还优化了注意力机制和Transformer组件，为研究人员和开发者提供了探索先进TTS技术的平台。

AnyDoor

AnyDoor是一种零样本对象级图像定制技术，实现灵活的图像编辑。它能将参考对象无缝插入目标图像，保持风格一致性和真实感。项目提供训练和推理代码、预训练模型及在线演示。AnyDoor适用于虚拟试穿、换脸等任务，也可作为区域到区域生成任务的基础模型。该技术为图像编辑和生成领域提供了新的可能性。

MS-Diffusion

MS-Diffusion是一个多主体零样本图像个性化框架，利用布局引导技术提高生成质量。该框架通过接地令牌和特征重采样器保持细节保真度，并引入多主体交叉注意力机制协调主体组合。实验显示，MS-Diffusion在图像和文本保真度方面表现优异，有助于推进个性化文本到图像生成技术的发展。

open_clip

OpenCLIP是一个先进的开源深度学习项目，专注于OpenAI的CLIP模型的实现和优化。该项目在多样化的数据源和不同的计算预算下成功训练出多个高效能模型，涵盖图像和文本嵌入、模型微调及新模型开发等多个领域。通过增强图像与语言的联合理解能力，OpenCLIP显著推动了人工智能技术的发展，拓宽了其应用领域。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com