Logo

#零样本学习

GenerSpeech入门学习资料 - 高保真零样本风格迁移TTS模型

1 个月前
Cover of GenerSpeech入门学习资料 - 高保真零样本风格迁移TTS模型

FRESCO:一种革命性的零样本视频翻译技术

2 个月前
Cover of FRESCO:一种革命性的零样本视频翻译技术

UniTS: 构建统一时间序列模型的突破性研究

2 个月前
Cover of UniTS: 构建统一时间序列模型的突破性研究

GLIP: 突破性的图像-语言预训练模型

2 个月前
Cover of GLIP: 突破性的图像-语言预训练模型

YOLO-World: 开创实时开放词汇目标检测新纪元

2 个月前
Cover of YOLO-World: 开创实时开放词汇目标检测新纪元

open_clip学习资料汇总 - 开源CLIP实现

1 个月前
Cover of open_clip学习资料汇总 - 开源CLIP实现

OpenGraph协议:让网页成为丰富的社交图谱对象

2 个月前
Cover of OpenGraph协议:让网页成为丰富的社交图谱对象

WinCLIP: 零样本/少样本异常分类和分割的创新方法

2 个月前
Cover of WinCLIP: 零样本/少样本异常分类和分割的创新方法

LSeg: 基于语言驱动的语义分割新模型

2 个月前
Cover of LSeg: 基于语言驱动的语义分割新模型

深入探讨In-context Learning: 从原理到应用的全面综述

2 个月前
Cover of 深入探讨In-context Learning: 从原理到应用的全面综述

相关项目

Project Cover
GenerSpeech
GenerSpeech: PyTorch实现的NeurIPS 2022文本到语音模型,专注于无监督出域场景下的高保真样式转换。提供多层级样式转换、优化的模型泛化功能,并支持多GPU环境。完整指南及音频样例可在线获取,助您快速实施和部署。
Project Cover
zshot
Zshot是一个高度可定制的开源框架,支持零样本和少样本的命名实体识别和关系识别。该框架提供提及抽取、维基化和关系抽取等功能,并利用SpaCy进行可视化。适用于研究和工业应用,支持最新的方法和预训练模型,并提供易于扩展的API接口。
Project Cover
recognize-anything
Recognize Anything Model是一系列开源图像识别模型,包括RAM++、RAM和Tag2Text。这些模型能准确识别常见和开放域类别,支持高精度图像标签生成和全面描述。项目提供预训练模型、推理代码和训练数据集,适用于多种计算机视觉任务。模型性能优于现有先进方案,尤其在零样本识别方面表现突出。
Project Cover
Segment-Any-Anomaly
Segment-Any-Anomaly项目提出了一种基于混合提示正则化的零样本异常分割方法。该方法通过适配Grounding DINO和Segment Anything等基础模型,实现了对多种异常检测数据集的高效分割。项目在MVTec-AD、VisA等公开数据集上展现出优秀性能,并在VAND工作坊竞赛中取得佳绩。仓库包含完整代码实现、演示和使用说明,便于研究者复现和应用。
Project Cover
VoiceCraft
VoiceCraft是一个开源的语音技术项目,专注于零样本语音编辑和实时文本转语音。该项目仅需几秒钟的参考音频即可克隆或编辑未知声音,在有声书、网络视频和播客等真实场景中表现出色。VoiceCraft提供多种运行方式,包括Google Colab、Docker和本地环境,方便研究人员和开发者使用。项目在语音编辑和零样本TTS领域达到了先进水平,为语音技术的发展开辟了新方向。
Project Cover
naturalspeech2-pytorch
NaturalSpeech 2是一个基于PyTorch的开源项目,实现了零样本语音和歌唱合成。该项目采用神经音频编解码器和潜在扩散模型,结合非自回归生成和去噪扩散技术,实现高质量的文本到语音转换。项目还优化了注意力机制和Transformer组件,为研究人员和开发者提供了探索先进TTS技术的平台。
Project Cover
AnyDoor
AnyDoor是一种零样本对象级图像定制技术,实现灵活的图像编辑。它能将参考对象无缝插入目标图像,保持风格一致性和真实感。项目提供训练和推理代码、预训练模型及在线演示。AnyDoor适用于虚拟试穿、换脸等任务,也可作为区域到区域生成任务的基础模型。该技术为图像编辑和生成领域提供了新的可能性。
Project Cover
MS-Diffusion
MS-Diffusion是一个多主体零样本图像个性化框架,利用布局引导技术提高生成质量。该框架通过接地令牌和特征重采样器保持细节保真度,并引入多主体交叉注意力机制协调主体组合。实验显示,MS-Diffusion在图像和文本保真度方面表现优异,有助于推进个性化文本到图像生成技术的发展。
Project Cover
open_clip
OpenCLIP是一个先进的开源深度学习项目,专注于OpenAI的CLIP模型的实现和优化。该项目在多样化的数据源和不同的计算预算下成功训练出多个高效能模型,涵盖图像和文本嵌入、模型微调及新模型开发等多个领域。通过增强图像与语言的联合理解能力,OpenCLIP显著推动了人工智能技术的发展,拓宽了其应用领域。
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号