#零样本
openscene - 零样本3D场景理解和任务执行工具
OpenScene3D场景理解CVPR 2023零样本语义分割Github开源项目
OpenScene是一个实时交互的3D场景理解工具,支持使用开放词汇进行查询。用户可输入任意短语,系统会自动高亮相应区域。支持多种数据集和预处理选项,可执行零样本3D语义分割、稀有物体搜索和基于图像的3D物体检测。其特点包括无需GPU运行、支持多视角特征融合和模型蒸馏。所有代码和数据集均可在GitHub获取,适用于广泛的研究和开发应用。
GoLLIE - 适用于信息抽取的先进大规模语言模型
GoLLIE语言模型信息抽取零样本HiTZGithub开源项目
GoLLIE是一种遵循注释指南进行信息抽取的大规模语言模型,在零样本信息抽取方面优于以往方法。它允许用户根据即时定义的注释模式进行推断,不仅依赖已编码知识。GoLLIE的代码和模型公开发布,适用于各种任务,并提供了开箱即用的实例笔记本和定制任务支持。
FateZero - 无需训练的文本生成视频编辑框架
FateZero视频编辑文本驱动扩散模型零样本Github开源项目
FateZero是第一个无需训练即可基于文本进行视频编辑的框架,该框架利用预训练扩散模型实现了一致且强大的编辑能力。通过中间注意力图保留结构与运动信息,并结合自注意力和时空注意力机制,确保视频帧的一致性。FateZero展示了从文本到视频的零噪点样式编辑和局部属性编辑的优越性能。
HierSpeechpp - 分层变分推理实现高质量零样本语音合成
HierSpeech++语音合成零样本变分推理AI模型Github开源项目
HierSpeech++项目提出了一种基于分层变分推理的零样本语音合成技术。该技术通过文本到向量框架生成语音表示,显著提高了合成语音的自然度和表现力。项目还引入了语音超分辨率框架,可将音频从16 kHz提升至48 kHz。实验表明,HierSpeech++在零样本语音合成任务中优于现有的基于大语言模型和扩散模型的方法,首次实现了人类水平质量的零样本语音合成。
RAVE - 基于扩散模型的高效视频编辑技术
RAVE视频编辑扩散模型零样本CVPRGithub开源项目
RAVE是一种基于预训练文本到图像扩散模型的视频编辑技术,无需额外训练即可实现高质量视频编辑。通过创新的噪声重排策略,RAVE提高了视频的时间一致性和处理效率。它支持从局部属性调整到形状变换等多种编辑类型,并可处理任意长度的视频。在多种编辑场景中,RAVE展现出优于现有方法的性能,为视频创作提供了高效灵活的解决方案。
Binoculars - 无需训练的AI文本检测工具
BinocularsAI生成文本检测零样本领域无关语言模型Github开源项目
Binoculars是一款无需训练数据的AI文本检测工具,利用语言模型预训练数据集重叠原理识别生成内容。提供Python接口和在线演示,支持零样本检测,目前主要适用于英语文本。该项目为AI文本识别领域引入了新的解决思路。Binoculars适用于学术界、新闻媒体、内容平台等需要识别AI生成文本的场景,有助于维护信息真实性和原创性。
相关文章