#VQVAE

OmniTokenizer: 革命性的联合图像和视频标记器

2 个月前

OmniTokenizer 视觉生成图像视频联合标记器 VQVAE 语言模型 Github 开源项目

2 个月前

TTTS: 下一代文本转语音系统的训练框架

2 个月前

TTS VQVAE 多语言支持声音合成 AI模型 Github 开源项目

2 个月前

相关项目

ttts

TTTS_v4是一个开源的多语言语音合成项目，通过创新的'细节'建模方法改进了传统VQ技术。该项目现已支持中文、英文、日语和韩语，并具有扩展性。TTTS_v4整合了tokenizer训练、VQVAE训练和GPT语音合成技术，旨在生成高质量的自然语音。此外，项目还提供模型微调功能，适用于多种语言场景和个性化需求。

OmniTokenizer

OmniTokenizer是一个图像和视频联合标记器，采用单一模型和权重，提供最先进的重建性能。它具有高分辨率和长视频适应性，可与语言模型和扩散模型结合实现视觉生成。项目提供预训练模型、训练脚本和评估工具，支持VQVAE和VAE版本，为视觉生成研究提供基础设施。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com