#VQVAE
ttts - 创新多语言语音合成技术的突破性进展
Github开源项目多语言支持AI模型TTS声音合成VQVAE
TTTS_v4是一个开源的多语言语音合成项目,通过创新的'细节'建模方法改进了传统VQ技术。该项目现已支持中文、英文、日语和韩语,并具有扩展性。TTTS_v4整合了tokenizer训练、VQVAE训练和GPT语音合成技术,旨在生成高质量的自然语音。此外,项目还提供模型微调功能,适用于多种语言场景和个性化需求。
OmniTokenizer - 联合图像视频标记器实现高效视觉生成
Github开源项目语言模型视觉生成VQVAEOmniTokenizer图像视频联合标记器
OmniTokenizer是一个图像和视频联合标记器,采用单一模型和权重,提供最先进的重建性能。它具有高分辨率和长视频适应性,可与语言模型和扩散模型结合实现视觉生成。项目提供预训练模型、训练脚本和评估工具,支持VQVAE和VAE版本,为视觉生成研究提供基础设施。