Diff-HierVC

分层扩散模型实现高质量零样本语音转换

语音转换 Diff-HierVC 扩散模型音高生成零样本说话人适应 Github 开源项目

Diff-HierVC是一种分层语音转换系统，采用DiffPitch和DiffVoice两个扩散模型。DiffPitch生成目标音高，DiffVoice转换语音风格。系统还使用源滤波器编码器和掩蔽先验技术，提高语音风格迁移和说话人适应能力。在零样本语音转换中，Diff-HierVC实现0.83%字错率和3.29%等错率，展现出色的音高生成和语音风格迁移性能。

访问官网

Github

介绍相关项目

vocos - 基于傅里叶变换的快速神经声码器

GithubVocos开源项目深度学习神经声码器语音技术音频合成

Vocos是一款创新的神经声码器，通过生成频谱系数而非时域样本来合成音频波形。它采用GAN训练，支持从梅尔频谱图和EnCodec令牌重建音频，实现了快速高效的音频合成。Vocos的独特设计弥合了时域和傅里叶域神经声码器之间的差距，为音频合成领域提供了新的解决方案。

ParallelWaveGAN - 通过Pytorch实现多种高效声码器模型

GithubHiFi-GANMelGANParallelWaveGAN多扬声器模型实时语音合成开源项目

ParallelWaveGAN项目以非官方形式用Pytorch实现了多种声码器模型，如Parallel WaveGAN、MelGAN等，支持实时语音合成并兼容ESPnet-TTS、NVIDIA's Tacotron2等系统。可帮助用户搭建适应多种语言的声音合成器。

AsyncDiff - 通过异步去噪实现扩散模型并行加速

AsyncDiffGithub加速推理开源项目异步去噪扩散模型模型并行

AsyncDiff是一种创新的扩散模型加速方案，通过将模型分割并在多设备上异步并行处理来提高效率。这种方法巧妙利用了扩散步骤间的相似性，将顺序去噪转变为异步过程，有效打破了组件间的依赖关系。AsyncDiff不仅大幅降低了推理时间，还保持了生成质量。目前已支持Stable Diffusion、ControlNet和AnimateDiff等多种主流扩散模型。

cycle-diffusion - 零样本图像翻译与无配对图片转换的扩散模型方法

CycleDiffusionGithubHuggingFacePyTorch开源项目扩散模型零样本图像编辑

该项目展示了如何正规化扩散模型中的随机种子，并实现零样本图像到图像翻译和指导。CycleDiffusion方法无需配对图像，利用稳定扩散等模型实现图像翻译。项目还提供详细的安装和使用指南，包括依赖项、预训练模型和评估数据等内容，通过这些工具可提高生成图像的质量和一致性。

audioldm2 - 文本到音频生成模型AudioLDM 2实现多种音效、语音及音乐生成

AudioLDM 2GithubHuggingface声音效果开源项目文本到音频模型生成模型自监督预训练

AudioLDM 2是一个文本到音频扩散模型，能通过自监督预训练生成多样化的音效、语音与音乐样本。其模型提供多个检查点，既适用于一般文本到音频的生成，也专注于音乐生成。用户可以通过调整推理步骤和音频长度控制生成音频的质量和时长。在Diffusers库中，从v0.21.0版本便可应用。该模型通过简单的提示，支持个性化音频创作，以中立的方式满足音频生成需求。

SpecVQGAN - 使用视觉提示生成高保真声音的方法

GithubSpecVQGANTransformer代码本声谱图开源项目训练模型

SpecVQGAN项目提出了一种利用视觉提示生成声音的方法。通过将训练数据集缩小到一组代表向量（代码本），这些代码本向量可被控地进行采样，从而根据视觉提示生成新声音。项目使用VQGAN的训练方法在频谱图上训练代码本，并通过GPT-2变体的transformer在视觉特征条件下自回归地采样代码本条目。这种方法可以生成长时间、相关且高保真的声音，并支持多种数据类别。

Bridge-TTS - 创新方法提升文本转语音合成效果

Bridge-TTSGithubSchrodinger Bridge开源项目文本转语音机器学习语音合成

Bridge-TTS是一个革新性的文本转语音(TTS)项目，利用人工智能和机器学习技术，通过创新的数据处理方法优化语音合成。无论在简单还是复杂的应用场景中，它都显著优于传统的扩散模型。这一突破不仅提升了TTS技术水平，还为语音合成和相关人工智能领域开辟了新的研究方向。项目详情、研究方法和结果可在官方网站查阅，完整源代码将在论文被学术界正式接受后公开发布。

bigvsan - GAN神经声码器结合切片对抗网络的创新音频生成模型

BigVSANGANGithub开源项目深度学习神经声码器语音合成

BigVSAN项目结合GAN神经声码器和切片对抗网络，旨在提高音频生成质量。该项目基于LibriTTS数据集训练，提供预训练模型及完整的代码实现。包括训练、评估和推理功能，并附有详细使用说明。在多项客观评估指标中，BigVSAN展现出优秀性能，为语音合成技术开辟新方向。

Live2Diff - 革新视频扩散模型的实时流翻译技术

AI模型GithubLive2Diff实时流处理开源项目扩散模型视频翻译

Live2Diff是一款基于视频扩散模型的实时流翻译工具。该项目采用单向时间注意力机制，结合多时间步KV缓存和深度先验技术，实现高效的视频处理。支持DreamBooth和LoRA风格迁移，并通过TensorRT优化性能。在512x512分辨率下，处理速度可达16.43 FPS，为实时视频翻译领域提供了新的技术方案。

Make-An-Audio - 将文本转换为高保真音频的开源扩散模型

GithubMake-An-Audio人工智能开源项目扩散模型文本转音频音频生成

Make-An-Audio是一个开源的文本到音频生成项目，基于条件扩散概率模型。该项目能够从文本等多种模态生成高保真音频，支持文本到音频、音频到音频等多种任务。项目提供了预训练模型和简单的命令行操作，方便用户生成自定义音频。此外，项目还包含了详细的训练和评估流程，以及与其他模型的性能比较。

相关项目

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号