Logo

Mangio-RVC-Fork: 功能强大的语音转换工具

Mangio-RVC-Fork

Mangio-RVC-Fork 简介

Mangio-RVC-Fork 是一个基于 Retrieval-based Voice Conversion WebUI 的实验性分支项目,旨在为语音转换提供更多功能和更好的性能。该项目在原有框架的基础上,加入了多种 f0 提取方法和混合 f0 估计等新特性,为用户提供了更多选择和可能性。

Image 7

主要特点

  1. f0 推理算法全面升级:

    • 新增 pyworld dio f0 方法
    • 新增 mangio-crepe f0 计算方法
    • 增加 torchcrepe crepe-tiny 模型
    • 可通过 Web GUI 和 CLI 修改 crepe_hop_length 参数
  2. 支持用于训练的 f0 Crepe 音高提取(实验性功能)

  3. Paperspace 集成:

    • infer-web.py 新增 --paperspace 参数,可共享 Gradio 链接
    • 为 Paperspace 用户提供 Makefile
  4. 通过 Makefile 访问 Tensorboard

  5. 训练总 epoch 滑块上限提高到 10,000

  6. 新增 CLI 功能:

    • infer-web.py 增加 --is_cli 标志以使用 CLI 系统
  7. f0 混合(中位数)估计方法:

    • 通过计算指定 f0 方法数组的 nanmedian 来获得最佳效果
    • 目前仅支持 CLI,未来将添加到 GUI
  8. f0 特征提取也支持混合估计方法(实验性功能)

此外,该项目还保留了原 RVC 项目的以下特性:

  • 通过 top1 检索替换源特征为训练集特征,减少音色泄漏
  • 即使在较差的显卡上也能快速、轻松地进行训练
  • 使用少量数据也能获得较好的训练结果(建议≥10分钟低噪音语音)
  • 支持模型融合以改变音色
  • 易用的 WebUI 界面
  • 使用 UVR5 模型快速分离人声和伴奏

安装和使用

安装依赖

推荐使用 Python 3.9.8,通过 pip 安装依赖:

pip install -r requirements.txt

MacOS 用户注意:faiss 1.7.2 可能会导致 Segmentation Fault,请使用:

pip install faiss-cpu==1.7.0

准备预训练模型

Huggingface space 下载所需的预训练模型文件:

  • hubert_base.pt
  • ./pretrained
  • ./uvr5_weights

如果要使用 v2 版本模型,还需要下载:

  • ./pretrained_v2

运行 Web GUI

python infer-web.py --pycmd python --port 3000

运行 CLI

python infer-web.py --pycmd python --is_cli

结语

Mangio-RVC-Fork 在原有 RVC 项目的基础上加入了许多新的特性和改进,为语音转换爱好者和研究人员提供了更多可能性。虽然目前仍处于实验阶段,但已展现出良好的发展前景。我们期待看到更多开发者和用户参与到这个项目中来,共同推动语音转换技术的进步。

Image 2

最后,让我们感谢所有为这个项目做出贡献的开发者们。正是因为他们的努力,我们才能拥有如此强大而有趣的工具。如果你对这个项目感兴趣,欢迎访问 Mangio-RVC-Fork GitHub 仓库 了解更多信息,并考虑为项目贡献你的力量。

相关项目

Project Cover
Applio
Applio项目提供高效、优质的语音转换解决方案。基于增强版RVC模型,Applio采用先进的语音处理技术,实现卓越的语音转换效果。用户可通过详细文档、丰富插件和友好界面,轻松安装和使用Applio。支持多平台操作和30多种语言,适用于各种商业用途,确保广泛的应用场景和良好的用户体验。
Project Cover
rvc-tts-webui
RVC-TTS-WebUI是一个功能强大的文字转语音Web界面,涵盖RVC模型和edge-tts技术,提供在线演示。支持Windows 11下Python 3.10,简化安装过程,附带详细故障排查指南。
Project Cover
Mangio-RVC-Fork
Mangio-RVC-Fork是一个基于VITS的开源语音转换框架,具有top1检索功能。它提供CLI和Web界面,支持多种F0估计方法,包括混合F0算法。该工具可快速训练,使用少量数据也能获得良好效果。支持模型融合改变音色,以及UVR5模型分离人声和伴奏。项目持续开发中,计划添加更多功能优化用户体验。
Project Cover
Retrieval-based-Voice-Conversion
Retrieval-based-Voice-Conversion是一个基于VITS的开源语音转换框架。该项目提供库、API和命令行接口,支持标准和自定义设置,允许灵活配置模型和环境。它具有详细的音频推理参数设置功能,并支持Docker部署,使语音转换技术更易于使用和实施。
Project Cover
AI-Song-Cover-RVC
AI-Song-Cover-RVC项目集成了AI歌曲翻唱所需的全套工具。涵盖YouTube WAV文件下载、人声分离、音频分割、模型训练及推理等完整流程。项目支持在Google Colab或Kaggle平台使用,并提供多种工具选项,如AICoverGen和无UI训练模式。附带详细教程,适合音乐爱好者和AI研究者使用。
Project Cover
AICoverGen
AICoverGen是一个开源的AI翻唱生成工具,基于RVC v2训练的声音模型,可从YouTube视频或本地音频自动创作翻唱作品。它具备用户友好的WebUI,支持模型管理和多样化的音频处理功能。AICoverGen适用于开发者为AI项目添加歌唱能力,或普通用户制作喜爱角色的翻唱版本。这款工具操作直观,功能全面,为AI音乐创作提供了便利。

最新项目

Project Cover
豆包MarsCode
豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。
Project Cover
AI写歌
Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。
Project Cover
商汤小浣熊
小浣熊家族Raccoon,您的AI智能助手,致力于通过先进的人工智能技术,为用户提供高效、便捷的智能服务。无论是日常咨询还是专业问题解答,小浣熊都能以快速、准确的响应满足您的需求,让您的生活更加智能便捷。
Project Cover
有言AI
有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。
Project Cover
Kimi
Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。
Project Cover
吐司
探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。
Project Cover
SubCat字幕猫
SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。
Project Cover
AIWritePaper论文写作
AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。
Project Cover
稿定AI
稿定设计 是一个多功能的在线设计和创意平台,提供广泛的设计工具和资源,以满足不同用户的需求。从专业的图形设计师到普通用户,无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑,稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合,帮助用户轻松实现创意设计。
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号