
rvc-tts-webui
基于Gradio的在线文字转语音WebUI
RVC-TTS-WebUI是一个功能强大的文字转语音Web界面,涵盖RVC模型和edge-tts技术,提供在线演示。支持Windows 11下Python 3.10,简化安装过程,附带详细故障排查指南。
项目介绍:RVC Text-to-Speech WebUI
RVC Text-to-Speech WebUI 是一个基于 RVC 项目 模型和 edge-tts 实现的文本到语音转换的 Gradio 网页用户界面。这个项目旨在通过简单易用的界面,让用户能够轻松使用 RVC 的语音转换模型进行文本到语音的转换。
在线演示
对于想要快速体验 RVC TTS 功能的人,可以访问 在线演示 页面,直接在浏览器中进行试用。
系统要求与安装
该项目已经测试过在 Windows 11 环境下运行,并需要 Python 3.10 作为支持。需要注意的是,Python 3.11 可能不兼容,所以建议使用 Python 3.10。安装步骤如下:
-
克隆项目源码:
git clone https://github.com/litagin02/rvc-tts-webui.git cd rvc-tts-webui
-
下载所需模型文件至根目录:
curl -L -O https://huggingface.co/lj1995/VoiceConversionWebUI/resolve/main/hubert_base.pt curl -L -O https://huggingface.co/lj1995/VoiceConversionWebUI/resolve/main/rmvpe.pt
-
创建并激活虚拟环境:
python -m venv venv venv\Scripts\activate
-
(可选)安装 PyTorch(如果需要用到 NVIDIA GPU):
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
-
安装项目需求组件:
pip install -r requirements.txt
设置 RVC 模型
用户需要将 RVC 模型文件放置在 weights/
目录下,格式如下:
weights ├── model1 │ ├── my_model1.pth │ └── my_index_file_for_model1.index └── model2 ├── my_model2.pth └── my_index_file_for_model2.index
每个模型目录需要包含一个 .pth
文件及最多一个 .index
文件。请避免在路径名称中使用非 ASCII 字符,这样可能会引发 faiss 错误。
启动应用
要运行项目,需激活虚拟环境并启动应用:
venv\Scripts\activate python app.py
更新项目
需更新程序时,可以通过如下命令操作:
git pull venv\Scripts\activate pip install -r requirements.txt --upgrade
常见问题
在安装过程中,如果遇到以下错误:
error: Microsoft Visual C++ 14.0 or greater is required. Get it with "Microsoft C++ Build Tools": https://visualstudio.microsoft.com/visual-cpp-build-tools/
这个错误可能与缺少 Microsoft C++ Build Tools 相关。请下载并安装 Visual Studio Build Tools。
编辑推荐精选

酷表ChatExcel
大模型驱动的Excel数据处理工具
基于大模型交互的表格处理系统,允许用户通过对话方式完成数据整理和可视化分析。系统采用机器学习算法解析用户指令,自动执行排序、公式计算和数据透视等操作,支持多种文件格式导入导出。数据处理响应速度保持在0.8秒以内,支持超过100万行数据的即时分析。


DeepEP
DeepSeek开源的专家并行通信优化框架
DeepEP是一个专为大规模分布式计算设计的通信库,重点解决专家并行模式中的通信瓶颈问题。其核心架构采用分层拓扑感知技术,能够自动识别节点间物理连接关系,优化数据传输路径。通过实现动态路由选择与负载均衡机制,系统在千卡级计算集群中维持稳定的低延迟特性,同时兼容主流深度学习框架的通信接口。


DeepSeek
全球领先开源大模型,高效智能助手
DeepSeek是一家幻方量化创办的专注于通用人工智能的中国科技公司,主攻大模型研发与应用。DeepSeek-R1是开源的推理模型,擅长处理复杂任务且可免费商用。


问小白
DeepSeek R1 满血模型上线
问小白是一个基于 DeepSeek R1 模型的智能对话平台,专为用户提供高效、贴心的对话体验。实时在线,支持深度思考和联网搜索。免费不限次数,帮用户写作、创作、分析和规划,各种任务随时完成!


KnowS
AI医学搜索引擎 整合4000万+实时更新的全球医学文献
医学领域专用搜索引擎整合4000万+实时更新的全球医学文献,通过自主研发AI模 型实现精准知识检索。系统每日更新指南、中英文文献及会议资料,搜索准确率较传统工具提升80%,同时将大模型幻觉率控制在8%以下。支持临床建议生成、文献深度解析、学术报告制作等全流程科研辅助,典型用户反馈显示每周可节省医疗工作者70%时间。


Windsurf Wave 3
Windsurf Editor推出第三次重大更新Wave 3
新增模型上下文协议支持与智能编辑功能。本次更新包含五项核心改进:支持接入MCP协议扩展工具生态,Tab键智能跳转提升编码效率,Turbo模式实现自动化终端操作,图片拖拽功能优化多模态交互,以及面向付费用户的个性化图标定制。系统同步集成DeepSeek、Gemini等新模型,并通过信用点数机制实现差异化的资源调配。


腾讯元宝
腾讯自研的混元大模型AI助手
腾讯元宝是腾讯基于自研的混元大模型推出的一款多功能AI应用,旨在通过人工智能技术提升用户在写作、绘画、翻译、编程、搜索、阅读总结等多个领域的工作与生活效率。


Grok3
埃隆·马斯克旗下的人工智能公司 xAI 推出的第三代大规模语言模型
Grok3 是由埃隆·马斯克旗下的人工智能公司 xAI 推出的第三代大规模语言模型,常被马斯克称为“地球上最聪明的 AI”。它不仅是在前代产品 Grok 1 和 Grok 2 基础上的一次飞跃,还在多个关键技术上实现了创新突破。


OmniParser
帮助AI理解电脑屏幕 纯视觉GUI元素的自动化解析方案
开源工具通过计算机视觉技术实现图形界面元素的智能识别与结构化处理,支持自动化测试脚本生成和辅助功能开发。项目采用模块化设计,提供API接口与多种输出格式,适用于跨平台应用场景。核心算法优化了元素定位精度,在动态界面和复杂布局场景下保持稳定解析能力。


流畅阅读
AI网页翻译插件 双语阅读工具,还原母语级体验
流畅阅读是一款浏览器翻译插件,通过上下文智能分析提升翻译准确性,支持中英双语对照显示。集成多翻译引擎接口,允许用户自定义翻译规则和快捷键配置,操作数据全部存储在本地设备保障隐私安全。兼容Chrome、Edge、Firefox等主流浏览器,基于GPL-3.0开源协议开发,提供持续的功能迭代和社区支持。
推荐工具精选
AI云服务特惠
懂AI专属折扣关注微信公众号
最新AI工具、AI资讯
独家AI资源、AI项目落地

微信扫一扫关注公众号