Logo

#语音转换

Logo of Applio
Applio
Applio项目提供高效、优质的语音转换解决方案。基于增强版RVC模型,Applio采用先进的语音处理技术,实现卓越的语音转换效果。用户可通过详细文档、丰富插件和友好界面,轻松安装和使用Applio。支持多平台操作和30多种语言,适用于各种商业用途,确保广泛的应用场景和良好的用户体验。
Logo of Mangio-RVC-Fork
Mangio-RVC-Fork
Mangio-RVC-Fork是一个基于VITS的开源语音转换框架,具有top1检索功能。它提供CLI和Web界面,支持多种F0估计方法,包括混合F0算法。该工具可快速训练,使用少量数据也能获得良好效果。支持模型融合改变音色,以及UVR5模型分离人声和伴奏。项目持续开发中,计划添加更多功能优化用户体验。
Logo of whisper-vits-svc
whisper-vits-svc
whisper-vits-svc是一个开源的端到端歌声转换项目,基于VITS模型架构。该项目支持多说话人转换,可混合创建新音色,并能处理带轻伴奏的声音。它集成了Whisper、BigVGAN等技术,提高了抗噪性和音质。项目面向深度学习入门者,需要Python和PyTorch基础。目前不支持实时转换,训练需要至少6GB显存。
Logo of Shook
Shook
Shook是一款为iOS平台开发的语音转换应用。通过先进的语音技术,用户可以听到自己的声音用不同语言说话。这一功能不仅为语言学习提供了新颖的方法,也为跨文化交流创造了独特的体验。Shook既可作为娱乐工具,也能成为语言学习和国际交流的实用助手,让用户以创新的方式探索语言的多样性。
Logo of CoeFont
CoeFont
CoeFont作为创新AI语音技术平台,提供文本转语音、声音变换和AI语音创建等多样化解决方案。平台拥有超过10,000种AI声音,支持多语言实时转换,为内容创作者、直播主播和元宇宙用户提供自然真实的语音体验。CoeFont还通过Voice for All项目为语音障碍群体提供免费AI语音服务,体现其对技术普惠的追求。
Logo of Free Text to Speech Online
Free Text to Speech Online
这是一个支持多种语言的在线TTS(文本转语音)转换器平台。该在线文本转语音平台支持超过20种语言,提供自然流畅的发音效果。无需注册即可使用,转换速度快捷。平台利用Microsoft Edge的在线服务,提供高质量语音输出。用户可轻松输入文本,选择语音,快速转换文字为语音。适用于多语言学习、内容创作和辅助阅读。
Logo of YourTTS
YourTTS
YourTTS项目开发了先进的多语言零样本多发音人文本转语音及语音转换技术,适用于少量语音样本。该技术支持多种语言,确保高语音相似度和优质输出。基于改良的VITS模型,此技术在多语训练中展现出色表现,获得业界肯定。
Logo of TurnVoice
TurnVoice
TurnVoice是一款功能丰富的命令行工具,专注于视频声音转换和多语种翻译。该工具集成了多种语音合成引擎,包括免费的Coqui TTS在内的多个选项。它允许用户精确控制渲染过程,提供句子文本、时间和语音的自定义选项。TurnVoice还具备保留原始背景音频和本地视频处理的能力,适用于各类视频创作需求。
Logo of Retrieval-based-Voice-Conversion
Retrieval-based-Voice-Conversion
Retrieval-based-Voice-Conversion是一个基于VITS的开源语音转换框架。该项目提供库、API和命令行接口,支持标准和自定义设置,允许灵活配置模型和环境。它具有详细的音频推理参数设置功能,并支持Docker部署,使语音转换技术更易于使用和实施。
Logo of SteosVoice
SteosVoice
SteosVoice平台提供400多种神经网络AI语音,支持YouTube本地化、有声书制作和游戏配音等应用。用户可通过Telegram机器人免费体验,也可将自己的声音货币化。平台采用先进AI技术生成44.1KHz高品质wav音频,适合各类内容创作需求。该平台提供多样化的AI语音合成服务,满足创作者和企业的各种需求,是内容制作的理想选择。
Logo of SpeakStruct
SpeakStruct
SpeakStruct是一个语音转换平台,可将语音输入转化为结构化格式。该工具支持自定义模板,提供高精度转录和多渠道捕捉功能。适用于销售、客户支持、产品开发等多个领域,可生成格式化文档、报告和JSON数据。SpeakStruct旨在提高工作效率,满足专业人士、企业和开发者的多样化需求。
Logo of FileSpeech
FileSpeech
FileSpeech是一款高效的文件转语音工具,支持多种文件格式快速转换为清晰自然的语音。工具提供多语言和多种声音选择,可根据需求个性化设置。采用先进语音合成技术,确保准确发音和语调。支持离线使用,性能优化良好,随时随地提供高质量语音转换。适用于教育、内容创作和客户支持等领域,有效提升工作效率和信息可访问性。
Logo of so-vits-svc-fork
so-vits-svc-fork
so-vits-svc-fork项目基于so-vits-svc分支进行改进,支持实时声音转换并优化了用户界面。它不仅兼容旧版模型,同时通过高效的训练流程和简捷的pip安装过程提供了良好的用户体验。项目集成了QuickVC和ContentVec技术,显著提升音调估计准确性,并支持通过图形界面或命令行实时进行语音转换,同时支持自动下载预训练模型。
Logo of rvc-tts-pipeline
rvc-tts-pipeline
RVC-TTS-Pipeline是一个开源语音合成项目,结合文本到语音(TTS)和RVC模型技术,旨在生成接近原始说话者声音的语音输出。该项目将TTS生成的音频转换为RVC模型的训练权重,提高了语音还原质量。项目提供简单的安装步骤和API,方便用户进行语音合成。目前仍处于开发阶段,存在一些问题待解决。
Logo of Diff-HierVC
Diff-HierVC
Diff-HierVC是一种分层语音转换系统,采用DiffPitch和DiffVoice两个扩散模型。DiffPitch生成目标音高,DiffVoice转换语音风格。系统还使用源滤波器编码器和掩蔽先验技术,提高语音风格迁移和说话人适应能力。在零样本语音转换中,Diff-HierVC实现0.83%字错率和3.29%等错率,展现出色的音高生成和语音风格迁移性能。
Logo of Free Text to Speech Online
Free Text to Speech Online
本工具为免费在线文本转语音转换器,可将文字转换为自然流畅的语音。具有高质量音频输出、多语言支持、快速转换和简单操作等特点。适用于替代阅读、发音学习、视障辅助和视频配音等多种用途。用户只需输入文本并设置参数,即可快速生成所需语音,提供高效便捷的文字转语音服务。
Logo of Altered
Altered
Altered平台集成多种AI语音技术,包括语音变换、实时变声、文本转语音和语音克隆。该技术可将用户声音转换为AI合成声音,用于专业配音表演。平台为媒体制作、实时通信和语音创作提供全面解决方案,旨在增强人类表演者的艺术才能,推动音频行业发展。
Logo of Diffusion-SVC
Diffusion-SVC
Diffusion-SVC是一个基于扩散模型的语音转换项目,专注于实现高质量的实时语音转换。该系统以低显存占用、快速训练和推理为特点,并针对浅扩散和实时应用进行了优化。Diffusion-SVC支持多种预训练模型和编码器,适用于不同规模的GPU,可灵活搭配使用。通过与其他声学模型级联,系统能进一步提升音频质量并降低性能消耗,为语音转换技术带来新的可能性。
Logo of rvc-webui
rvc-webui
RVC-WebUI提供了一个多功能的音声转换界面,兼容Windows和Mac操作系统,简便的启动方式适合各类用户。详细的安装指南和系统需求帮助用户轻松设置,无障碍使用。创新技术使得音频转换更加高效,提升了用户的音频交互体验。
Logo of Retrieval-based-Voice-Conversion-WebUI
Retrieval-based-Voice-Conversion-WebUI
Retrieval-based-Voice-Conversion-WebUI是一个基于VITS的开源变声框架。该项目支持实时变声和快速模型训练,只需少量数据即可生成高质量变声模型。框架提供多语言界面和跨平台支持,并配有详细教程。项目采用检索式方法替换输入源特征,有效防止音色泄漏。支持在中低配置GPU上快速训练,并可通过模型融合调整音色。WebUI界面简洁直观,内置UVR5模型便于人声分离。采用InterSpeech2023-RMVPE算法提取音高,性能出色且资源占用低。该框架支持多种硬件加速,适用于不同用户需求,是一个功能丰富且操作简便的AI变声工具。
Logo of crow-translate
crow-translate
Crow Translate是一款跨平台翻译工具,集成了多种在线翻译API。软件具有文本翻译、语音朗读、OCR识别等功能,同时提供命令行和D-Bus接口。它支持125种语言,运行占用内存小,适用于Linux和Windows系统。
Logo of Multilingual
Multilingual
Multilingual.top是一款基于AI技术的免费多语言同步翻译工具,支持将文本同时翻译成多种语言。平台利用人工智能技术提供精确自然的翻译结果,用户可直接输入文本或上传JSON、PDF、DOC、DOCX等格式文件。除翻译功能外,还集成了在线字符计数和文本转语音等实用工具。该工具适用于营销团队、语言学习者和开发人员等多种场景,为用户提供高效的多语言解决方案。
Logo of Fineshare
Fineshare
Fineshare作为一个AI驱动的声音技术平台,整合了语音生成、变声、音乐创作和配音等功能。它为创作者提供了简便的工具,用于制作个性化语音、专业视频配音和独特声音效果。该平台适合个人和企业用户,旨在简化声音创作流程,促进音频和视频内容的创新。Fineshare的技术使声音表达更加多样化,为用户开启了丰富的创意可能性。