#语音合成

Pro Writing Kit - 综合性人工智能内容创作和语音合成工具
AI工具AI内容生成写作工具语音合成图像创作多语言支持
Pro Writing Kit集成多种人工智能技术,为内容创作者提供全面解决方案。平台包含70多种专业模板,覆盖文章生成、内容改写、博客创作和广告制作等核心功能。同时配备智能对话、图像生成和语音合成等辅助工具。支持54种语言的内容创作,提供144种AI配音选择。Pro Writing Kit致力于提高内容生产效率,能帮助各行业创作者高效生成各类专业内容,显著提升工作效率,是内容创作者的实用工具。
e2-tts-pytorch - E2-TTS 简化的非自回归零样本文本转语音模型
E2 TTS语音合成深度学习Pytorch非自回归模型Github开源项目
E2-TTS-pytorch是一个开源项目,实现了基于PyTorch的E2-TTS(Embarrassingly Easy Fully Non-Autoregressive Zero-Shot TTS)模型。该项目提供了持续时间预测器和E2TTS模型的简洁实现,支持自定义模型参数如维度和深度。项目包含代码示例和采样功能,基于最新研究成果,为研究人员和开发者提供了一个灵活的TTS实验平台。
tdmelodic - AI东京方言日语声调词典生成工具
日语口音词典神经网络东京方言自然语言处理语音合成Github开源项目
tdmelodic是一个开源的日语(东京方言)声调词典生成工具,采用AI技术和神经网络算法。该项目能够通过分析日语单词的表面形式和罗马音来估计音调,用于构建大规模声调词典。tdmelodic适用于学术研究和语音合成等领域,提供完整文档和多种使用方式。项目获得新能源产业技术综合开发机构(NEDO)部分资助。
XTTS-RVC-UI - 开源AI语音合成与转换界面
XTTS-RVC-UI语音合成人工智能深度学习开源项目Github
XTTS-RVC-UI是一个开源项目,整合了Coqui的XTTSv2语音合成和RVC声音转换技术,提供简洁的用户界面。该工具支持CUDA加速,便于管理模型和语音样本。通过简单的安装步骤,用户可快速搭建语音合成和声音转换环境。项目需要MSVC - VC 2022 C++ x64/x86构建工具,并提供了详细的安装和使用说明。工具创建特定文件夹结构,方便组织模型和语音文件。适用于AI语音研究和开发。
alltalk_tts - 开源多功能语音合成框架
AllTalkTTS语音合成文本生成APIGithub开源项目
AllTalk TTS是一个开源的语音合成框架,支持本地和自定义模型,提供API接口和第三方集成。它具备模型微调、批量生成、低显存模式等功能,可独立运行或与多种AI平台集成。该项目提供便捷安装工具、详细文档和清晰控制台输出,适用于多样化的语音合成应用场景。
narrator - AI实时生活解说,模拟David Attenborough风格
AI应用开发Replicate机器学习模型API接口语音合成Github开源项目
David Attenborough narrates your life 项目是一款基于AI技术的创新应用,能将日常生活场景实时转化为纪录片风格的解说。该项目整合了Replicate平台的机器学习模型、OpenAI的自然语言处理能力和ElevenLabs的语音合成技术,通过实时摄像头捕捉和AI语音生成,模仿著名纪录片解说员David Attenborough的风格,为普通生活场景添加独特的叙事视角。项目采用Python编写,支持简单的环境配置和API设置。开发者可以通过Replicate平台轻松部署和运行相关机器学习模型,结合OpenAI的语言生成能力和ElevenLabs的语音合成技术,实现实时视频捕捉和AI驱动的解说功能。这种创新应用为探索AI在日常生活中的创意应用提供了新的思路。
Talking_Face_Avatar - 将单张肖像图片转换为说话视频的开源AI项目
SadTalkerAI绘图语音合成人脸动画深度学习Github开源项目
Talking_Face_Avatar是一个开源AI项目,能将单张肖像图片和音频转换为逼真的说话视频。项目整合了Leonardo.ai的图像生成和ElevenLabs的语音合成技术,支持静态、参考和调整大小等多种模式。除了生成说话头视频外,还可制作全身视频,并通过GFPGAN等工具提升视频质量。项目适用于Linux系统,提供WebUI和API接口,方便开发者和创作者使用。
speech_course - 全面语音处理技术课程,从信号处理到人工智能应用
语音处理数字信号处理语音识别语音合成YSDAGithub开源项目
这门课程全面涵盖语音处理技术,从数字信号处理基础到先进的语音识别和合成方法。内容包括声音活动检测、语音事件识别、关键词检测、语音生物识别等,并延伸至深度学习在语音领域的应用。课程采用讲座、研讨会和实践作业相结合的方式,辅以详细的幻灯片和视频资料,旨在帮助学习者掌握现代语音处理的理论知识和实际技能。
awesome-russian-speech - 全面汇总俄语语音技术资源与开发工具
语音技术俄语语音识别语音合成语音模型Github开源项目
项目整理了俄语语音技术的全面资源,包括识别、合成和转换等领域的数据集、模型和开发工具。内容覆盖从预处理到后处理的各个环节,如重音标注和标点恢复。此外还收录了相关词典、语言学资源和行业历史,为俄语语音技术的研究与开发提供了宝贵参考。
phaseaug - 创新差分增强技术优化语音合成
PhaseAug语音合成神经声码器相位旋转一对多映射Github开源项目
PhaseAug是一种新型差分增强技术,通过旋转频率区间相位来模拟语音合成的一对多映射关系。这种方法有效缓解了传统GAN语音合成器的过拟合问题,提高了生成音频质量。PhaseAug无需修改模型架构即可超越基准性能,为语音合成领域提供了新的研究方向,有助于提升合成语音的自然度和多样性。
MSMC-TTS - 多阶段多码本神经网络文本转语音系统
MSMC-TTS语音合成神经网络TTS多阶段多码本VQ-VAEGithub开源项目
MSMC-TTS是一个高性能神经网络文本转语音系统,基于多阶段多码本VQ-VAE技术。该系统集成了MSMC-VQ-VAE和HifiGAN,通过MSMC-VQ-GAN自编码器优化,并采用多阶段预测器作为声学模型。MSMC-TTS在标准和低资源语言的语音合成中表现优异,能够生成紧凑的语音表示和高质量的语音输出。项目提供了详细的训练、测试和推理指南,并包含针对MSMC-VQ-GAN和多阶段预测器的优化建议。
TTS-Cube - 基于神经网络的端到端语音合成系统
TTS-Cube语音合成神经网络端到端系统音频生成Github开源项目
TTS-Cube是一个基于神经网络的端到端语音合成系统,提供训练和部署TTS模型的完整流程。系统无需预对齐数据,仅通过字符或音素序列即可训练生成音频。它包含一个编码器模块,将输入序列转换为梅尔对数谱图,以及一个基于RNN的声码器模块。TTS-Cube采用轻量级架构和引导注意力技术,实现快速收敛。项目提供交互式演示、安装指南和训练实例。
easy-speech - 跨浏览器语音合成的简单解决方案
Easy Speech语音合成跨浏览器Web Speech APIJavaScriptGithub开源项目
Easy Speech是一款跨浏览器语音合成库,无需额外依赖。它提供统一API接口和异步操作支持,具备全局及特定语音实例的事件钩子。该项目能自动检测加载可用语音,并解决了多个浏览器特有问题。Easy Speech还包含内部日志功能,支持多种构建目标,并提供在线演示测试浏览器兼容性。它简化了Web Speech API在主流浏览器上的语音合成实现。
ControlSpeech - 实现零样本语音克隆和风格控制的开源工具包
ControlSpeech零样本说话人克隆语言风格控制语音合成评估指标Github开源项目
ControlSpeech是一个开源的语音合成项目,专注于实现零样本说话人克隆和语言风格控制。项目包含基线模型、VccmDataset数据集、评估指标和复现代码。通过解耦编解码器技术,ControlSpeech为研究人员和开发者提供了探索灵活语音合成的工具。该项目可应用于个性化语音助手、多语言配音等领域,为语音合成技术的研究和应用提供新的可能性。
pyht - 将文本实时转换为高质量人声音频的Python SDK
PlayHT文字转语音Python SDKAPI语音合成Github开源项目
pyht是基于PlayHT文本转语音API的Python SDK,能将文本实时转换为高质量人声音频流。该SDK支持预建和自定义声音,兼容WAV、MP3等多种音频格式。pyht安装简便,提供API接口和命令行演示,适用于虚拟助手、有声读物和无障碍服务等多种应用场景。此SDK需要Python 3.8+环境,依赖numpy和simpleaudio库。用户可通过pip快速安装,使用时需提供PlayHT的用户ID和API密钥。pyht提供了流式文本转语音功能,支持实时音频生成,为开发者提供了灵活的文本转语音解决方案。
UEAzSpeech - 虚幻引擎整合Azure语音服务的开源插件
Unreal Engine插件Azure语音识别语音合成Github开源项目
UEAzSpeech是一个开源的虚幻引擎插件,通过异步任务将Azure语音认知服务整合到引擎中。插件提供语音识别和合成功能,还包含一个可在引擎中直接生成USoundWave音频的编辑器工具。支持多种语言,并提供详细文档和示例项目,适用于需要在虚幻引擎项目中实现语音交互功能的开发者。
manim-voiceover - Manim数学动画库的语音旁白插件
Manim Voiceover文本转语音动画制作语音合成开源插件Github开源项目
Manim Voiceover是Manim数学动画库的插件,能在Python代码中直接添加语音旁白。用户可以在渲染时通过命令行录制旁白,也可使用AI生成语音。插件支持逐字定时动画,可在特定单词处触发动画效果。它兼容多种TTS服务,并可使用机器翻译将旁白转换为其他语言。这个工具简化了数学教育视频的制作流程,提高了制作效率。
ukrainian-tts - 多声音乌克兰语文本转语音开源项目
Ukrainian TTS语音合成ESPNET多声音自动重音Github开源项目
Ukrainian TTS是一个开源的乌克兰语文本转语音项目,基于ESPNET框架开发。该项目支持离线多声音合成、自动重音标注和语速调节,可在Windows、Mac和Linux等多平台运行。项目提供在线演示、Telegram机器人和Colab notebook,便于快速体验。此外,它还支持移动设备推理,为开发者提供多样化的应用场景。
Pandrator - AI驱动的多语言语音生成和视频配音工具
Pandrator语音合成文本处理音频生成语音克隆Github开源项目
Pandrator是一款开源的多语言语音生成工具,支持将文本、PDF、EPUB和SRT文件转换为语音。该工具集成了语音克隆、LLM文本预处理和AI优化功能,可将生成的音频同步到视频中。Pandrator采用图形界面设计,提供一键安装,操作简便。它利用XTTS、Silero等开源模型实现语音合成,并支持RVC语音增强和NISQA质量评估,为语音生成提供全面解决方案。
CoMoSpeech - 一步实现高质量语音和歌声合成的一致性模型
CoMoSpeech语音合成一步采样一致性模型快速推理Github开源项目
CoMoSpeech是一种创新的语音合成方法,通过单步扩散采样实现高质量语音生成。该模型从扩散教师模型中提炼一致性模型,在保持音频质量的同时显著提高推理速度。在文本转语音和歌声合成任务中,CoMoSpeech展现出优异性能,推理速度超过实时150倍,大幅提升了基于扩散采样的语音合成的实用性。
vietTTS - 开源越南语文本转语音系统
TTS语音合成HiFiGAN越南语预训练模型Github开源项目
vietTTS是一个开源的越南语文本转语音系统,集成了持续时间模型、声学模型和HiFiGAN声码器。项目提供预训练模型、数据处理工具、训练脚本和合成接口,便于研究和开发。包含详细文档,涵盖安装、数据准备和模型训练,对越南语语音合成技术发展具有参考价值。项目提供在线演示和音频样例,直观展示效果。目前项目已停止更新,新版本已迁移至LightSpeed项目,其中包含新的男声模型。
AI-Song-Cover-RVC - 全流程AI歌曲翻唱工具集
AI歌曲翻唱RVC语音合成音频处理Google ColabGithub开源项目
AI-Song-Cover-RVC项目集成了AI歌曲翻唱所需的全套工具。涵盖YouTube WAV文件下载、人声分离、音频分割、模型训练及推理等完整流程。项目支持在Google Colab或Kaggle平台使用,并提供多种工具选项,如AICoverGen和无UI训练模式。附带详细教程,适合音乐爱好者和AI研究者使用。
wunjo.wladradchenko.ru - 集成语音和视觉AI技术的开源创意工具
WunjoAI工具开源项目视频生成语音合成Github
Wunjo是一款开源的AI创意工具,整合了语音合成、声音克隆、内容重塑和深度伪造动画等功能。该项目提供免费社区版和专业订阅版,适合不同层次用户使用。Wunjo在本地运行,保护用户隐私。2.0版本优化了界面和性能,改进了换脸功能,新增了人脸生成和深度伪造分析等特性。
Awesome-ChatTTS - ChatTTS资源汇总及使用指南
ChatTTS文本转语音音色控制AI配音语音合成Github开源项目
Awesome-ChatTTS汇集了ChatTTS相关资源,包括快速体验链接、热门分支介绍、界面说明、音色控制方法、入门教程和常见问题解答。该项目涵盖ChatTTS的基础应用和高级定制,为爱好者和开发者提供全面的参考资料,有助于更好地了解和使用ChatTTS。
VideoLingo - 一站式视频字幕处理工具,提高视频制作效率
AI工具VideoLingoAI字幕智能翻译语音合成NLP技术
VideoLingo提供从字幕切割到精准配音的全套自动化服务,利用先进技术实现高质量视频本地化。支持智能字幕分段和上下文一致翻译的功能,提升创作效率。同时,开放给开发者的灵活配置使内容制作人更轻松地自定义工作流程。
speecht5_tts - 基于统一模态预训练的高效语音合成模型
模型Github预训练模型开源项目Huggingface语音合成语音处理SpeechT5文本转语音
SpeechT5是一个基于统一模态预训练框架的语音合成模型。它通过大规模未标记语音和文本数据学习统一表示,提升了语音和文本的建模能力。该模型在语音识别、合成、翻译等多项任务中表现优异。研究者可使用Hugging Face Transformers库轻松实现文本到语音转换,或针对特定需求进行模型微调。SpeechT5为语音处理领域提供了强大而灵活的解决方案。
MeloTTS-Chinese - 开源多语言文本转语音系统,支持CPU实时推理
模型多语言支持Github开源项目Huggingface语音合成MyShell.aiMeloTTS文本转语音
MeloTTS是一个开源的多语言文本转语音系统,支持英语(含美式、英式等多种口音)、西班牙语、法语、中文、日语和韩语。其特色功能包括混合中英文处理和CPU实时推理。项目提供Python接口,便于开发者集成。MeloTTS采用MIT许可证,允许商业和非商业使用。
tango-full - 基于扩散模型的高质量文本到音频生成工具
模型生成式人工智能开源项目HuggingfaceTANGO语音合成Github深度学习文本转音频
TANGO是一个开源的文本到音频生成工具,基于潜在扩散模型实现。它可根据文本提示生成包括人声、动物声、自然声和人工音效在内的多种逼真音频。TANGO采用Flan-T5作为文本编码器,结合UNet架构的扩散模型进行音频生成,在客观和主观评估中均优于现有技术。该项目提供了完整的模型代码、训练流程和预训练权重,为音频生成研究提供了有力支持。
parler-tts-mini-v1 - 通过文本提示控制的轻量级语音合成模型
模型Github开源项目Huggingface语音合成Parler-TTS自然语言处理文本转语音人工智能
Parler-TTS Mini v1是一个经过45K小时音频数据训练的轻量级文本转语音模型。该模型能生成高质量、自然的语音,并通过简单的文本提示控制语音特征,包括性别、背景噪音、语速、音高和混响等。它支持随机语音和特定说话人语音生成,是开源Parler-TTS项目的组成部分,为社区提供TTS训练资源和数据集预处理工具。
snac_24khz - 高效低比特率音频压缩的神经编解码器
模型音频压缩语音合成GithubSNAC深度学习神经网络编解码器Huggingface开源项目
SNAC是一种先进的多尺度神经音频编解码器,以0.98 kbps的超低比特率压缩24 kHz音频。它采用分层令牌方法,创新地降低了粗糙令牌的采样频率,扩大时间覆盖范围。该模型主要用于语音合成,但也提供适用于音乐和音效的高采样率版本。SNAC支持单声道音频处理,提供多个预训练模型以满足不同需求,是音频压缩和处理领域的重要工具。
mms-tts-cat - Facebook MMS项目推出加泰罗尼亚语文本转语音模型
模型语音合成加泰罗尼亚语多语言GithubVITSMMS开源项目Huggingface
该模型是Facebook Massively Multilingual Speech项目的加泰罗尼亚语文本转语音(TTS)模型。基于VITS架构,通过端到端训练实现高质量语音合成。模型结构包括后验编码器、解码器和条件先验,采用变分推理和对抗训练方法。研究人员可通过Transformers库便捷使用此模型生成加泰罗尼亚语语音。
alvocat-vocos-22khz - 高效的加泰罗尼亚语音频合成技术
声码器Catalan声音合成VocosHuggingfaceGithub开源项目模型语音合成
基于Vocos架构的加泰罗尼亚语音频合成器,通过80-bin Mel频谱生成高质量音频,与多种TTS模型兼容,专为从mel频谱到音频波形的转换而设计,训练于三种加泰罗尼亚语数据集,可作为hifi-gan的高效替代方案。
bigvgan_v2_44khz_128band_512x - 神经网络声码器支持多采样率和高倍上采样比音频生成
Huggingface神经声码器深度学习模型GithubBigVGAN开源项目语音生成语音合成
BigVGAN-v2是一款神经网络声码器,支持44kHz采样率和512倍上采样比。它使用自定义CUDA内核加速推理,采用多尺度子带CQT判别器和梅尔频谱图损失训练。该模型在多语言语音、环境声音和乐器的大规模数据集上训练,提供多种音频配置的预训练检查点。BigVGAN-v2与Hugging Face Hub集成,提供便捷的使用方式和交互式演示。
MeloTTS-French - 多语言实时文本转语音库 支持CPU推理
开源项目语音合成模型MeloTTS实时推理GithubHuggingface多语言支持
MeloTTS是一款多语言文本转语音库,支持包括英语(美式、英式、印度、澳大利亚)、西班牙语、法语、中文、日语和韩语在内的多种语言和口音。该库具备中英混合语音合成功能,并支持CPU实时推理。开发者可通过简洁的Python代码接口使用MeloTTS,实现多样化的语音合成应用。
parler-tts-large-v1 - 开源大规模语音合成模型支持自然语言控制和多人声定制
语音合成人工智能Github自然语言处理Huggingface音频生成开源项目Parler TTS模型
Parler-TTS Large v1是一个基于22亿参数、45K小时音频数据训练的文本转语音模型。通过文本提示可控制语音的性别、噪音、语速等特征,内置34个预设发音人。项目开源了完整训练资源和数据处理代码,采用Apache 2.0许可证发布。
tts-hifigan-ljspeech - 单声道声码器工具用于将声谱图转换为波形
单说话人HiFIGANGithub开源项目语音合成声码器模型HuggingfaceLJSpeech
此项目提供基于LJSpeech数据集训练的HiFIGAN声码器,可将声谱图转换为波形,适用于语音合成过程中的应用。模型针对单一发声者设计,但在一定程度上支持多发声者。建议使用22050 Hz采样率的输入数据,并参考SpeechBrain教程快速上手。