#语音合成

glados-tts - 开源Portal风格语音合成引擎
GLaDOS语音合成神经网络模型训练安装指南Github开源项目
GLaDOS TTS是一个开源的文本转语音引擎,利用神经网络技术生成Portal游戏风格的GLaDOS语音。该项目支持独立运行和远程API调用,提供了详细的安装说明和训练方法。GLaDOS TTS包含多说话人模型训练和模型优化功能,适用于各种设备和应用场景。开发者可以通过此项目轻松将Portal风格的语音集成到自己的应用中。
open-tts-tracker - 全面追踪开放源代码语音合成模型的信息平台
TTS模型开源多语言语音合成AI语音Github开源项目
Open TTS Tracker 是一个综合性的开源语音合成模型跟踪平台。该项目汇集了最新TTS模型的详细信息,包括名称、代码库、权重、许可证、微调能力、支持语言等多个方面。通过提供这些资源,Open TTS Tracker 旨在提升开源TTS模型的可见度,推动语音合成技术的进步。研究人员、开发者和爱好者可以在此找到丰富的模型信息和相关资源。
ZMM-TTS - 零样本多语言多说话人语音合成技术创新
ZMM-TTS语音合成多语言多说话人自监督学习Github开源项目
ZMM-TTS是一个多语言多说话人语音合成框架,基于大规模预训练自监督模型的量化语音表示。该项目首次将文本和语音自监督学习模型的表示应用于多语言语音合成。实验表明,ZMM-TTS在六种高资源语言中,对已知和未知说话人都能生成自然度高、相似度好的语音。即使对缺乏训练数据的新语言,也能合成清晰且与目标说话人相似的音频。
StableTTS - 轻量级流匹配和DiT驱动的新一代TTS模型
StableTTSTTS模型人工智能语音合成开源项目Github
StableTTS是一款开源的轻量级中英文语音合成模型,参数量仅为1000万。该项目创新性地结合了流匹配和扩散卷积Transformer技术,灵感源自Stable Diffusion 3。StableTTS提供预训练模型,支持推理、微调和WebUI应用。其独特的模型架构包含扩散卷积Transformer块和流匹配解码器,旨在提升语音合成质量。项目还提供了便捷的训练和推理工具,以及Hugging Face在线演示平台。
EmoV-DB - 情感语音合成的多样化开源数据集
EmoV-DB情感语音数据库语音合成强制对齐CMU arcticGithub开源项目
EmoV-DB是一个专为情感语音合成设计的开源数据集。它收录了四位说话人(两男两女)的录音,包括中性、困倦、愤怒、厌恶和愉悦五种情感风格。数据集基于CMU arctic文本,包含超过5000条录音样本,音频采用16位WAV格式。EmoV-DB还集成了强制对齐功能,可分离语音中的语言和非语言成分。这一资源旨在增强语音生成系统的情感表达控制,为相关研究提供重要支持。
LibriTTS-P - 为语音合成和风格分析提供丰富注释的语料库
LibriTTS-P语音合成说话风格语音数据集语音控制Github开源项目
LibriTTS-P是一个基于LibriTTS-R的语音语料库,为文本转语音和风格描述任务提供语音风格和说话者特征提示。该语料库结合人工和合成标注方法,为LibriTTS-R的所有说话者提供多样化的提示注释。研究表明,使用LibriTTS-P训练的TTS模型在自然度方面表现更佳,在风格描述任务中的准确词数是传统数据集的2.5倍。这一资源可能会促进语音合成和风格分析领域的研究进展。
pflowtts_pytorch - 高效零样本语音合成模型
P-Flow零样本TTS语音提示语音合成流匹配生成解码器Github开源项目
pflowtts_pytorch是P-Flow论文的一个非官方实现,提供了基于语音提示的零样本文本转语音功能。该模型采用语音提示文本编码器和流匹配生成解码器,仅需少量训练数据即可实现与大规模模型相当的说话人相似度,同时具有显著更快的采样速度。在发音准确性和语音自然度方面表现出色,为高效率和高质量的语音合成提供了新的解决方案。
xVA-Synth - 游戏MOD角色配音AI语音合成工具
xVASynth语音合成游戏配音人工智能模组开发Github开源项目
xVA Synth是一个开源的机器学习语音合成应用,专为游戏MOD创作者设计。该工具支持多种游戏角色声音模型,通过简单的文本输入即可生成高质量的角色配音。xVA Synth在Steam平台提供,支持GPU加速以提高效率,为游戏MOD开发带来便捷的语音合成解决方案。
bigvsan - GAN神经声码器结合切片对抗网络的创新音频生成模型
BigVSAN神经声码器GAN语音合成深度学习Github开源项目
BigVSAN项目结合GAN神经声码器和切片对抗网络,旨在提高音频生成质量。该项目基于LibriTTS数据集训练,提供预训练模型及完整的代码实现。包括训练、评估和推理功能,并附有详细使用说明。在多项客观评估指标中,BigVSAN展现出优秀性能,为语音合成技术开辟新方向。
I_am_a_person - 全面AI数字人解决方案
数字人AI绘图语音识别大语言模型语音合成Github开源项目
I_am_a_person是一个综合性AI数字人项目,涵盖形象生成、语音识别、大语言模型和语音合成等多个领域。项目整合了人体姿态估计、换脸技术、AI绘图等先进技术,并探索真人和虚拟数字人驱动技术。通过多种语音和语言模型的应用,该项目旨在实现全方位的AI数字人解决方案。
Bridge-TTS - 创新方法提升文本转语音合成效果
Bridge-TTS文本转语音Schrodinger Bridge语音合成机器学习Github开源项目
Bridge-TTS是一个革新性的文本转语音(TTS)项目,利用人工智能和机器学习技术,通过创新的数据处理方法优化语音合成。无论在简单还是复杂的应用场景中,它都显著优于传统的扩散模型。这一突破不仅提升了TTS技术水平,还为语音合成和相关人工智能领域开辟了新的研究方向。项目详情、研究方法和结果可在官方网站查阅,完整源代码将在论文被学术界正式接受后公开发布。
fish-diffusion - 开源框架简化TTS、SVS和SVC模型开发
Fish Diffusion语音合成AI模型开源项目多说话人Github
Fish Diffusion是一个开源的语音合成训练框架,专注于TTS、SVS和SVC任务。基于扩散模型,它支持多说话人合成和44.1kHz高品质输出。该项目优化了代码结构,提高了训练效率,并提供完整的环境配置和使用指南。Fish Diffusion适合研究人员和开发者探索语音合成技术,同时强调负责任的AI应用。项目特点包括简化的代码结构、多设备训练支持和半精度训练,有助于提高开发效率和降低资源消耗。此外,还提供了详细的数据集准备和模型训练指南,便于用户快速上手。
wetts - 端到端文本转语音开源工具包
WeTTS语音合成端到端模型开源数据集多平台支持Github开源项目
WeTTS是一个开源的端到端文本转语音(TTS)工具包,专注于生产级和设备端应用。它支持多语言处理,提供预训练模型,并可在x86、Android和树莓派等多种平台上运行。WeTTS采用VITS等先进的端到端模型,结合WeTextProcessing进行文本规范化,并使用基于BERT的统一前端处理中文语音合成。该工具包支持多个开源数据集,为研究者和开发者提供高质量、易用的TTS解决方案。
elevenlabslib - Python库实现ElevenLabs API全面封装
elevenlabslibAPI封装语音合成Python库音频生成Github开源项目
elevenlabslib是一个Python库,为ElevenLabs API提供封装。该库支持特定设备音频播放、控制播放时间,以及从Python内部管理播放。elevenlabslib易于安装,兼容多平台,并提供文档和示例代码。开发者可通过此库集成ElevenLabs的语音合成功能。
talk-llama-fast - 开源AI语音对话系统 支持多语言实时交互及视频生成
talk-llama-fastAI对话语音合成语音识别视频生成Github开源项目
talk-llama-fast是一个开源的AI语音对话系统,支持实时语音识别、自然语言生成和语音合成,可进行多语言交互。系统集成了视频生成功能,能创建与音频同步的唇形动画。采用流式处理和激进VAD等优化技术,实现低延迟响应。提供多种语音命令和中断机制,增强交互体验。适用于开发AI助手、虚拟角色等应用。
AI-Powered-Video-Tutorial-Generator - 自动生成视频教程的AI工具 具备角色动画和幻灯片功能
AI视频教程字符动画幻灯片自定义内容语音合成Github开源项目
AI-Powered-Video-Tutorial-Generator是一款自动生成视频教程的AI工具。它使用Cohere语言模型生成脚本,通过Edge TTS提供配音,利用SadTalker实现角色面部动画,并整合Google图片作为幻灯片。该工具允许调整创意度、幽默感、解释深度、角色外观和声音,以制作个性化的教学视频。它采用FastAPI作为后端,Next.js作为前端,为视频教程制作提供了灵活的平台。
Audeus - 文本转语音应用 提高阅读速度和专注力
AI工具文本转语音提高阅读效率文档朗读多格式支持语音合成
Audeus是一款文本转语音应用,可将PDF、Word等多种格式文档转换为语音。该应用提供语音合成和同步文本高亮功能,帮助提高阅读速度和专注力。支持多种文件格式,适合学生和专业人士使用。无需安装,可通过网页在任何设备上使用,提供便捷的阅读体验。Audeus能有效提升工作学习效率,为用户节省时间。
seed-tts-eval - 零样本语音生成评估数据集与度量工具
TTS语音合成评估指标测试集AI安全Github开源项目
seed-tts-eval是一个开源项目,提供评估零样本语音生成能力的客观测试集。该测试集包含英语和中文公开语料库样本,并配备计算词错误率和说话人相似度的脚本。这套工具主要用于评估语音合成模型在跨语言和零样本场景下的性能。项目采用Common Voice和DiDiSpeech-2数据集,包含3000个测试样本。评估指标包括使用Whisper和Paraformer模型的词错误率,以及基于WavLM的说话人相似度。这些工具有助于客观评估语音合成技术的进展。
gptsovits-api - 基于GPT-SoVITS的灵活语音合成API接口
GPT-SoVITSAPI调用语音合成声音克隆模型训练Github开源项目
gptsovits-api项目为GPT-SoVITS提供了扩展API接口。它支持自定义模型、参考音频和多语言设置,可处理中英混合文本。通过简单的HTTP API,开发者能轻松将语音合成功能集成到应用中。该接口适用于默认和自训练模型,能满足不同场景的语音合成需求。
AI-YinMei - 开源多功能AI虚拟主播系统
AI虚拟主播吟美语音合成绘画功能直播互动Github开源项目
AI-YinMei是一个开源的智能虚拟主播系统,整合了多种AI技术,包括大语言模型、语音合成和绘画生成。系统提供聊天、唱歌、绘画、跳舞等功能,并支持场景切换和表情控制,实现与观众的实时互动。该项目适用于B站等直播平台,为虚拟主播和内容创作者提供全方位的AI辅助工具。
LPCNet - 低复杂度神经语音合成与压缩算法
LPCNet语音合成神经网络线性预测低复杂度算法Github开源项目
LPCNet是一种基于WaveRNN的低复杂度语音合成算法实现。通过结合线性预测技术,该项目在普通CPU上实现高质量语音合成,并支持1.6 kb/s的超低比特率压缩。LPCNet提供开源代码用于语音合成和编码研究,包括模型训练、优化以及实时包损失隐藏等功能,为语音技术研究和应用奠定基础。
OpenAI Text To Speech WebUI - 多语言支持的OpenAI文本转语音Web工具
AI工具OpenAI文本转语音语音合成多语言支持API
此Web界面利用OpenAI API实现文本到语音的转换,支持中文、英语、法语等数十种语言。用户需提供个人OpenAI API密钥使用服务。工具由数字营销专业人士开发,旨在为产品视频提供逼真的语音选项。界面操作简单直观,作为OpenAI文本转语音服务的免费前端应用,为全球用户提供便捷的多语言语音生成体验。只需输入文本并选择所需语言和语音,即可快速生成高质量的语音输出,满足不同用户的语音需求。
AutoPosts AI - AI短视频创作工具
AI工具短视频制作AI生成内容自动化编辑语音合成内容营销
AutoPosts AI是一款AI驱动的短视频创作工具,支持快速生成适用于主流社交平台的内容。核心功能包括AI脚本生成、多语种配音、自动字幕和智能视频编辑。通过自动化创作流程,该工具旨在提升内容生产效率,助力创作者在社交媒体上获得更多关注。
Takomo.ai - 拖拽式AI模型组合平台,快速构建应用
AI工具AI模型人工智能图像生成语音合成自然语言处理
Takomo.ai平台整合多种AI模型,支持图像生成(低至$0.001/张)、文本处理(低至$0.0016/千字符)、语音转换($0.001/分钟)等功能。通过拖拽式界面,用户可快速组合模型,构建AI应用并生成API。平台采用灵活定价,满足不同规模开发者和企业的AI部署需求。
Deepgram - 全面的语音AI解决方案平台
AI工具语音AI应用开发Deepgram转录服务语音合成
Deepgram提供全面的语音AI技术服务,包括AI语音转文本、智能分析和文本转语音功能。平台支持预录音转录、实时音频转录、文本转语音及音频智能分析。开发者和企业可通过API密钥轻松集成这些功能,并享有200美元的免费额度,可用于750小时的转录或约200小时的文本转语音生成。Deepgram简化了语音AI的开发和应用流程,为各类项目提供高效、准确的语音处理解决方案。
ttsMP3.com - 免费多语言文本转语音与MP3生成工具
AI工具文字转语音英语语音合成AWS Polly多语言支持
ttsMP3.com是一款支持多语言的免费文本转语音工具。它能将文字转换为自然语音,并支持MP3下载。适用于在线学习、演示、视频制作和网站无障碍化。用户可在线试听和下载MP3,每日限额3000字符。该工具还提供丰富的语音效果和定制选项,如插入停顿、强调词语、调整语速和音调等。
OpenAI Text To Speech - 基于OpenAI技术的在线文本转语音工具
AI工具文字转语音OpenAI语音合成AI配音语音库
OpenAI Text To Speech是一款在线文本转语音工具,基于OpenAI的语音合成技术。该工具提供多种AI声音选项,包括不同性别、年龄和口音,允许调整语速以生成高质量语音内容。此外,网站还包含语音库、个性化声音和翻译等功能,为用户提供综合的语音生成服务。
SpeechGen - 智能在线文本转语音平台
AI工具文字转语音AI配音语音合成在线配音多语言支持
SpeechGen是一个先进的在线文本转语音平台,运用AI技术生成自然逼真的语音。支持多语言和多种声音风格,可将文本快速转换为高质量音频。这款AI语音生成工具适用于视频制作、教育和营销等领域,提供高效经济的语音合成方案。具备长文本处理、商业用途授权、云端存储和字幕转音频等功能,为用户提供全方位的文本转语音服务。SpeechGen是您理想的AI驱动语音生成解决方案。
pinokio - 一站式AI脚本资源与部署解决方案
AI工具人工智能图像生成语音合成视频处理自然语言处理
pinokio作为专业的AI脚本市场和部署平台,汇集了图像生成、视频处理、语音合成等多领域的AI资源。平台支持一键部署功能,简化了AI工具的使用流程。通过提供便捷的工具集成环境,pinokio致力于推动AI技术的普及和应用,为AI爱好者和开发者创造价值。
Crikk - 多语言支持的先进AI文本转语音解决方案
AI工具Crikk文本转语音多语言支持AI配音语音合成
Crikk是一款先进的文本转语音工具,为用户提供高质量AI配音服务。该工具支持91种语言,拥有18种优质声音,生成的语音内容接近真人水平。Crikk在保持技术优势的同时,价格合理,使高质量配音服务更易获得。适用范围广泛,包括配音、有声书制作、教育内容和客户服务自动化等领域。Crikk的AI配音效果真实度高,为各类用户提供专业的语音解决方案。
ChatTTS - 高质量中英文对话场景文本转语音模型
AI工具ChatTTS语音合成对话场景多语言支持开源模型
ChatTTS是专注于对话场景的语音生成模型,支持中英双语。经过约10万小时的数据训练,该模型能生成高质量、自然的语音,适用于大型语言模型助手的对话任务和会话式音视频制作。项目团队计划开源基础模型,推动相关研究发展。ChatTTS具有多语言支持和易用性,为开发者和研究人员提供了便捷的文本转语音解决方案。
Generador de Voz Online Gratis - 多语言在线文本转语音工具支持600多种声音
AI工具生成器语音合成人工智能多语言付费模式
该网站提供在线文本转语音服务,支持600多种逼真声音和多种语言。用户可快速生成高质量语音并下载MP3格式。支持标准和神经网络语音,适用于广告、培训、播客等场景。提供灵活定价和高级功能,是功能全面的文本转语音工具。
Donakosy - 全面智能的AI内容创作与生产平台
AI工具AI内容生成人工智能Donakosy内容创作语音合成
作为先进的AI内容创作平台,Donakosy为专业人士提供全面的智能工具。平台能生成高质量文字、逼真配音和音频,支持54种语言,并具备图像生成、代码编写等功能。Donakosy可无缝集成现有工作流程,通过直观界面和全面支持,提高内容创作效率和质量,成为各行业不可或缺的智能助手。
Voxify - AI语音生成器支持多种声音和自定义功能
AI工具AI语音生成语音合成文字转语音配音服务多语言支持
Voxify是一款AI语音生成工具,提供450多种声音选择,包括男性、女性和儿童声音。用户可自定义音高、速度和情感,创造个性化音频。工具界面简洁,易于使用。支持多语言配音,快速生成高质量语音,适用于广告、动画、游戏和教育等多种场景。Voxify为内容创作者提供定制化语音解决方案,助力打造独特听觉体验。
ChatTTS.Site - 开源对话文本转语音系统ChatTTS使用指南
AI工具ChatTTS语音合成对话系统开源项目多语言支持
ChatTTS.Site为开发者提供ChatTTS开源文本转语音项目的综合指南。网站详细介绍了ChatTTS的核心功能,如逼真语音生成和中英双语支持,并提供本地部署、Colab运行和Hugging Face部署等多种使用教程。网站还包含常见问题解答,帮助用户深入理解ChatTTS技术。对于需要在对话场景中实现高质量语音合成的开发者和研究人员,这是一个实用的资源平台。
Free Text to Speech Online - 在线文本转语音转换器 轻松生成自然流畅的语音
AI工具文本转语音语音合成在线工具语音转换读屏软件
本工具为免费在线文本转语音转换器,可将文字转换为自然流畅的语音。具有高质量音频输出、多语言支持、快速转换和简单操作等特点。适用于替代阅读、发音学习、视障辅助和视频配音等多种用途。用户只需输入文本并设置参数,即可快速生成所需语音,提供高效便捷的文字转语音服务。