#语音生成
Amphion - Amphion开源工具集,支持音频、音乐、语音生成及多任务评估
Github开源项目文本到语音音乐生成声码器语音生成Amphion
Amphion是一个开源的音频、音乐和语音生成工具集,旨在支持可重复的研究并帮助研究人员和工程师入门。提供TTS、SVS、VC、SVC、TTA等生成任务,集成高级语音编码器和评估指标,如F0建模、能量建模、语音相似度测评。功能包括模型可视化、数据集建设及文本到音频/音乐的实现,推动音频生成技术应用。
dla - 深度学习音频处理综合课程
Github开源项目语音识别HSE语音生成Deep Learning for Audio声源分离
此课程详细介绍了音频深度学习的各个方面,包括数字信号处理、语音识别、源分离、文本转语音、语音转换、语音生物识别及音频生成扩散模型。每周更新课程材料,涵盖从理论讲解到实操的全面学习。提供全面的作业和丰富的学习资源,适合深入了解音频处理技术的人士。
Awesome-LLMs-meet-Multimodal-Generation - 大语言模型与多模态生成编辑技术综述
Github开源项目LLM视频生成图像生成语音生成多模态生成
本项目综述了大语言模型在多模态生成和编辑领域的应用。涵盖图像、视频、3D和音频等多种模态,重点介绍基于大语言模型的技术。同时探讨多模态代理、理解和安全性问题。为研究人员提供全面资源,展示大语言模型在多模态内容创作中的最新进展。
Chipmunks AI - 功能全面的AI内容创作助手
文本生成聊天机器人图像生成AI工具AI生成语音生成
Chipmunks AI整合多种AI内容生成技术,包括图像、语音和文本。平台拥有100多种模板和工具,支持20余种语言,可应用于博客、社交媒体和广告等领域。基于Chip X2技术,具备高效的AI处理能力和团队协作功能,助力各类创作者提升内容质量和工作效率。
TopMediai - 全方位AI驱动音频工具和内容创作平台
AI工具内容创作在线工具音乐生成语音生成
TopMediai集成多种AI驱动的在线工具,专注音频和内容创作。提供文本转语音、AI歌曲翻唱、AI音乐生成、语音克隆等功能。拥有3200多种逼真AI语音,支持190多种语言和口音,适用于视频配音、播客制作等场景。平台致力提供简单高效的AI工具,助创作者节省时间精力,提升内容质量。持续更新迭代,确保用户获得最新AI技术支持。
StarVoice - AI名人语音视频生成工具
AI工具语音生成名人模仿AI语音克隆StarVoiceAI用户社区
StarVoice是一款AI名人语音视频生成工具,提供丰富角色库和自定义声音克隆。支持多语言,适用于娱乐和创意制作。拥有30,500+用户,持续更新角色,提供多样化AI生成体验。
AI Clone Voice Free - 即时AI声音克隆平台 支持多语言和口音
语音合成机器学习AI工具免费语音生成AI语音克隆
AI Clone Voice Free作为在线AI声音克隆平台,提供免费即时声音克隆服务。用户仅需上传10秒语音样本,即可生成高度相似的AI声音。平台支持多种语言和口音,注重用户隐私保护,操作界面简单直观。无需注册,可无限次使用,一键生成和下载克隆声音。适用范围广泛,涵盖娱乐、无障碍、数字助手和配音等领域,为用户提供高效便捷的AI语音克隆解决方案。
Voice AI Note - 智能语音笔记生成平台
人工智能AI工具语音转文字AI语音笔记语音技术语音生成
Voice AI Note是一个智能语音笔记生成平台,通过先进的人工智能技术实现快速、准确的语音转文字。该平台界面直观,支持多样化的语音记录需求,如会议记录、个人备忘和创意构思等。Voice AI Note致力于提升用户的工作效率和创意表达能力。该平台基于Next.js和React等先进技术构建,确保了稳定的性能和良好的用户体验。
Online Text to Speech with Emotions - AI驱动的英文文本转语音工具支持多样化情感表达
多语言支持文本转语音AI工具AI语音语音生成语音情感
这是一款免费的AI驱动英文文本转语音工具。它能将文本转换为带有情感和风格的自然语音。用户可选择多种声音、语调和情感,快速生成高质量音频。适用于社交媒体配音,支持跨平台使用,并提供安全保障。该工具为创作者提供了便捷的文本转语音解决方案。
Replica Studios - Replica Studios:专业的AI语音生成和文本转语音技术
多语言支持文本转语音AI工具AI语音语音生成角色配音
Replica Studios提供专业的AI语音生成和文本转语音技术,支持多语言、自定义语音设计和API集成。其产品适用于游戏、动画、电影、有声读物等领域。公司注重伦理和商业安全,与专业配音演员合作,确保AI语音合法使用。主要产品包括Voice Director和Voice Lab,可帮助用户创建高质量的个性化AI语音内容。
AiVOOV - 先进的多语言文本转语音工具
多语言支持AI工具文字转语音AI语音合成语音生成AiVOOV
AiVOOV提供超过1000种逼真的声音,支持150多种语言的文本转语音服务。这一工具适用于视频配音、播客制作和电子学习材料等多种场景。通过先进技术,AiVOOV能快速生成专业质量的配音,节省时间和成本。平台还具备音频转文字、SRT生成和项目管理等功能,是一个全面的语音处理解决方案。其直观的界面和多样的定价方案适合不同需求的用户。
ASKEYGEEK.com - 集成500多种AI模型的全能创作平台
文本转语音AI工具内容创作生产力语音生成
ASKEYGEEK.com集成500多种顶级AI模型,涵盖文本创作、图像生成、语音合成等功能。平台整合OpenAI、Claude、Stable Diffusion等技术,提供全方位AI创作解决方案。用户可通过单一账户访问所有工具,显著提升工作效率。ASKEYGEEK.com以实惠价格提供强大AI工具集,让更多用户受益于先进AI技术,在各领域提高生产力和创作质量。
AI Generators - 提供全面的AI生成器探索平台
文本生成视频生成图像生成AI工具语音生成AI生成器
该平台汇集了多种AI生成器,涵盖文本、图像、视频、音乐和代码生成等,帮助用户探索这些技术在艺术、商业等领域的应用。
bigvgan_v2_44khz_128band_512x - 神经网络声码器支持多采样率和高倍上采样比音频生成
Github开源项目深度学习语音合成模型Huggingface神经声码器语音生成BigVGAN
BigVGAN-v2是一款神经网络声码器,支持44kHz采样率和512倍上采样比。它使用自定义CUDA内核加速推理,采用多尺度子带CQT判别器和梅尔频谱图损失训练。该模型在多语言语音、环境声音和乐器的大规模数据集上训练,提供多种音频配置的预训练检查点。BigVGAN-v2与Hugging Face Hub集成,提供便捷的使用方式和交互式演示。
moshika-pytorch-bf16 - 实时全双工语音对话的AI模型革新
Github开源项目文本到语音模型Huggingface对话模型语音生成实时交互Moshi
Moshi是基于bf16的Pytorch实现的实时全双工语音对话模型,支持流式语音识别与文本到语音转换,拥有低延迟,适合自然语音交互场景。
相关文章