#语音生成

Amphion - Amphion开源工具集，支持音频、音乐、语音生成及多任务评估

Amphion是一个开源的音频、音乐和语音生成工具集，旨在支持可重复的研究并帮助研究人员和工程师入门。提供TTS、SVS、VC、SVC、TTA等生成任务，集成高级语音编码器和评估指标，如F0建模、能量建模、语音相似度测评。功能包括模型可视化、数据集建设及文本到音频/音乐的实现，推动音频生成技术应用。

dla - 深度学习音频处理综合课程

Github开源项目语音识别HSE语音生成Deep Learning for Audio声源分离

此课程详细介绍了音频深度学习的各个方面，包括数字信号处理、语音识别、源分离、文本转语音、语音转换、语音生物识别及音频生成扩散模型。每周更新课程材料，涵盖从理论讲解到实操的全面学习。提供全面的作业和丰富的学习资源，适合深入了解音频处理技术的人士。

Awesome-LLMs-meet-Multimodal-Generation - 大语言模型与多模态生成编辑技术综述

Github开源项目LLM视频生成图像生成语音生成多模态生成

本项目综述了大语言模型在多模态生成和编辑领域的应用。涵盖图像、视频、3D和音频等多种模态，重点介绍基于大语言模型的技术。同时探讨多模态代理、理解和安全性问题。为研究人员提供全面资源，展示大语言模型在多模态内容创作中的最新进展。

Chipmunks AI - 功能全面的AI内容创作助手

文本生成聊天机器人图像生成AI工具AI生成语音生成

Chipmunks AI整合多种AI内容生成技术,包括图像、语音和文本。平台拥有100多种模板和工具,支持20余种语言,可应用于博客、社交媒体和广告等领域。基于Chip X2技术,具备高效的AI处理能力和团队协作功能,助力各类创作者提升内容质量和工作效率。

TopMediai - 全方位AI驱动音频工具和内容创作平台

AI工具内容创作在线工具音乐生成语音生成

TopMediai集成多种AI驱动的在线工具,专注音频和内容创作。提供文本转语音、AI歌曲翻唱、AI音乐生成、语音克隆等功能。拥有3200多种逼真AI语音,支持190多种语言和口音,适用于视频配音、播客制作等场景。平台致力提供简单高效的AI工具,助创作者节省时间精力,提升内容质量。持续更新迭代,确保用户获得最新AI技术支持。

StarVoice - AI名人语音视频生成工具

AI工具语音生成名人模仿AI语音克隆StarVoiceAI用户社区

StarVoice是一款AI名人语音视频生成工具，提供丰富角色库和自定义声音克隆。支持多语言，适用于娱乐和创意制作。拥有30,500+用户，持续更新角色，提供多样化AI生成体验。

AI Clone Voice Free - 即时AI声音克隆平台支持多语言和口音

语音合成机器学习AI工具免费语音生成AI语音克隆

AI Clone Voice Free作为在线AI声音克隆平台，提供免费即时声音克隆服务。用户仅需上传10秒语音样本，即可生成高度相似的AI声音。平台支持多种语言和口音，注重用户隐私保护，操作界面简单直观。无需注册，可无限次使用，一键生成和下载克隆声音。适用范围广泛，涵盖娱乐、无障碍、数字助手和配音等领域，为用户提供高效便捷的AI语音克隆解决方案。

Voice AI Note - 智能语音笔记生成平台

人工智能AI工具语音转文字AI语音笔记语音技术语音生成

Voice AI Note是一个智能语音笔记生成平台，通过先进的人工智能技术实现快速、准确的语音转文字。该平台界面直观，支持多样化的语音记录需求，如会议记录、个人备忘和创意构思等。Voice AI Note致力于提升用户的工作效率和创意表达能力。该平台基于Next.js和React等先进技术构建，确保了稳定的性能和良好的用户体验。

Online Text to Speech with Emotions - AI驱动的英文文本转语音工具支持多样化情感表达

多语言支持文本转语音AI工具AI语音语音生成语音情感

这是一款免费的AI驱动英文文本转语音工具。它能将文本转换为带有情感和风格的自然语音。用户可选择多种声音、语调和情感，快速生成高质量音频。适用于社交媒体配音，支持跨平台使用，并提供安全保障。该工具为创作者提供了便捷的文本转语音解决方案。

Replica Studios - Replica Studios:专业的AI语音生成和文本转语音技术

多语言支持文本转语音AI工具AI语音语音生成角色配音

Replica Studios提供专业的AI语音生成和文本转语音技术,支持多语言、自定义语音设计和API集成。其产品适用于游戏、动画、电影、有声读物等领域。公司注重伦理和商业安全,与专业配音演员合作,确保AI语音合法使用。主要产品包括Voice Director和Voice Lab,可帮助用户创建高质量的个性化AI语音内容。

AiVOOV - 先进的多语言文本转语音工具

多语言支持AI工具文字转语音AI语音合成语音生成AiVOOV

AiVOOV提供超过1000种逼真的声音，支持150多种语言的文本转语音服务。这一工具适用于视频配音、播客制作和电子学习材料等多种场景。通过先进技术，AiVOOV能快速生成专业质量的配音，节省时间和成本。平台还具备音频转文字、SRT生成和项目管理等功能，是一个全面的语音处理解决方案。其直观的界面和多样的定价方案适合不同需求的用户。

ASKEYGEEK.com - 集成500多种AI模型的全能创作平台

文本转语音AI工具内容创作生产力语音生成

ASKEYGEEK.com集成500多种顶级AI模型,涵盖文本创作、图像生成、语音合成等功能。平台整合OpenAI、Claude、Stable Diffusion等技术,提供全方位AI创作解决方案。用户可通过单一账户访问所有工具,显著提升工作效率。ASKEYGEEK.com以实惠价格提供强大AI工具集,让更多用户受益于先进AI技术,在各领域提高生产力和创作质量。

AI Generators - 提供全面的AI生成器探索平台

文本生成视频生成图像生成AI工具语音生成AI生成器

该平台汇集了多种AI生成器，涵盖文本、图像、视频、音乐和代码生成等，帮助用户探索这些技术在艺术、商业等领域的应用。

bigvgan_v2_44khz_128band_512x - 神经网络声码器支持多采样率和高倍上采样比音频生成

Github开源项目深度学习语音合成模型Huggingface神经声码器语音生成BigVGAN

BigVGAN-v2是一款神经网络声码器，支持44kHz采样率和512倍上采样比。它使用自定义CUDA内核加速推理，采用多尺度子带CQT判别器和梅尔频谱图损失训练。该模型在多语言语音、环境声音和乐器的大规模数据集上训练，提供多种音频配置的预训练检查点。BigVGAN-v2与Hugging Face Hub集成，提供便捷的使用方式和交互式演示。

moshika-pytorch-bf16 - 实时全双工语音对话的AI模型革新

Github开源项目文本到语音模型Huggingface对话模型语音生成实时交互Moshi

Moshi是基于bf16的Pytorch实现的实时全双工语音对话模型，支持流式语音识别与文本到语音转换，拥有低延迟，适合自然语音交互场景。

MyGirlGPT: 打造你专属的AI女友

3 个月前

Amphion: 开源音频、音乐和语音生成工具包

3 个月前

大型语言模型与多模态生成的完美融合：Awesome-LLMs-meet-Multimodal-Generation项目深度解析

3 个月前

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com