Project Icon

fish-speech

全新的TTS解决方案

Fish Speech项目是一个基于最新语音合成模型的平台,提供包括VITS2、Bert-VITS2在内的多种模型。项目代码遵循CC-BY-NC-SA-4.0许可发布,且拥有多种语言文档支持和实用的在线演示。该平台适用于学术研究和开发使用,旨在推动语音合成技术的发展并提供高质量的语音生成服务。

DeepSpeech - 开源的深度学习语音识别引擎
GithubProject DeepSpeechTensorFlow开源开源项目机器学习语音识别
DeepSpeech是一个开源语音转文字引擎,基于百度的Deep Speech研究,并利用Google TensorFlow实现。提供详细的安装、使用和训练模型文档。最新版本及预训练模型可在GitHub获取,支持和贡献指南请参阅相应文件。
StyleTTS2 - 通过样式扩散与对抗训练实现的高质量的文本到语音合成模型
GithubStyleTTS 2大型语言模型对抗训练开源项目语音合成风格扩散
StyleTTS 2是一种创新的文本到语音模型,通过样式扩散和大规模语音语言模型的对抗训练,实现高质量的语音合成。该模型利用潜在随机变量生成最适合文本的语音风格,无需参考语音,提高了语音的自然度。StyleTTS 2在单说话人和多说话人数据集上的表现超越了现有模型,并在零样本说话人适应方面表现出色。
GPT-SoVITS - 少样本声音克隆模型
GPT-SoVITS-WebUIGithubWebUI工具开源项目文本转语音模型训练热门跨语言支持
GPT-SoVITS-WebUI是一款功能强大的在线语音转换和文本转语音工具,支持跨语言转换与实时语音合成。项目集成了自动训练集分段、中文语音识别和文本标记等工具,能够帮助初学者轻松创建训练数据集和GPT/SoVITS模型。GPT-SoVITS支持零样本和少样本文本转语音,是音频处理领域的创新应用。
FileSpeech - 智能文件转语音工具 提升信息可访问性
AI工具FileSpeech多语言支持文件上传离线模式语音转换
FileSpeech是一款高效的文件转语音工具,支持多种文件格式快速转换为清晰自然的语音。工具提供多语言和多种声音选择,可根据需求个性化设置。采用先进语音合成技术,确保准确发音和语调。支持离线使用,性能优化良好,随时随地提供高质量语音转换。适用于教育、内容创作和客户支持等领域,有效提升工作效率和信息可访问性。
ChatTTS - 自然对话文本转语音,多语言支持和精细韵律控制
AI工具ChatTTS多语言支持对话应用语音合成语音表现力
ChatTTS是一款针对对话应用优化的文本转语音模型。支持英文和中文混合输入,提供多说话人选择,并可精确控制笑声、停顿和语调等韵律要素。该工具生成自然、富有表现力的语音,适用于多种创意项目。用户可在Playground区域在线试用,无需安装额外软件。为创意工作者提供便捷、灵活的文本转语音方案,并提供免费体验。
TTSVox - 多语言在线文本转语音工具 提供自然流畅的语音合成
AI工具免费服务在线工具多语言支持文本转语音逼真语音
TTSVox为用户提供高质量的在线文本转语音服务,支持多种语言和声音选项。该工具适用于教育、专业和无障碍等多种场景,操作简单无需下载安装。TTSVox不断优化算法,致力于提供准确、自然的语音输出。作为一款实用工具,它为视障人士、阅读障碍者以及听觉学习者提供便利,同时也适合多任务处理和移动学习。
SenseVoice - 高效、多语种语音识别与情绪识别技术平台
GithubSenseVoice多语言语音识别开源项目情绪识别推理效率热门音频事件检测
SenseVoice是一款支持多语言的语音解析模型,整合了自动语音识别、语种识别、情绪识别及音频事件检测功能。该项目采用非自回归端到端框架,可在超过50种语言上提供精准的语音识别服务,大幅降低了推理延迟,提供方便的微调脚本和多语种细粒度情绪分析,支持多种客户端语言和服务部署,适用于多种商业场景。
MeloTTS-English-v3 - 多语言实时文本转语音系统 支持CPU推理
GithubHuggingfaceMeloTTS多语言支持实时推理开源项目文字转语音模型
MeloTTS-English-v3是一个多语言文本转语音系统,支持多种语言和口音,包括美式、英式、印度式和澳大利亚式英语,以及西班牙语、法语、中文、日语和韩语。该项目特点包括混合中英文支持和CPU实时推理能力。用户可通过Python代码或MyShell平台使用MeloTTS。项目采用MIT许可证,开源社区可自由贡献。
Text To Speech Online - 多语言支持的智能在线文本转语音系统
AI工具AI语音生成SSML多语言支持文字转语音音频格式
Text To Speech Online是一款功能全面的在线文本转语音系统。支持129种语言和方言,提供409个自然声音。通过SSML标签,可调整音调、音量和速度等效果。支持MP3和WAV格式下载。适用于播客制作、视频配音、电子学习等领域,可为视障用户提供音频提示,辅助语言学习,还能用于创建虚拟助手。作为一站式文本转语音解决方案,操作简便,功能丰富。
glow-tts - 通过单调对齐搜索进行文本转语音的生成流
GithubGlow-TTSHiFi-GAN并行合成开源项目文本转语音模型训练
Glow-TTS,一款创新的文本到语音转换模型,独立完成文本与语音的单调对齐搜索,无需外部辅助。此模型不仅大幅提升合成速度,还支持多样性与可控性,并可适应多说话人环境。更新项包括采用新技术降低噪声并优化发音,使其在速度和音质上优于传统模型。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计 是一个多功能的在线设计和创意平台,提供广泛的设计工具和资源,以满足不同用户的需求。从专业的图形设计师到普通用户,无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑,稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合,帮助用户轻松实现创意设计。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号