Project Icon

speech_dataset

多语言语音识别与合成数据集详细介绍及应用

此页面总结了多语言语音数据集,包括中文、英文、日语、韩语、俄语等。涵盖了语音识别、语音合成、说话人识别和分离等应用领域,详细描述了每个数据集的时长、下载地址及其具体用途,帮助用户快速找到符合科研或项目需求的语音数据。

open-tts-tracker - 全面追踪开放源代码语音合成模型的信息平台
AI语音GithubTTS模型多语言开源开源项目语音合成
Open TTS Tracker 是一个综合性的开源语音合成模型跟踪平台。该项目汇集了最新TTS模型的详细信息,包括名称、代码库、权重、许可证、微调能力、支持语言等多个方面。通过提供这些资源,Open TTS Tracker 旨在提升开源TTS模型的可见度,推动语音合成技术的进步。研究人员、开发者和爱好者可以在此找到丰富的模型信息和相关资源。
TTS - 多语言支持和低延迟的先进文本到语音转换技术
Coqui.aiGithubTTS多语言开源项目深度学习语音合成
🐸TTS库提供多达16种语言的高级文本到语音转换模型,支持低于200毫秒的流媒体延迟。它包含丰富的工具用于模型训练和微调,并且拥有超过1100种预训练模型,适用于多语言和多说话人TTS任务。此外,该库还支持高效的语料库分析和管理,为语音合成提供全面支持。
dc_tts - 基于深度卷积网络的高效文本到语音转换模型
DC-TTSGithubTensorFlow开源项目文本转语音训练模型语音样本
dc_tts,一个基于TensorFlow的文本到语音转换模型,使用深度卷积网络和引导注意力机制进行设计。项目不仅还原了相关学术论文,还对不同声音数据进行了深入研究,支持多种语言和数据集,提供完善的训练及预处理教程以及预训练模型,适用于学术研究和实际应用场景。
MMDialog - 推进多模态开放域对话研究的大规模数据集
GithubMMDialog多模态对话数据集大规模数据开放域对话开源项目自然语言处理
MMDialog是一个包含丰富文本和图像信息的大规模多轮对话数据集。它提供详细的数据统计、格式说明和评估方法,适用于多模态开放域对话研究。学术研究人员可通过申请流程获取该数据集,用于非商业性研究。MMDialog为自然语言处理领域的多样化对话任务研究提供了重要资源。
NISQA - 多维度语音质量评估和自然度预测深度学习工具
GithubNISQA开源项目自然语言合成训练语音样本语音质量预测
NISQA是一个先进的深度学习工具,专注于多维度语音质量评估,包括噪声、色彩度、断续和响度等特质。最新版本NISQA v2.0增强了预测精度,并支持模型训练与微调。NISQA-TTS专为评估文本到语音系统生成语音的自然度而设计。项目库含14,000多个语音样本,适用于广泛的训练和评估任务。
Speechson - 在线多语言文本转语音服务
AI工具AI语音生成SSML功能Speechson多语言支持文字转语音
Speechson是一个在线文本转语音平台,提供840多种AI语音和135多种语言方言。支持MP3、OGG、WAV和WEBM等音频格式输出。借助深度学习技术,生成高质量、自然的语音。平台支持SSML功能,方便调整语音特性。适用于教育培训、内容创作等多种场景,能够满足多样化的语音需求。
game-datasets - 全面收录游戏数据集与AI工具资源
APIGithub人工智能开源游戏开源项目数据挖掘游戏数据集
game-datasets项目汇集了大量游戏相关的数据集、API和AI工具资源。涵盖从经典游戏到现代电竞的多个领域,提供了丰富的数据挖掘和AI开发素材。项目持续更新,为游戏AI和数据科学研究提供全面参考。收录内容包括游戏API、AI竞赛平台、开源游戏引擎、相关书籍等,是游戏研究和开发的重要资源库。
FunASR - 综合性开源语音识别与处理工具集
FunASRGithub多任务开源项目模型部署语音识别预训练模型
FunASR是一个全面的开源语音处理工具集,融合了学术研究和工业应用。它不仅支持语音识别模型的训练和微调,还提供了语音活动检测、标点恢复等多种功能。该项目提供大量预训练模型,便于快速构建高效准确的语音识别服务。FunASR以其广泛的功能、高性能和易部署特性,为语音识别技术的研究和应用提供了强大支持。
deep-speaker - 深度学习语者嵌入系统,适用语者识别与验证
Deep SpeakerGithubKerasTensorflow开源项目神经网络说话人嵌入
本系统利用神经网络将语音映射到超球面,通过余弦相似度计算语音相似度,实现语者识别、验证与聚类。基于TensorFlow和Keras实现,支持多版本,提供可训练和预训练模型。适用于需大规模数据处理和高性能计算的用户,并提供详细的训练与测试指南。
CosyVoice_For_Windows - 多语言语音合成工具 支持零样本和跨语言生成
AI语音CosyVoiceGithub开源项目深度学习自然语言处理语音合成
CosyVoice_For_Windows是一个开源的语音合成项目,支持多语言、零样本和跨语言语音生成。该工具提供SFT、零样本、跨语言和指令推理等多种模式。项目包含Web演示界面,便于快速了解功能。同时还支持高级训练和部署,适用于语音合成的研究和应用开发。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号