#多语言

VITS快速微调:打造个性化多语言语音合成与声音转换系统

3 个月前
Cover of VITS快速微调:打造个性化多语言语音合成与声音转换系统

Whisper Streaming: 将Whisper模型转化为实时语音转录系统

3 个月前
Cover of Whisper Streaming: 将Whisper模型转化为实时语音转录系统

仇恨言论数据集:自然语言处理领域的重要研究资源

3 个月前
Cover of 仇恨言论数据集:自然语言处理领域的重要研究资源

Opus-MT: 开放式神经机器翻译模型与服务

3 个月前
Cover of Opus-MT: 开放式神经机器翻译模型与服务

RapidOCR:开源高性能多语言OCR工具包

3 个月前
Cover of RapidOCR:开源高性能多语言OCR工具包

自然语言处理的进展与挑战:NLP-progress项目解析

3 个月前
Cover of 自然语言处理的进展与挑战:NLP-progress项目解析

SONAR: 革命性的多语言多模态句子嵌入技术

3 个月前
Cover of SONAR: 革命性的多语言多模态句子嵌入技术

数据选择技术在语言模型训练中的应用与发展

3 个月前
Cover of 数据选择技术在语言模型训练中的应用与发展

深入探索音频变换器课程:Hugging Face开源的音频和语音处理学习资源

3 个月前
Cover of 深入探索音频变换器课程:Hugging Face开源的音频和语音处理学习资源

Kolors: 革命性的文本到图像生成模型

3 个月前
Cover of Kolors: 革命性的文本到图像生成模型
相关项目
Project Cover

IMS-Toucan

IMS Toucan是由斯图加特大学自然语言处理研究所开发的一套工具集,专注于教学、培训和使用最先进的语音合成模型。该项目基于Python和PyTorch开发,旨在为初学者提供简单、强大的学习工具。此外,IMS Toucan支持多语言和多讲者音频生成,可用于文学研究、语音克隆等多种场景。

Project Cover

MeloTTS

MeloTTS是由MyShell.ai开发的多语言、多方言文本转语音库,支持包括英语(美国、英国、印度、澳大利亚)、西班牙语、法语、中文(结合英语)、日语和韩语等语种。该库特别适合于CPU实时推断,支持无安装使用,本地安装及自定义数据集训练。加入Discord社区交流,共同探讨与合作。

Project Cover

AssemblyAI

AssemblyAI为企业提供易于集成的全方位语音AI模型,支持精确的语音转文本功能,适用于多种应用场景如通话、虚拟会议和播客等。同时,还为您提供实时的说话人检测、情感分析、章节检测、个人信息删除等多项服务,确保您始终可以访问最先进的AI技术,从语音数据中提取有价值的商业洞察。

Project Cover

LongBench

LongBench首次为大语言模型的长文本理解能力提供双语、多任务的全面评估基准。它覆盖中文和英文,包含六大类共21种任务,适用于单文档QA、多文档QA、摘要提取、少样本学习、合成任务和代码补全等场景。该项目提供自动化评估方法以降低成本,并涵盖平均长度为5k至15k的测试数据。同时,LongBench-E测试集通过统一采样,分析模型在不同输入长度的性能表现。

Project Cover

chatgpt-ui

ChatGPT UI是一个集多用户、多语言及多数据库连接于一体的Web客户端,专为需要多语言处理和数据持久化存储的场景设计。欲获取更多信息,请访问我们的项目主页。

Project Cover

YourTTS

YourTTS项目开发了先进的多语言零样本多发音人文本转语音及语音转换技术,适用于少量语音样本。该技术支持多种语言,确保高语音相似度和优质输出。基于改良的VITS模型,此技术在多语训练中展现出色表现,获得业界肯定。

Project Cover

open-speech-corpora

open-speech-corpora项目为语音技术研究和开发提供了一个丰富的开放语料库清单。这些语料库多为免费并在创意共享许可证或社区数据许可协议下发布,方便研究和商业使用。它覆盖多种语言和超过2万小时的验证语音数据,是学者和开发者理想的数据资源。项目鼓励社区成员提出资源增补,以进一步完善数据库。

Project Cover

Crystal

Crystal TTS Engine通过C++开发,支持多语言合成,以SSML标准方便模块间交互。此外,该引擎支持动态模块加载及跨平台功能,适合开发需支援多语言环境的开发者。

Project Cover

TTS

🐸TTS库提供多达16种语言的高级文本到语音转换模型,支持低于200毫秒的流媒体延迟。它包含丰富的工具用于模型训练和微调,并且拥有超过1100种预训练模型,适用于多语言和多说话人TTS任务。此外,该库还支持高效的语料库分析和管理,为语音合成提供全面支持。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号