#多语言

IMS-Toucan - 专注于教学、培训和使用最先进的语音合成模型
IMS Toucan语音合成多语言预训练模型PythonGithub开源项目热门
IMS Toucan是由斯图加特大学自然语言处理研究所开发的一套工具集,专注于教学、培训和使用最先进的语音合成模型。该项目基于Python和PyTorch开发,旨在为初学者提供简单、强大的学习工具。此外,IMS Toucan支持多语言和多讲者音频生成,可用于文学研究、语音克隆等多种场景。
MeloTTS - 跨语言、多方言的高品质文本转语音库
MeloTTS多语言文本转语音MyShell.ai开源Github开源项目热门
MeloTTS是由MyShell.ai开发的多语言、多方言文本转语音库,支持包括英语(美国、英国、印度、澳大利亚)、西班牙语、法语、中文(结合英语)、日语和韩语等语种。该库特别适合于CPU实时推断,支持无安装使用,本地安装及自定义数据集训练。加入Discord社区交流,共同探讨与合作。
AssemblyAI - AI语音转文本、说话人检测、情感分析、章节检测、PII 编辑等
热门AI音频音频生成AI工具Universal-1语音数据语音AI模型AssemblyAI多语言
AssemblyAI为企业提供易于集成的全方位语音AI模型,支持精确的语音转文本功能,适用于多种应用场景如通话、虚拟会议和播客等。同时,还为您提供实时的说话人检测、情感分析、章节检测、个人信息删除等多项服务,确保您始终可以访问最先进的AI技术,从语音数据中提取有价值的商业洞察。
LongBench - 双语长文本理解多任务评估
LongBench长文本理解大模型评估多语言Github开源项目
LongBench首次为大语言模型的长文本理解能力提供双语、多任务的全面评估基准。它覆盖中文和英文,包含六大类共21种任务,适用于单文档QA、多文档QA、摘要提取、少样本学习、合成任务和代码补全等场景。该项目提供自动化评估方法以降低成本,并涵盖平均长度为5k至15k的测试数据。同时,LongBench-E测试集通过统一采样,分析模型在不同输入长度的性能表现。
chatgpt-ui - 集多用户、多语言及多数据库连接于一体的Web客户端
ChatGPT UI多用户多语言持久数据存储机器人支持Github开源项目
ChatGPT UI是一个集多用户、多语言及多数据库连接于一体的Web客户端,专为需要多语言处理和数据持久化存储的场景设计。欲获取更多信息,请访问我们的项目主页。
YourTTS - 多语言零样本多发音人文本转语音及语音转换技术
YourTTS多语言零样本多说话者TTS语音转换Coqui TTSGithub开源项目
YourTTS项目开发了先进的多语言零样本多发音人文本转语音及语音转换技术,适用于少量语音样本。该技术支持多种语言,确保高语音相似度和优质输出。基于改良的VITS模型,此技术在多语训练中展现出色表现,获得业界肯定。
open-speech-corpora - 开放语料库整理助力语音技术研究与发展
开放语音语料库语音技术CC-0许可多语言Common VoiceGithub开源项目
open-speech-corpora项目为语音技术研究和开发提供了一个丰富的开放语料库清单。这些语料库多为免费并在创意共享许可证或社区数据许可协议下发布,方便研究和商业使用。它覆盖多种语言和超过2万小时的验证语音数据,是学者和开发者理想的数据资源。项目鼓励社区成员提出资源增补,以进一步完善数据库。
Crystal - 跨平台多语言文字转语音合成引擎
Crystal TTS多语言SSML规范动态模块加载跨平台Github开源项目
Crystal TTS Engine通过C++开发,支持多语言合成,以SSML标准方便模块间交互。此外,该引擎支持动态模块加载及跨平台功能,适合开发需支援多语言环境的开发者。
FlagEmbedding - 提升多语言及多功能检索能力的创新嵌入模型
FlagEmbeddingAI绘图多语言模型微调语言模型Github开源项目
FlagEmbedding是开源的多语言文本嵌入模型集,涵盖从视觉嵌入到长上下文支持的全面技术,稳定领先多项国际基准测试。
JamSpell - 高效准确的多语言拼写检查库,兼容C++和Python
JamSpell拼写检查多语言模型训练准确性Github开源项目
JamSpell是一款高效的拼写检查库,每秒处理近5000个单词,支持多种语言和跨平台使用。它通过考虑单词的上下文来提高准确性,兼容C++、Python等多种编程语言。JamSpellPro版本提升了精准度,支持Java、C#和Ruby,并可在运行时添加词汇,适用于Windows系统。新的预训练模型提供了更好的多语言支持,满足各种应用场景需求。
SkyCode-AI-CodeX-GPT3 - 多语言支持与中文优化的开源代码生成模型
SkyCode代码生成开源模型GPT3多语言Github开源项目
SkyCode是一款由奇点智源发布的多语言开源代码生成模型,基于GPT3架构并使用大量代码进行训练。支持Java、JavaScript、C、C++、Python、Go和shell等主流编程语言,并能理解中文注释。SkyCode在中文编码优化和HumanEval数据集的解题性能上表现卓越,使开发者能够高效完成编程任务。了解更多信息,请访问Hugging Face模型主页。
trankit - 轻量级的多语言自然语言处理Python工具包,支持多个语言的预训练模型
Trankit多语言NLP工具TransformerPythonGithub开源项目
Trankit是一个基于Transformer架构的轻量级Python工具包,支持多语言自然语言处理,包含针对56种语言的90个预训练流水线。它引入了自动模式,多语言输入可自动检测。Trankit在多个自然语言处理任务上表现优异,超过Stanza等主流工具包,并保持高效的内存使用和处理速度。用户无需编程经验即可通过简便的命令行界面使用,还可定制流水线。
bark.cpp - 改进多语言文本生成的实时音频技术
bark.cpp实时多语言文本到语音模型支持Github开源项目
bark.cpp 是一个用纯 C/C++ 编写的开源项目,实现了 SunoAI 的 bark 模型,用于提供高质量的实时多语言文本到语音转换。该项目无需外部依赖,支持 AVX、AVX2 和 AVX512 指令集,兼容 CPU 和 GPU,并提供 F16/F32 混合精度和多种量化选项。用户可以轻松进行构建、下载模型和转换格式。社区成员可以通过报告问题、提出新功能或提交 pull request 来贡献代码。
vscode-spell-checker - Visual Studio Code代码和文档拼写检查扩展
拼写检查Visual Studio Code编程扩展多语言Github开源项目
vscode-spell-checker是Visual Studio Code的拼写检查扩展,支持代码和文档拼写检查。该工具能有效识别常见拼写错误,同时保持较低的误报率。支持多种编程语言和文件类型,提供实时检查和建议功能。用户可自定义词典、忽略特定单词或区域。支持驼峰式命名检查,有助于提升代码质量和可读性。
CodeGeeX - 强大的多语言代码生成与翻译模型
CodeGeeX代码生成多语言人工智能编程助手Github开源项目
CodeGeeX是一个拥有130亿参数的大规模多语言代码生成模型。该模型可生成Python、C++、Java等主流编程语言的可执行代码,并支持跨语言代码翻译。CodeGeeX提供免费的VS Code和Jetbrains IDE扩展,在HumanEval-X多语言基准测试中表现优异。项目完全开源,同时支持Ascend和NVIDIA平台,为开发者提供高效的代码生成工具。
subtitle - 开源多语言字幕生成工具 支持AI驱动和自托管部署
Subtitle开源AI多语言自托管Github开源项目
Subtitle是一款开源的字幕生成工具,支持多语言处理和自托管部署。该工具采用AI技术为视频内容创建准确、自然的字幕,并可轻松集成到现有工作流程。它提供多种AI模型选择和自定义参数设置,适应不同场景的字幕需求。用户可通过命令行或二进制文件运行,输出多种格式的字幕文件。这个项目为个人用户、内容创作者和企业提供了便捷的字幕解决方案。
bark - 多功能文本到音频AI转换模型
Bark文本转语音AI模型多语言音频生成Github开源项目
Bark是Suno开发的开源文本到音频生成模型,能生成逼真的多语言语音、音乐、背景噪音和简单音效。支持笑声、叹息等非语言交流,适用于研究目的。采用transformer架构,直接将文本转换为音频。提供100多种语音预设,可生成随机语音,但不支持自定义语音克隆。该模型为全生成式设计,可能偏离给定脚本,适合各种音频生成任务。
sage - 多语言拼写纠正与文本增强工具包
SAGE拼写纠正文本增强多语言评估Github开源项目
SAGE是一个开源的多语言拼写纠正和文本增强工具包。该项目提供预训练的Transformer模型用于拼写纠正,支持多种语言。SAGE还包含数据增强算法,可模拟真实拼写错误。此外,SAGE提供评估功能,用于衡量拼写纠正工具的性能。这一工具包为处理拼写问题提供了完整解决方案。
wtpsplit - 多语言文本分割工具 支持85种语言的高效句子和段落分割
SaT文本分割多语言自然语言处理深度学习Github开源项目
wtpsplit是一个开源的文本分割工具,实现了最新的SaT模型。它支持85种语言的句子和段落分割,具有高效、稳健的特点。该工具通过LoRA技术可适应特定领域和风格,提供多种模型大小以满足不同应用需求。wtpsplit在保持高性能的同时,还具有较低的计算成本,适用于从通用句子分割到特定领域文本处理的各种场景。
open-tts-tracker - 全面追踪开放源代码语音合成模型的信息平台
TTS模型开源多语言语音合成AI语音Github开源项目
Open TTS Tracker 是一个综合性的开源语音合成模型跟踪平台。该项目汇集了最新TTS模型的详细信息,包括名称、代码库、权重、许可证、微调能力、支持语言等多个方面。通过提供这些资源,Open TTS Tracker 旨在提升开源TTS模型的可见度,推动语音合成技术的进步。研究人员、开发者和爱好者可以在此找到丰富的模型信息和相关资源。
ZMM-TTS - 零样本多语言多说话人语音合成技术创新
ZMM-TTS语音合成多语言多说话人自监督学习Github开源项目
ZMM-TTS是一个多语言多说话人语音合成框架,基于大规模预训练自监督模型的量化语音表示。该项目首次将文本和语音自监督学习模型的表示应用于多语言语音合成。实验表明,ZMM-TTS在六种高资源语言中,对已知和未知说话人都能生成自然度高、相似度好的语音。即使对缺乏训练数据的新语言,也能合成清晰且与目标说话人相似的音频。
BayLing - 跨语言对齐与指令遵循的多语言大模型
BayLing大语言模型多语言指令跟随交互翻译Github开源项目
BayLing是一个开源的多语言大规模语言模型,专注于跨语言对齐和指令遵循。该模型在英汉双语生成、指令执行和多轮交互方面表现优异,可在16GB显存的消费级GPU上运行。BayLing支持翻译、写作、创作和建议等多种任务,为用户提供多语言智能辅助。
Kolors - 高性能文本到图像生成模型
KolorsAI绘图文生图模型开源多语言Github开源项目
Kolors是一款基于潜在扩散的大规模文本到图像生成模型。该模型经过数十亿文本-图像对的训练,在视觉质量、复杂语义理解和中英文字符渲染方面表现优异。Kolors支持中英文输入,能够出色地理解和生成中国特色内容。通过人工和机器评估,Kolors在多个维度上展现了业界领先的性能,适用于各种高质量图像生成任务。
i18n-ally - VS Code国际化开发扩展 支持多框架的翻译管理工具
i18n-allyVS Code本地化翻译多语言Github开源项目
i18n-ally是VS Code的国际化开发扩展,支持多种主流框架。它提供内联注释、悬停操作、集中管理翻译、提取翻译文本和检测缺失翻译等功能。新版本增加了编辑器界面和审核系统,提高了翻译管理效率。该扩展兼容多根工作区和远程开发,适用于多语言应用开发。
audio-transformers-course - Transformers在音频和语音处理中的应用与实践
Audio Transformers CourseHugging Face开源多语言机器学习Github开源项目
audio-transformers-course是一个开源课程项目,聚焦于Transformers模型在音频和语音处理领域的应用。课程提供多语言版本,内容包括详细教程、代码示例和Jupyter notebooks,适合开发者和研究人员学习音频Transformers技术。项目支持社区参与翻译,致力于推广音频处理的前沿知识。
CodeGeeX2 - 多语言代码生成模型显著提升开发效率
CodeGeeX2代码生成AI编程助手多语言量化推理Github开源项目
CodeGeeX2是基于ChatGLM2架构的多语言代码生成模型,经600B代码数据预训练。支持超过100种编程语言,在多项指标上性能显著提升。模型具备代码补全、解释、翻译等功能,可显著提高开发效率。CodeGeeX2开放学术研究使用,商用需申请授权。
DeckFlow - 多语言幻灯片翻译和格式保留工具
AI工具DeckFlow幻灯片翻译演示文稿PowerPoint多语言
DeckFlow是一款专业的幻灯片翻译工具,适用于PowerPoint和Keynote文件。该工具利用AI技术,在保留原始格式和动画的同时精准翻译内容,支持30多种语言。DeckFlow注重数据安全,提高多语言内容制作效率,适合国际公司、学术研究和营销团队使用。它提供批量翻译功能,简化了跨语言交流过程,是处理多语言幻灯片的实用解决方案。
free-programming-books - 多语言免费编程学习资源库
免费编程资源GitHub开源编程书籍多语言Github开源项目
free-programming-books是一个开源项目,收录了多语言的免费编程学习资源。包括编程书籍、在线课程、交互式教程和练习题等多种形式,涵盖数十种编程语言和主题。由Free Ebook Foundation管理维护,是GitHub上最受欢迎的资源库之一,为全球编程学习者提供丰富的免费材料。
data-selection-survey - 全面探索语言模型数据选择的关键技术
语言模型数据选择预训练多语言Web数据Github开源项目
这个项目全面梳理了语言模型数据选择的各个环节,涵盖预训练、指令微调和偏好对齐等阶段。内容包括语言过滤、启发式方法、数据质量评估和去重等核心技术,还探讨了多语言和特定领域模型的专门选择策略。项目汇集了众多相关研究文献,为语言模型开发提供了系统的参考资源。
SONAR - 先进的多语言多模态句子表示模型
SONAR多语言多模态句子嵌入机器翻译Github开源项目
SONAR是Meta AI推出的开源多语言多模态句子表示模型。它支持200种语言的文本处理和37种语言的语音处理,在多语言相似性搜索任务中性能优异。SONAR可用于文本和语音嵌入、文本重构、跨语言翻译等多种自然语言处理任务,为多语言多模态AI应用提供了强大的基础。
RapidOCR - 开源多语言OCR工具 支持跨平台快速部署
RapidOCR开源OCR多平台多语言ONNXGithub开源项目
RapidOCR是一个开源的多平台、多语言OCR工具,具有高速识别和广泛兼容性。该工具支持快速离线部署,采用ONNXRuntime推理引擎,识别速度显著优于PaddlePaddle引擎。RapidOCR内置中英文识别功能,同时支持其他语言的自定义转换。基于深度学习技术,RapidOCR注重轻量化设计和高效性能,适用于快速OCR部署和定制化需求场景。
whisper_streaming - 基于Whisper的实时语音转录和翻译开源系统
Whisper实时转录语音识别多语言流式处理Github开源项目
whisper_streaming是基于Whisper模型的实时语音转录和翻译系统。该项目采用本地协议和自适应延迟实现流式转录,在长篇未分段语音测试中实现高质量转录,延迟仅3.3秒。系统提供多种后端选择,支持GPU加速,适用于多语言会议实时转录。项目还提供灵活API,便于开发者集成到不同应用场景。
VITS-fast-fine-tuning - 个性化多语言语音合成与转换工具
VITS语音克隆文本转语音多语言声音转换Github开源项目
VITS-fast-fine-tuning是一个开源的语音合成项目,旨在快速实现个性化的多语言文本转语音和声音转换功能。该工具支持中英日三语合成,允许用户添加自定义声音,并实现角色间的声音转换。项目提供本地训练和Google Colab两种方式,适应不同用户需求。此外,它能从多种音频源(如短音频、长音频、视频和B站链接)克隆声音,为用户提供灵活的声音定制选项。VITS-fast-fine-tuning的微调过程通常只需1小时左右,大大提高了个性化语音模型的开发效率。
Translate.Photo - 多语言创意内容翻译工具助力全球市场拓展
AI工具Translate.Photo图像翻译创意翻译多语言设计协作
Translate.Photo为创意内容提供多语言翻译服务,覆盖Photoshop、Illustrator、Figma和Canva等主流设计平台。它整合了上下文翻译引擎、术语表管理、专业校对和团队协作功能,可将作品高效转化为75种以上语言版本。这一工具有助于创作者打破语言壁垒,扩大作品在国际市场的影响力。
Discord-CustomRP - Discord富状态管理器:自定义Windows用户在线形象
CustomRPDiscordWindows开源多语言Github开源项目
Discord-CustomRP是一款适用于Windows 7及以上系统的Discord富状态管理工具。它支持自定义游戏、状态和详细信息显示,具备开机自启动和托盘最小化功能。通过简洁的界面,用户可以轻松创建个性化的Discord状态。该工具基于Lachee's DiscordRPC for C#库开发,能够满足展示活动、推广个人品牌或分享信息等多种需求。
TTS - 多语言支持和低延迟的先进文本到语音转换技术
Coqui.aiTTS语音合成深度学习多语言Github开源项目
🐸TTS库提供多达16种语言的高级文本到语音转换模型,支持低于200毫秒的流媒体延迟。它包含丰富的工具用于模型训练和微调,并且拥有超过1100种预训练模型,适用于多语言和多说话人TTS任务。此外,该库还支持高效的语料库分析和管理,为语音合成提供全面支持。