Logo

#多语言支持

Logo of vosk-api
vosk-api
Vosk是一款离线开源语音识别工具包,支持20多种语言和方言。其模型体积小(仅50MB),但能提供连续的大词汇量转录、零延迟响应和流媒体API。支持Python、Java、Node.JS、C#、C++、Rust、Go等多种编程语言。适用于聊天机器人、智能家居设备、虚拟助手,也能为电影创建字幕、为讲座和采访生成转录。Vosk从Raspberry Pi等小型设备到大型集群均可扩展。访问Vosk官网获取安装指南、示例和文档。
Logo of OpenVoice
OpenVoice
OpenVoice是一款革命性的语音克隆工具,提供准确的音色复制和灵活的声音风格控制,支持多种语言和口音。V2版本进一步强化了音质,并增设了多种母语级支持,包括英语、西班牙语、法语、中文、日语和韩语,并从2024年4月起免费提供商业使用。OpenVoice已广泛应用于即时语音克隆功能,并在全球范围内持续扩展用户群体。
Logo of AI 画外音生成器
AI 画外音生成器
AI 画外音生成器提供高质量的文本到语音转换服务,覆盖400+自然声音和80种语言,适合高效生产各类视频。平台免费、操作简单,适于社交媒体、教育和企业用途,增强视听内容的互动性和可访问性。
Logo of 元象大模型
元象大模型
元象大模型XChat是一款国内自主研发的高性能AI大模型平台,支持包括文本生成、多语言翻译、语义理解和知识问答在内的多种复杂任务,有效降低研发门槛并节约推理成本。
Logo of IBM Watson Text to Speech
IBM Watson Text to Speech
IBM Watson的文本转语音服务是一个支持多种语言和语音选项的API云服务,可将文本高效转化为自然的语音输出。此服务不仅可广泛应用于各种应用程序,还能通过语音交互优化用户体验,提升品牌形象。现已支持容器化部署,帮助合作伙伴在商业应用中更便捷地集成先进的AI技术,并确保数据的安全性与隐私保护。
Logo of BetterOCR
BetterOCR
BetterOCR通过结合EasyOCR、Tesseract和Pororo等OCR引擎,并使用LLM技术,解决多语言文本检测难题。支持自定义上下文以提高文本识别的精度,即使是罕见或非传统词汇也能保证高准确性。支持异步操作和改进的界面,并持续快速开发中。欢迎贡献与参与,共同提升OCR技术。
Logo of clone-voice
clone-voice
clone-voice是一款支持16种语言的声音克隆工具,能将文字转换为语音或修改语音音色。具有易用的Web界面,无需高性能硬件即可使用,适用于教育和娱乐等多种用途。提供自然的合成效果,并支持在线录音功能。
Logo of parrots
parrots
Parrots工具套件整合了先进的多语言语音识别与语音合成技术,提供中文、英文及日文支持。其功能强大的ASR与TTS模型旨在为开发者打造快速、高效的语音交互体验。安装简便,适合处理多种语言的语音数据。
Logo of piper
piper
Piper, 一款为树莓派4特化的高速文本到语音(TTS)系统,支持多语言和ONNX运行时框架。用VITS训练的多样化语音模型保证了顶级的输出质量。适用于命令行操作,可用于家庭自动化、教育以及辅助技术等多种应用场景。
Logo of chat-gpt-ppt
chat-gpt-ppt
chat-gpt-ppt是一款便捷的PPT自动生成工具,支持多语言和多种渲染引擎。用户仅需添加主题和API令牌,即可迅速创建具有专业设计感的PPT,适用于教育、商务及个人用途。
Logo of chatgpt-infinity
chatgpt-infinity
一款免费且强大的插件,支持响应间隔调整、自动滚动、自定义话题和多语言,帮助ChatGPT生成无限答案。兼容Chrome、Edge和Firefox等多个浏览器,适用于各种使用场景。
Logo of nlp.js
nlp.js
NLP.js 提供多语言支持的自然语言处理功能,包括语言检测、字符串相似度计算、情感分析和命名实体识别等。最新版本采用模块化设计和插件系统,方便用户扩展和定制功能。文档详尽,适合在 Node.js 环境中开发聊天机器人及其他应用。
Logo of RealtimeTTS
RealtimeTTS
RealtimeTTS是一款低延迟、高质量的实时文本转语音库。支持OpenAI、Elevenlabs、Azure、Coqui、gTTS和系统TTS引擎,兼容多语言,适用于专业和关键场景。新增灵活定制安装选项,用户可以选择所需功能模块。通过回退机制确保持续运行,完美兼容大语言模型,实现即时文本流转换和清晰自然的语音输出。
Logo of ChatGPT-Shortcut
ChatGPT-Shortcut
AiShort提供简洁易用的AI提示词,无需了解提示词详情即可通过筛选和搜索找到适合各种场景的选项,提升工作效率。支持多语言优化,一键发送至ChatGPT,轻松收藏、编辑和管理提示词,并通过社区投票系统推荐最佳提示词。兼容多种浏览器,提供详细的部署指南和更新方法,便于用户自定义和分享提示词。
Logo of devika
devika
Devika是一款先进的AI软件工程师,能够理解高层次人类指令,并将其分解为步骤,搜索相关信息并编写代码以实现既定目标。该项目支持多种编程语言,集成了大语言模型、高级AI规划和推理能力,并具备无缝的网络浏览和信息获取功能。无论是创建新功能、修复错误还是从头开始开发整个项目,Devika都在此助力。
Logo of Listnr AI
Listnr AI
Listnr AI不仅提供1000+种声音和支持142+语言,还支持API接入和定制化功能,适应更广泛的应用需求。用户可以轻松集成到各种系统中,提升内容互动性及用户体验。适合广告、教育、产品演示、有声书和YouTube视频等多种应用场景。
Logo of Spikes Studio
Spikes Studio
Spikes Studio专为YouTube、Twitch、TikTok和Instagram Reels设计,能够将长视频一键转换成引人注目的短视频。这一平台以其强大的AI编辑器、自动添加字幕等功能,帮助用户提升社交媒体影响力。操作简便,利用高精度自动字幕和多语言支持,轻松适应国际市场需求,实现视频内容的高效生产和多平台分发,极大地提高了视频编辑的速度和质量。
Logo of 快转字幕
快转字幕
快转字幕提供AI驱动的多语言字幕生成和编辑服务,包括自动语音识别、AI翻译及独家字幕重排技术。支持多种视频和字幕格式,特别优化亚洲语言,使翻译更自然。一站式服务流程简化,适应各种专业字幕制作需求,深受用户好评。
Logo of Ebook-Translator-Calibre-Plugin
Ebook-Translator-Calibre-Plugin
Ebook-Translator-Calibre-Plugin是一款多功能电子书翻译插件,支持多种翻译引擎,兼容Calibre的所有电子书格式。提供多种模式,支持自定义翻译引擎,优化翻译过程的连续性和灵活性。
Logo of CosyVoice
CosyVoice
CosyVoice是一个先进的多语言语音生成技术,致力于提升语音交互的流畅性和实时反馈。该项目支持广泛的语言,提供灵活的下载和安装选项,包括跨语言和指令式语音合成,满足不同用户需求。通过预训练模型和定制选项,用户可以实现从简短语句到完整语音输出的自然转换,优化整体交互体验。
Logo of Expressive-FastSpeech2
Expressive-FastSpeech2
Expressive-FastSpeech2是一个非自回归表情文本到语音(TTS)的研究项目,专注于emotional和conversational TTS。该项目使用AIHub多模态视频AI数据和IEMOCAP数据库进行韩语和英语的处理,并提供了不同语言适应和数据处理的指导。
Logo of TensorFlowTTS
TensorFlowTTS
探索TensorFlowTTS:快速、灵活的多语言语音合成平台,采用最新技术如Tacotron-2、MelGAN,可部署于移动设备,助力全球开发者创造多语种语音应用。
Logo of openai-translator
openai-translator
OpenAI Translator不仅是一个浏览器扩展,它还是可在Windows、macOS及Linux上运行的桌面应用,支持翻译、文本润色和摘要工作。集成高效的文本处理技术,该工具支持55种语言互译,提供TTS和屏幕翻译服务,满足多样化的使用场景。
Logo of youtube-ai-extension
youtube-ai-extension
YouTube Chat Extension提供独特的互动体验,允许用户直接与YouTube视频实时聊天。支持视频摘要、提问及详细解答,界面友好,包含多语言和上下文感知回复功能。安装步骤简便,只需克隆仓库、添加OpenAI API密钥、安装依赖并在Chrome中加载扩展。更多功能和未来更新请参阅项目路线图。专为中文用户优化,体验前所未有的互动乐趣。
Logo of gse
gse
Gse是一款支持多种分词模式及多语言(包括英文、中文、日文等)的高效NLP和文本分词工具。它采用双数组Trie和动态规划等算法,并通过ElasticSearch和Bleve集成,提供强大的文本处理能力。项目内还支持TensorFlow的NLP和命名实体识别(NER)功能,支持用户自定义词典和词性标注。作为一个开源项目,Gse在简体中文、传统中文和其他语言的文本处理上有优异表现。
Logo of TTS
TTS
TTS库基于最新研究成果,提供高效的文本到语音生成技术,实现了训练便捷、速度快、质量高的最佳平衡。该库包括预训练模型和数据集质量评估工具,已被广泛应用于20多种语言的产品和研究项目。支持多说话人TTS、快速模型训练、多GPU训练,并兼容PyTorch、TensorFlow和TFLite等多种平台。
Logo of open-webui
open-webui
Open WebUI是一个为多设备设计的自托管WebUI,支持离线使用,集成LMStudio、GroqCloud等API。支持Docker和Kubernetes安装,提供Markdown、LaTeX支持、多语言翻译、图像生成等功能,并通过角色控制访问权限,定期更新,适用于企业和个人用户。详细信息请访问官方文档。
Logo of myGPTReader
myGPTReader
myGPTReader是一个革新性的AI阅读助手,支持网页、文档和视频内容的智能阅读。用户可以通过语音与其交流,进行多语种对话,有效提高外语水平。此外,它还集成了最新热点新闻的自动摘要功能,使得用户能迅速掌握当下热门话题。加入超过5000名成员的Slack频道,免费体验myGPTReader的全部功能。
Logo of Notta
Notta
Notta通过AI技术自动转录和总结会议、访谈或录音内容,生成可搜索的文本。该平台支持58种语言的音视频实时转录和翻译,帮助节省时间并提升效率。开始免费使用,适合教育、媒体、销售等多种应用场景。
Logo of Rask
Rask
本平台利用先进的AI技术提供视频本地化和配音服务,实现成本效益高效的多语种视频处理,支持企业和内容创作者快速进入国际市场。使用人工智能实现质量媲美人工的翻译和配音服务,优化您的全球内容传播策略。
Logo of NaturalReader Home
NaturalReader Home
NaturalReader是一个专业文本到语音平台,涵盖50种语言和200种AI语音,支持PDF等20多种格式。运用先进的大型语言模型(Large Language Models, LLM)技术,提供高质量的声音克隆和声音生成,广泛应用于教育、商业和增强无障碍通讯。
Logo of WhisperSpeech
WhisperSpeech
WhisperSpeech是基于开源Whisper框架开发的文本至语音系统,提供了商业级安全的语音合成解决方案。当前支持英语LibreLight数据集,并计划拓展到多语言支持。用户可通过在线Colab平台体验其高效的语音合成和声音克隆功能。
Logo of Talkify
Talkify
Talkify为多语言环境提供高品质的文字转语音服务。该库支持范围广泛的语言,包括中文和英文,便于开发者通过几个简单步骤集成至任何网站。具有全面的API支持和控制界面,每月初次1000次请求免费。立即注册以体验先进的语音合成服务。
Logo of xtts2-ui
xtts2-ui
XTTS-2-UI是一个支撑16种语言的文本至语音克隆工具,仅需10秒的音频样本即可复制声音。项目易于安装与操作,适合个人和科研用途。详细安装和使用方法请参见GitHub页面。
Logo of json-translator
json-translator
json-translator 提供JSON和YAML文件的多语言翻译支持,免费整合谷歌翻译及Microsoft Bing翻译等模块。该工具支持命令行操作,适用于各类用户,无需专业技能即可进行快速翻译。多语种支持包括但不限于中文、英语和西班牙语,助力项目轻松实现国际化。
Logo of setfit
setfit
SetFit是一种高效且无需提示的小样本微调框架,利用Sentence Transformers实现高准确度的小样本学习。不需要手工制作提示或语言模型转换器,直接从文本示例生成丰富嵌入,大大提高训练速度。在仅有少量标记数据的情况下,SetFit的精度可与大型模型相媲美。例如,针对客户评论情感数据集,仅使用每类8个标记样本就能达到RoBERTa Large的全量训练精度。支持多语言文本分类,兼容Hugging Face Hub,训练和推理过程简单直观,是一个高效实用的选择。
Logo of transcribe
transcribe
这个开源项目提供多语言实时转录,通过选择OpenAI GPT-4o、GPT-4、GPT-3.5等模型生成对话响应。软件具有最新的OpenAI库支持,无需Python依赖即可安装使用,并提供高安全性功能。支持麦克风和扬声器输入转换,用户可以定制提示、保存聊天记录,并可享受离线免费和在线付费的语音到文本转换服务。该工具在有GPU支持时性能最佳,并提供详细的安装指南和用户支持。
Logo of OpenGptChat
OpenGptChat
OpenGptChat是一个基于Open AI Chat完成API的简易聊天客户端,提供实时响应、多个会话及多语言支持。用户可通过设置页面即时调整配置,利用热键方便操作。该项目还帮助用户学习WPF中的数据绑定、命令、模板等技术,并使用LiteDB进行数据存储,实现依赖注入与配置。
Logo of ChatTTS
ChatTTS
ChatTTS是为对话场景特别设计的文本到语音模型,支持多种语言和多发言者交互。该模型优化对话基础任务,支持细粒度的韵律特征控制,如笑声、停顿等。通过使用预训练模型,ChatTTS在自然语言合成和表达能力方面均有突破性进展,适用于教育和研究目的。
Logo of VEED
VEED
VEED.IO为全球用户提供高效的文本到语音转换,支持多种语言和真实声音选项,适用于内容制作及广告业务,提升视频生产的效率与质量。
Logo of 腾讯云 AI 代码助手
腾讯云 AI 代码助手
腾讯云 AI 代码助手是一款集成众多编程语言和主流编辑器的辅助工具,具备技术对话、代码自动补全、BUG 诊断及测试代码生成等多种功能。它帮助开发者提升编码效率、优化代码质量,并简化开发流程。同样,该工具支持多种主流IDEs,易于安装与使用。
Logo of Reecho.AI
Reecho.AI
Reecho睿声是专业的多语言语音合成与瞬时克隆平台,采用先进AI技术,快速实现与真人无异的拟真语音。平台支持丰富的应用场景,包括视频制作、有声内容制备等,能有效解析文本与声音的细微关系,输出自然且富有表现力的声音效果。
Logo of PlayHT
PlayHT
探索PlayHT—超逾900种自然AI语音和多语种支持,适用于教育、广播、视频等多场景。支持MP3、WAV格式下载,免费体验版现已推出,满足一切商业及创意需求。
Logo of marytts
marytts
MaryTTS,开源多语种文本转语音系统,基于Java实现,兼容各主要平台。支持广泛的语言和方言,易于在Java项目中集成和自定义。提供全面的服务器运维和应用开发文档,是开发者及IT专业人士的理想选择。
Logo of RHVoice
RHVoice
RHVoice是一款免费开源的语音合成软件,支持英语、俄语、葡萄牙语等多种语言。利用先进的统计参数合成技术,基于开源语音技术,提供清晰可懂的语音输出。该软件不仅支持Windows、GNU/Linux,Android平台,还兼容SAPI5和其他文本到语音接口,适合视障人士阅读使用。
Logo of SoniTranslate
SoniTranslate
SoniTranslate是一个高效的视频翻译Web应用,提供了多语言支持和音频同步选项。界面基于Gradio库,确保流畅的用户体验。包含多个语言版本如简体中文,并且提供了详尽的视频教程,确保用户能够快速理解和操作。
Logo of Easydict
Easydict
Easydict是专为macOS开发的词典翻译工具,提供词汇查找、全文翻译和OCR识别功能。整合了多种翻译平台,包括有道、苹果系统词典和Google。涵盖48种语言,并配备自动语种识别与智能查询,实现便捷高效的翻译体验。
Logo of language-detection
language-detection
language-detection是一个PHP库,可检测文本的语言。通过解析训练文本生成N-grams数据库,用于语言检测。支持110种语言,提供API接口、白名单和黑名单功能、结果限制、最佳结果获取等功能。用户可自定义语言文件进行训练,提高检测精度。适合需要多语言支持的PHP项目。
Logo of chatgpt-translator
chatgpt-translator
ChatGPT Translator是一款使用GPT语言模型的开源桌面翻译应用程序。自动检测源语言并支持多种语言翻译,支持自定义快捷键和API域名,兼容macOS、Windows和Linux系统。通过简单安装步骤即可快速开始使用,任何问题或功能需求可在GitHub上提交。
Logo of prettier
prettier
Prettier是一个开源的代码格式化工具,支持JavaScript、TypeScript、CSS等多种编程语言。它能自动解析代码并按预设规则重新格式化,保证代码风格一致性。Prettier可集成到编辑器和开发流程中,有助于团队保持统一的代码风格,提升代码可读性。其自动化特性减少了格式相关的讨论,使开发者能更专注于核心编码工作。