RTranslator是一款(几乎)开源、免费且离线的Android实时翻译应用。
与同样安装了该应用的人连接,连接蓝牙耳机,将手机放入口袋,你就可以像对方说你的语言一样进行对话。
对话模式
对话模式是RTranslator的主要功能。在此模式下,你可以与另一部使用此应用的手机连接。如果用户接受你的连接请求:
-
当你说话时,你的手机(或连接的蓝牙耳机)将捕捉音频。
-
捕捉的音频将被转换为文本并发送到对方的手机。
-
对方的手机将收到的文本翻译成他的语言。
-
对方的手机将翻译后的文本转换为音频,并通过扬声器(或对方连接的蓝牙耳机)播放。
这一过程双向进行。
每个用户可以连接多部手机,因此你可以在两人以上之间进行任意组合的翻译对话。
对讲机模式
如果对话模式适用于长时间交谈,这种模式则设计用于快速交谈,如在街上询问信息或与店员交谈。
此模式仅翻译两人之间的对话,不支持蓝牙耳机,且需要轮流说话。这不是真正的同步翻译,但只需一部手机即可工作。
在此模式下,智能手机麦克风将同时监听两种语言(可在对讲机模式的同一屏幕上选择)。
应用程序将检测对方使用的语言,将音频翻译成另一种语言,将文本转换为音频,然后通过手机扬声器播放。当文本转语音完成后,它将自动恢复监听。
文本翻译模式
这种模式只是一个经典的文本翻译器,但始终很实用。
通用功能
RTranslator使用Meta的NLLB进行翻译,使用OpenAI的Whisper进行语音识别,两者都是(几乎)开源且最先进的AI,质量出色,直接在手机上运行,确保绝对隐私,并可在离线状态下使用RTranslator而不损失质量。
此外,RTranslator甚至可以在后台运行,即使手机处于待机状态或使用其他应用程序时也能工作(仅在使用对话或对讲机模式时)。然而,某些手机会限制后台功率,因此在这种情况下最好避免后台运行,保持应用程序打开并保持屏幕亮起。
2.0版本的新功能
Google API已被Meta的NLLB(用于翻译)和OpenAI的Whisper(用于语音识别)取代。这些AI模型直接在你的手机上运行,因此现在应用完全免费,无需任何配置!
增加了经典的文本翻译模式。
改进了蓝牙LE设备搜索。
修复了一些bug。
性能
我已经大大优化了AI模型,以最大限度地减少RAM消耗和执行时间,尽管如此,为了能够使用应用程序而不会崩溃,你需要一个至少6GB RAM的手机,并且为了获得足够好的执行时间,你需要一个CPU足够快的手机。
如果你的手机性能较差(或者你想要最快的速度),你可以使用RTranslator的1.0版本(但由于它使用Google API,因此不是免费的,需要一些初始设置)。
下载
要安装应用程序,请从https://github.com/niedev/RTranslator/releases/ 下载最新版本的应用程序apk文件并安装(忽略其他文件,这些文件将在首次启动时由应用程序自动下载)。
在首次启动时,RTranslator将自动下载翻译和语音识别模型(1.2GB),完成后即可开始翻译。
初始下载将从GitHub获取模型,但是在某些地区GitHub速度很慢,遇到此类问题的用户可以从电脑上(或以任何他们喜欢的方式)单独下载模型,然后按照这个指南手动将其插入应用程序。
支持的语言
支持的语言如下:
阿拉伯语、保加利亚语、加泰罗尼亚语、中文、捷克语、丹麦语、德语、希腊语、英语、西班牙语、芬兰语、法语、克罗地亚语、意大利语、日语、韩语、荷兰语、波兰语、葡萄牙语、罗马尼亚语、俄语、斯洛伐克语、瑞典语、泰米尔语、泰语、土耳其语、乌克兰语、乌尔都语、越南语。
文本转语音
RTranslator使用你手机的系统TTS进行语音输出,因此其质量和支持的语言取决于你手机的系统TTS。
上面列出的支持语言都与Google TTS兼容,这是推荐使用的TTS(尽管你可以使用你想要的TTS)。
要更改系统TTS(因此也是RTranslator使用的TTS),请从Play商店或你喜欢的来源下载你想使用的TTS,然后打开RTranslator,打开其设置(右上角),在"输出"部分,点击"文本转语音",此时系统设置将在你可以选择首选系统TTS引擎(在已安装的引擎中)的部分打开,此时,如果你已更改了首选引擎,请重启RTranslator以应用更改。
隐私
隐私是一项基本权利。这就是为什么RTranslator不收集任何个人数据(我甚至没有服务器)。欲了解更多信息,请阅读隐私政策(目前与RTranslator 1.0的隐私政策相同,但我将在未来更新)。
库和模型
RTranslator的代码完全开源,但它使用的一些外部库有更严格的许可证,以下是应用程序使用的所有外部库(及其许可证说明):
BluetoothCommunicator(开源):用于设备间的蓝牙LE通信。
GalleryImageSelector(开源):用于从图库中选择和裁剪个人资料图片。
OnnxRuntime(开源):用作AI模型的加速引擎。
SentencePiece(开源):用于NLLB输入文本的分词。
Ml Kit(闭源):用于对讲机模式中的语言识别。
以及以下AI模型:
NLLB(开源,但仅供非商业用途):使用的模型是带有KV缓存的NLLB-Distilled-600M。
Whisper(开源):使用的模型是带有KV缓存的Whisper-Small-244M。
我将两个模型转换为onnx格式,并量化为int8(排除一些权重以确保几乎零质量损失),同时分离了模型的某些部分以减少RAM消耗(没有这种分离,一些权重在运行时会重复,消耗比预期更多的RAM)。
捐赠
这是一个开源且完全无广告的应用程序,我不从中获取任何收入。
因此,如果你喜欢这个应用并想表示感谢和支持这个项目,你可以通过点击下面的按钮通过PayPal进行捐赠(任何金额都受欢迎)。
如果你捐赠了,或者只是给个星标,谢谢你 :heart:
Bug和问题
请注意,该应用仍处于测试阶段。发现的bug如下:- 有时蓝牙连接会断开。
如果你发现任何bug,请通过提出问题或发送电子邮件至contact.niedev@gmail.com进行报告。
享受你的同声翻译器吧。