漫画翻译

简介

目前存在许多自动漫画翻译工具。但很少有工具能够适当支持其他语言的各种类型漫画。本项目旨在利用最先进的大型语言模型（如GPT-4）的能力，翻译来自世界各地的漫画。目前，它支持英语、韩语、日语、法语、简体中文、繁体中文、俄语、德语、荷兰语、西班牙语和意大利语之间的互译。它还可以将这些语言翻译成（但不能从这些语言翻译）土耳其语、波兰语、葡萄牙语和巴西葡萄牙语。

机器翻译的现状
预览
入门指南
工作原理
- 文本检测
- OCR
- 图像修复
- 翻译
- 文本渲染
致谢

机器翻译的现状

对于几十种语言来说，最好的机器翻译器并不是谷歌翻译、Papago甚至DeepL，而是像GPT-4这样的最先进的大型语言模型，而且优势显著。这一点在远距离语言对（如韩语<->英语、日语<->英语等）的翻译中尤为明显，其他翻译器在这些情况下仍然经常会出现乱码。摘自闵石基（돌기민）的《步行练习》（보행 연습）

漫画样例

使用GPT-4作为翻译器。注意：其中一些漫画也有官方英文翻译版本

<img src="https://i.imgur.com/m7PDiXN.jpg" width="49%"> <img src="https://i.imgur.com/eUwTGnn.jpg" width="49%"> 玩家(吴贤俊)

碳与硅

安装

Python

安装Python（<=3.10）。在安装过程中勾选"添加python.exe到PATH"。

https://www.python.org/downloads/

克隆仓库（或下载文件夹），进入文件夹

git clone https://github.com/ogkalu2/comic-translate
cd comic-translate

然后安装依赖

pip install -r requirements.txt

如果遇到任何问题，可以尝试在虚拟环境中运行。在终端/命令提示符中打开你想安装虚拟环境的目录（或cd '虚拟环境文件夹的路径'）。使用以下命令创建虚拟环境：

python -m venv comic-translate-venv

现在激活虚拟环境。在Windows上：

comic-translate-venv\Scripts\activate

在Mac和Linux上：

source comic-translate-venv/bin/activate

现在你可以再次运行安装命令。使用完应用后，可以使用以下命令停用虚拟环境：

deactivate

要重新激活，在虚拟环境文件夹所在目录的终端中使用相同的命令。

如果你有NVIDIA GPU，建议运行

pip uninstall torch torchvision
pip install torch==2.1.0+cu121 -f https://download.pytorch.org/whl/torch_stable.html
pip install torchvision==0.16.0+cu121 -f https://download.pytorch.org/whl/torch_stable.html

注意：+cu121中的121表示CUDA版本 - 12.1。用你的CUDA版本替换121。例如，如果你运行CUDA 11.8，则用118替换。

使用方法

在comic-translate目录中，运行

python comic.py

这将启动图形界面

提示

如果你有CBR文件，需要安装Winrar或7-Zip，然后将安装文件夹（例如Windows上的"C:\Program Files\WinRAR"）添加到Path。如果已安装但未添加到Path，可能会出现以下错误，

raise RarCannotExec("Cannot find working tool")

在这种情况下，Windows、Linux、Mac的操作说明

确保选择的字体支持目标语言的字符
v2.0引入了手动模式。当自动模式遇到问题时（未检测到文本、OCR不正确、清理不充分等），你现在可以进行修正。只需撤销图像并切换到手动模式。
在自动模式下，一旦图像被处理，它会在查看器中加载或存储以便切换时加载，这样你可以在应用中继续阅读，而其他图像正在被翻译。
Ctrl + 鼠标滚轮进行缩放，否则垂直滚动
常用的触控板手势可用于查看图像
右键、左键用于在图像之间导航

API密钥

以下选项需要访问封闭资源，因此需要API密钥：

GPT-4o或4o-mini用于翻译（付费，4o约0.01美元/页）
DeepL翻译器（免费，每月50万字符）
GPT-4o用于OCR（法语、俄语、德语、荷兰语、西班牙语、意大利语的默认选项）（付费，约0.02美元/页）
Microsoft Azure Vision用于OCR（免费，每月5000张图像）
Google Cloud Vision用于OCR（免费，每月1000张图像）你可以通过进入设置 > 凭证来设置API密钥

获取API密钥

Open AI (GPT)

前往OpenAI平台网站platform.openai.com，使用（或创建）OpenAI账户登录。
将鼠标悬停在页面右侧任务栏上，选择"API密钥"。
点击"创建新的密钥"生成新的API密钥。复制并保存它。

Google Cloud Vision

登录/创建Google Cloud账户。进入云资源管理器，点击"创建项目"。设置您的项目名称。
在此选择您的项目，然后选择"账单"，再点击"创建账户"。在弹出窗口中，"启用账单账户"，并接受免费试用账户的优惠。您的"账户类型"应为个人。填写有效的信用卡信息。
在此为您的项目启用Google Cloud Vision。
在Google Cloud凭证页面，点击"创建凭证"，然后选择API密钥。复制并保存它。

工作原理

对话气泡检测和文本分割

speech-bubble-detector，text-segmenter。两个yolov8m模型分别在8000和3000张漫画图像（漫画、网络漫画、西方漫画）上进行训练。

OCR

默认情况下：

英语使用EasyOCR
日语使用manga-ocr
韩语使用Pororo
中文使用PaddleOCR
法语、俄语、德语、荷兰语、西班牙语和意大利语使用GPT-4o。付费服务，需要API密钥。

可选项：

这些可用于任何支持的语言。需要API密钥。

图像修复

使用Manga/Anime微调的lama检查点来移除由分割器检测到的文本。实现参考lama-cleaner

翻译

目前支持使用GPT-4o、GPT-4o mini、DeepL、Claude-3-Opus、Claude-3.5-Sonnet、Claude-3-Haiku、Gemini-1.5-Flash、Gemini-1.5-Pro、Yandex、Google Translate和Microsoft Translator。

所有大语言模型都会获取整个页面的文本以辅助翻译。还可以选择提供图像本身以获取更多上下文信息。