Project Icon

comic-translate

多语言漫画自动翻译开源项目

Comic Translate是一个开源的多语言漫画翻译项目,支持英语、韩语、日语、法语、中文等语言之间的互译。该项目利用GPT-4等大型语言模型进行翻译,并整合了文本检测、OCR识别和图像修复等技术。Comic Translate适用于全球各类漫画的翻译,不局限于日本漫画。项目特点包括高质量翻译输出、多语言支持和全面的技术集成。

漫画翻译

English | 한국어 | Français | 简体中文 | 日本語 | Português Brasileiro

简介

目前存在许多自动漫画翻译工具。但很少有工具能够适当支持其他语言的各种类型漫画。 本项目旨在利用最先进的大型语言模型(如GPT-4)的能力,翻译来自世界各地的漫画。目前,它支持英语、韩语、日语、法语、简体中文、繁体中文、俄语、德语、荷兰语、西班牙语和意大利语之间的互译。它还可以将这些语言翻译成(但不能从这些语言翻译)土耳其语、波兰语、葡萄牙语和巴西葡萄牙语。

机器翻译的现状

对于几十种语言来说,最好的机器翻译器并不是谷歌翻译、Papago甚至DeepL,而是像GPT-4这样的最先进的大型语言模型,而且优势显著。 这一点在远距离语言对(如韩语<->英语、日语<->英语等)的翻译中尤为明显,其他翻译器在这些情况下仍然经常会出现乱码。 摘自闵石基(돌기민)的《步行练习》(보행 연습) 模型

漫画样例

使用GPT-4作为翻译器。 注意:其中一些漫画也有官方英文翻译版本

《公海的可怜人》

《西游记》

《虫世界传奇》

《葬送的芙莉莲》

《沙之日》

玩家(吴贤俊)

碳与硅

安装

Python

安装Python(<=3.10)。在安装过程中勾选"添加python.exe到PATH"。

https://www.python.org/downloads/

克隆仓库(或下载文件夹),进入文件夹

git clone https://github.com/ogkalu2/comic-translate
cd comic-translate

然后安装依赖

pip install -r requirements.txt

如果遇到任何问题,可以尝试在虚拟环境中运行。 在终端/命令提示符中打开你想安装虚拟环境的目录(或cd '虚拟环境文件夹的路径')。 使用以下命令创建虚拟环境:

python -m venv comic-translate-venv

现在激活虚拟环境。在Windows上:

comic-translate-venv\Scripts\activate

在Mac和Linux上:

source comic-translate-venv/bin/activate

现在你可以再次运行安装命令。使用完应用后,可以使用以下命令停用虚拟环境:

deactivate

要重新激活,在虚拟环境文件夹所在目录的终端中使用相同的命令。

如果你有NVIDIA GPU,建议运行

pip uninstall torch torchvision
pip install torch==2.1.0+cu121 -f https://download.pytorch.org/whl/torch_stable.html
pip install torchvision==0.16.0+cu121 -f https://download.pytorch.org/whl/torch_stable.html

注意:+cu121中的121表示CUDA版本 - 12.1。用你的CUDA版本替换121。例如,如果你运行CUDA 11.8,则用118替换。

使用方法

在comic-translate目录中,运行

python comic.py

这将启动图形界面

提示

  • 如果你有CBR文件,需要安装Winrar或7-Zip,然后将安装文件夹(例如Windows上的"C:\Program Files\WinRAR")添加到Path。如果已安装但未添加到Path,可能会出现以下错误,
raise RarCannotExec("Cannot find working tool")

在这种情况下,WindowsLinuxMac的操作说明

  • 确保选择的字体支持目标语言的字符
  • v2.0引入了手动模式。当自动模式遇到问题时(未检测到文本、OCR不正确、清理不充分等),你现在可以进行修正。只需撤销图像并切换到手动模式。
  • 在自动模式下,一旦图像被处理,它会在查看器中加载或存储以便切换时加载,这样你可以在应用中继续阅读,而其他图像正在被翻译。
  • Ctrl + 鼠标滚轮进行缩放,否则垂直滚动
  • 常用的触控板手势可用于查看图像
  • 右键、左键用于在图像之间导航

API密钥

以下选项需要访问封闭资源,因此需要API密钥:

  • GPT-4o或4o-mini用于翻译(付费,4o约0.01美元/页)
  • DeepL翻译器(免费,每月50万字符)
  • GPT-4o用于OCR(法语、俄语、德语、荷兰语、西班牙语、意大利语的默认选项)(付费,约0.02美元/页)
  • Microsoft Azure Vision用于OCR(免费,每月5000张图像)
  • Google Cloud Vision用于OCR(免费,每月1000张图像) 你可以通过进入设置 > 凭证来设置API密钥

获取API密钥

Open AI (GPT)

  • 前往OpenAI平台网站platform.openai.com,使用(或创建)OpenAI账户登录。
  • 将鼠标悬停在页面右侧任务栏上,选择"API密钥"。
  • 点击"创建新的密钥"生成新的API密钥。复制并保存它。

Google Cloud Vision

  • 登录/创建Google Cloud账户。进入云资源管理器,点击"创建项目"。设置您的项目名称。
  • 在此选择您的项目,然后选择"账单",再点击"创建账户"。在弹出窗口中,"启用账单账户",并接受免费试用账户的优惠。您的"账户类型"应为个人。填写有效的信用卡信息。
  • 在此为您的项目启用Google Cloud Vision。
  • Google Cloud凭证页面,点击"创建凭证",然后选择API密钥。复制并保存它。

工作原理

对话气泡检测和文本分割

speech-bubble-detectortext-segmenter。两个yolov8m模型分别在8000和3000张漫画图像(漫画、网络漫画、西方漫画)上进行训练。

OCR

默认情况下:

  • 英语使用EasyOCR
  • 日语使用manga-ocr
  • 韩语使用Pororo
  • 中文使用PaddleOCR
  • 法语、俄语、德语、荷兰语、西班牙语和意大利语使用GPT-4o。付费服务,需要API密钥。

可选项:

这些可用于任何支持的语言。需要API密钥。

图像修复

使用Manga/Anime微调lama检查点来移除由分割器检测到的文本。实现参考lama-cleaner

翻译

目前支持使用GPT-4o、GPT-4o mini、DeepL、Claude-3-Opus、Claude-3.5-Sonnet、Claude-3-Haiku、Gemini-1.5-Flash、Gemini-1.5-Pro、Yandex、Google Translate和Microsoft Translator。

所有大语言模型都会获取整个页面的文本以辅助翻译。 还可以选择提供图像本身以获取更多上下文信息。

文本渲染

使用PIL在从气泡和文本获得的边界框中渲染换行文本。

致谢

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计 是一个多功能的在线设计和创意平台,提供广泛的设计工具和资源,以满足不同用户的需求。从专业的图形设计师到普通用户,无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑,稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合,帮助用户轻松实现创意设计。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号