"是时候让我加入了。" - 池田花菜

kanachan

一个支持雀魂（CN、JP、EN）标准游戏中采用的四人日本立直麻将变体规则的麻将AI。

公告

[2023/05/06] 对代码库进行了重大添加和更改

简要指南

本仓库提供了雀魂游戏记录的标注工具，以及训练某些类型麻将AI模型的程序。但本仓库不提供任何雀魂游戏记录的爬虫、训练数据或已训练的模型。因此，用户需要自行准备训练数据和计算资源。

用户使用本仓库的第一步是收集雀魂的游戏记录。游戏记录的格式必须与点击"https://game.mahjongsoul.com/?paipu=YYMMDD-XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX"格式的URL时，从雀魂API服务器返回的WebSocket响应消息相同。可以通过使用mitmproxy或Wireshark等网络嗅探工具、浏览器扩展或其他工具捕获与雀魂API服务器交换的WebSocket消息来获取此格式的数据。再次强调，本仓库不包含此类工具。因此，请在GitHub等代码托管服务上寻找，或自行实现。

收集游戏记录后，下一步是使用annotate将游戏记录转换为适合学习的注释格式。

最后，通过以注释为输入运行kanachan Python模块下的训练程序，可以获得训练好的模型。

项目目标

本项目的目标是创建一个四人日本立直麻将变体规则的麻将AI，能够击败现有的顶级麻将AI（包括NAGA和Suphx）甚至顶级职业选手。

这是我个人的项目，与当今一些由公司运营的顶级麻将AI项目形成对比。本项目还旨在向世界展示，个人项目也能构建顶级麻将AI。

目前，日本将棋AI已被认为远远超过顶级人类专业选手的水平。我认为，日本将棋领域出现这种情况的推动力是个人项目中各种将棋AI之间的激烈竞争。我希望本项目能成为在麻将AI领域引发类似情况的先驱。

本项目的主要特点

来自雀魂的超大数据集

本项目假设使用从雀魂爬取的牌谱数据集。这将成为一个极其庞大的数据集，在数量和生成速度上都与现有代表性数据集（即天凤的凤凰卓数据）有数量级的差异。

让我给你一些具体数字。从天凤的凤凰卓可以获得2009年到2019年11年间产生的1700万局牌谱。另一方面，我从2020年7月开始爬取雀魂的牌谱，截至2021年8月底，金间或更高级别房间的四人麻将牌谱数量已达到约6500万局。这个数字到2021年底肯定会超过1亿局。

数据量的巨大差异将允许我们使用比现有麻将AI大几个数量级和/或表达能力更强的模型。例如，虽然NAGA和Suphx使用天凤数据集训练了ResNet，但本项目旨在利用海量数据来训练基于更具表达能力框架（如transformer）的大规模模型。

无人工特征

本项目中模型的输入（即特征）几乎没有基于人类麻将经验和直觉的处理。所有牌都表示为简单的标记，这些标记是对应嵌入的索引。表示一筒的标记与数字"1"没有直接关联，也不表示它是筒子牌之一。表示手牌中一筒的标记与表示河中一筒的标记没有直接关系。没有直接表示宝牌指示牌和宝牌关系的特征。没有表示某种牌对玩家可见数量的特征。虽然在雀魂标准规则中共有90种吃的组合，但每种吃只由90个完全独立的标记之一表示...等等。

游戏中某一时刻的情况表示非常简单。与游戏进行顺序无关的游戏情况方面，如场风、局数、宝牌、手牌等，表示为上述标记的集合。每个玩家的打牌和副露按照发生顺序表示为上述标记的序列。点数、立直棒数等具有数值意义的特征则用数字本身表示。

更具体地说，请参见"行为克隆的训练数据格式"。

一些读者可能会严重怀疑这种特征设计是否真的能进行适当的学习。不用担心。即使在学习的非常早期阶段，使用上述特征设计训练的模型的行为已经表明它已经掌握了麻将的基本概念。它似乎已经掌握了包括宝牌、赤牌、箭牌、圈风牌、门风牌、断幺九、为断幺九、三色同顺、一气通贯、混全带幺九和对对和等役而鸣牌、混一色和清一色的价值、形式听牌、弃和、现物（立直后打出的牌对该立直绝对安全的概念）、筋（例如，如果立直后打出5s，则2s和8s对该立直相对安全的概念）、流局满贯等概念。

然而，不言而喻，这种端到端的特征设计需要大型数据集和具有高表达能力的模型才能正常运作。在机器学习中，是利用人类智慧设计适当的特征，还是准备大型数据集和具有高表达能力的模型并将其留给大规模计算资源，这是一个基本的权衡。本项目选择后者，因为深度学习成功的本质在于摆脱特征工程，而且我从2000年代初就开始从事机器学习，并在那些日子里为特征工程而挣扎。

逐步课程微调

麻将AI有各种目标，包括模仿人类行为、最大化单局分数差、提高最终排名以及最大化段位分差。这些目标按顺序变得越来越抽象和全面，因此越往后学习就越困难。

本项目的理念是逐步学习从动作选择到这些目标的映射，从最简单到最难。这相当于课程学习。此外，当学习了一个目标的映射后，开始学习更难的目标时，前一步训练的模型的编码器部分会在后一个映射的训练中被重用，只有模型的解码器部分会被替换以适应新的更难目标。前一步学到的信息存储在编码器部分，并转移到后一步。通过这种方式，目的是在编码器部分保留独立于目标的普遍麻将知识。在本项目中，这一理念被称为课程微调。