Project Icon

TransformerPrograms

Transformer模型转Python程序的新型解释方法

TransformerPrograms项目提出了一种新方法,可将Transformer模型转换为易读的Python程序。该项目提供了训练和转换工具,并包含多个示例程序,涵盖从排序到命名实体识别等任务。这为解释Transformer模型提供了新视角,有助于研究者探索模型内部机制,推进AI可解释性研究。

学习Transformer程序

本仓库包含了我们论文《学习Transformer程序》的代码。该代码可用于训练经过修改的Transformer来解决任务,然后将其转换为人类可读的Python程序。仓库还包含了一些我们为论文中描述的任务学习到的示例程序。更多详细信息请参阅我们的论文。

快速链接

设置

安装PyTorch,然后安装其余依赖:pip install -r requirements.txt。 本代码使用Python 3.8和PyTorch 1.13.1版本进行测试。

在我们的自然语言处理任务实验中,我们使用300维的预训练GloVe词嵌入来初始化词嵌入,可以在这里下载(Common Crawl,区分大小写):

mkdir data
wget https://huggingface.co/stanfordnlp/glove/resolve/main/glove.840B.300d.zip -P data/
unzip data/glove.840B.300d.zip

学习程序

训练

学习Transformer程序的代码可以在src/run.py中找到。 例如,以下命令将为sort任务训练一个Transformer程序,使用两层,每层四个分类注意力头,以及独热输入嵌入:

python src/run.py \
     --dataset "sort" \
     --vocab_size 8 \
     --dataset_size 10000 \
     --min_length 1 \
     --max_length 8 \
     --n_epochs 250 \
     --batch_size 512 \
     --lr "5e-2" \
     --n_layers 2 \
     --n_heads_cat 4 \
     --n_heads_num 0 \
     --n_cat_mlps 1 \
     --n_num_mlps 0 \
     --one_hot_embed \
     --count_only \
     --seed 0 \
     --save \
     --save_code \
     --output_dir "output/sort";

这个命令将为CoNLL 2003命名实体识别任务训练一个Transformer程序,学习由四个32维分类变量组成的输入嵌入:

python src/run.py \
     --dataset "conll_ner" \
     --vocab_size 10000 \
     --min_length 1 \
     --max_length 32 \
     --n_epochs 50 \
     --batch_size 32 \
     --lr "5e-2" \
     --n_vars_cat 4 \
     --d_var 32 \
     --n_layers 2 \
     --n_heads_cat 4 \
     --n_heads_num 0 \
     --n_cat_mlps 1 \
     --n_num_mlps 0 \
     --mlp_vars_in 2 \
     --count_only \
     --seed 0 \
     --replace_numbers 1 \
     --glove_embeddings "data/glove.840B.300d.txt" \
     --do_glove 1 \
     --save \
     --save_code \
     --output_dir "output/conll";

请查看src/run.py了解所有可能的参数。 训练数据将被生成(对于RASP任务)或从Hugging Face Datasets下载;支持的数据集请参见src/utils/data_utils.pyscripts目录包含了使用论文中实验设置训练Transformer程序和标准Transformer的脚本。

转换为代码

在训练脚本中使用--save_code标志,以在训练结束时将模型转换为Python程序。 要转换已经训练好的模型,请使用src/decompile.py。 例如,

python src/decompile.py --path output/sort/ --output_dir programs/sort/

output/sort/应该是训练运行的输出目录。

示例程序

programs目录包含了所有RASP任务的小规模版本以及命名实体识别的示例程序。 每个程序定义了一个名为run的函数,该函数接受一个标记序列作为输入,并返回预测标签列表。 例如:

>>> from programs.rasp.sort import sort
>>> sort.run(["<s>", "3", "1", "4", "2", "4", "0", "</s>"])
['<s>', '0', '1', '2', '3', '4', '4', '</s>']

programs/rasp包含了每个任务表现最佳的程序,同时使用分类和数值注意力头。 programs/rasp_categorical_only包含了仅使用分类变量的表现最佳程序。 programs/conll_ner包含了一个命名实体识别程序。

问题?

如果您对代码或论文有任何问题,请发邮件给Dan(dfriedman@cs.princeton.edu)或开一个issue。

引用

@inproceedings{
    friedman2023learning,
    title={Learning Transformer Programs},
    author={Dan Friedman and Alexander Wettig and Danqi Chen},
    booktitle={Thirty-seventh Conference on Neural Information Processing Systems},
    year={2023},
    url={https://openreview.net/forum?id=Pe9WxkN8Ff}
}
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能,包括文生视频、动态画面和形象生成等,帮助用户快速上手,创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台,用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品,帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型,为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能,满足事务性工作的高频需求,帮助撰稿人节省精力,提高效率,优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号