tracr
tracr是一个开源编译工具,可将RASP程序转换为Transformer权重。它通过追踪程序、推断基向量和中间表示,最终生成Haiku模型。tracr支持类别和数值表示,使用BOS标记实现多种操作,并探索了残差流压缩嵌入。研究人员可以利用tracr编译RASP程序,查看中间激活值,深入分析模型行为,为Transformer可解释性研究提供实验平台。