TransformerLens
TransformerLens是一个开源库,专门用于解释生成式语言模型的内部机制。它支持加载50多种开源语言模型,让研究人员能够访问模型的内部激活。用户可以缓存激活数据,并在模型运行时进行编辑、删除或替换。这个工具为深入理解复杂语言模型的工作原理提供了有力支持。