#机械可解释性
TransformerLens - 深入解析生成式语言模型的机制解释工具
TransformerLens机械可解释性语言模型神经网络解析开源工具Github开源项目
TransformerLens是一个开源库,专门用于解释生成式语言模型的内部机制。它支持加载50多种开源语言模型,让研究人员能够访问模型的内部激活。用户可以缓存激活数据,并在模型运行时进行编辑、删除或替换。这个工具为深入理解复杂语言模型的工作原理提供了有力支持。
SAELens - 训练和分析稀疏自编码器的开源工具
SAE Lens稀疏自编码器机械可解释性神经网络人工智能安全Github开源项目
SAELens是一个开源工具库,专注于稀疏自编码器的训练和分析。它为研究人员提供预训练模型加载、自定义训练和可视化分析功能,支持深入探索神经网络内部机制。该项目由多位贡献者维护,旨在促进机械解释性研究和人工智能安全发展。