#稀疏自编码器
transformer-debugger - 深入洞察小型语言模型行为的自动化调试工具
Transformer Debugger自动可解释性稀疏自编码器语言模型神经元查看器Github开源项目
Transformer Debugger是一款由OpenAI超级对齐团队开发的工具,专门用于分析小型语言模型的特定行为。该工具结合了自动化解释技术和稀疏自编码器,无需编写代码即可快速探索模型行为。它能识别影响特定行为的关键组件,自动生成解释,并追踪组件间的连接,从而揭示神经元回路。通过支持对前向传播的干预和观察,Transformer Debugger为研究人员提供了深入分析语言模型内部机制的强大功能。
SAELens - 训练和分析稀疏自编码器的开源工具
SAE Lens稀疏自编码器机械可解释性神经网络人工智能安全Github开源项目
SAELens是一个开源工具库,专注于稀疏自编码器的训练和分析。它为研究人员提供预训练模型加载、自定义训练和可视化分析功能,支持深入探索神经网络内部机制。该项目由多位贡献者维护,旨在促进机械解释性研究和人工智能安全发展。