#机械可解释性

SAELens:用于语言模型的稀疏自编码器训练与分析工具

2 个月前

2 个月前

2 个月前

2 个月前

相关项目

TransformerLens

TransformerLens是一个开源库，专门用于解释生成式语言模型的内部机制。它支持加载50多种开源语言模型，让研究人员能够访问模型的内部激活。用户可以缓存激活数据，并在模型运行时进行编辑、删除或替换。这个工具为深入理解复杂语言模型的工作原理提供了有力支持。

SAELens

SAELens是一个开源工具库，专注于稀疏自编码器的训练和分析。它为研究人员提供预训练模型加载、自定义训练和可视化分析功能，支持深入探索神经网络内部机制。该项目由多位贡献者维护，旨在促进机械解释性研究和人工智能安全发展。

投诉举报邮箱: service@vectorlightyear.com