#机械可解释性

TransformerLens - 深入解析生成式语言模型的机制解释工具

TransformerLens机械可解释性语言模型神经网络解析开源工具Github开源项目

TransformerLens是一个开源库，专门用于解释生成式语言模型的内部机制。它支持加载50多种开源语言模型，让研究人员能够访问模型的内部激活。用户可以缓存激活数据，并在模型运行时进行编辑、删除或替换。这个工具为深入理解复杂语言模型的工作原理提供了有力支持。

SAELens - 训练和分析稀疏自编码器的开源工具

SAE Lens稀疏自编码器机械可解释性神经网络人工智能安全Github开源项目

SAELens是一个开源工具库，专注于稀疏自编码器的训练和分析。它为研究人员提供预训练模型加载、自定义训练和可视化分析功能，支持深入探索神经网络内部机制。该项目由多位贡献者维护，旨在促进机械解释性研究和人工智能安全发展。

相关文章

Article Cover

TransformerLens: 揭开语言模型内部机制的强大工具

Article Cover

SAELens:用于语言模型的稀疏自编码器训练与分析工具

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号