SAE镜头
SAE镜头旨在帮助研究人员:
- 训练稀疏自编码器。
- 分析稀疏自编码器/研究机械可解释性。
- 产生见解,使创建安全和对齐的人工智能系统变得更容易。
请参阅文档以获取有关如何执行以下操作的信息:
- 下载和分析预训练的稀疏自编码器。
- 训练您自己的稀疏自编码器。
- 使用SAE-Vis库生成特征仪表板。
SAE镜头是许多贡献者共同努力的结果,旨在提高人类对神经网络的理解,其中许多人都希望保护人类免受人工智能带来的风险。
该库由Joseph Bloom和David Chanin维护。
加载预训练的SAE
可以通过SAE镜头导入各种模型的预训练SAE。请参阅自述文件中的此页面以获取所有SAE的列表。
教程
加入Slack!
欢迎加入开源机械可解释性Slack获得支持!
引用
请按以下方式引用该包:
@misc{bloom2024saetrainingcodebase,
title = {SAELens},
author = {Joseph Bloom, David Chanin},
year = {2024},
howpublished = {\url{https://github.com/jbloomAus/SAELens}}
}