#解释性

ecco - 使用交互式可视化工具理解自然语言处理模型
开源项目Ecco自然语言处理解释性Transformer模型可视化Github
Ecco是一个Python库,通过交互式可视化工具解释基于Transformer的自然语言处理模型。它专注于探索预训练模型,功能包括特征归因、神经元激活捕获及可视化、Token处理过程等。支持GPT2、BERT、RoBERTA等多种模型,帮助理解Transformer模型的内部机制和决策过程。
tracr - 开源编译器实现RASP程序到Transformer权重的转换
TracrRASPtransformer编译器解释性Github开源项目
tracr是一个开源编译工具,可将RASP程序转换为Transformer权重。它通过追踪程序、推断基向量和中间表示,最终生成Haiku模型。tracr支持类别和数值表示,使用BOS标记实现多种操作,并探索了残差流压缩嵌入。研究人员可以利用tracr编译RASP程序,查看中间激活值,深入分析模型行为,为Transformer可解释性研究提供实验平台。
awesome-machine-learning-interpretability - 负责任机器学习资源综合指南
机器学习解释性人工智能责任AI模型治理Github开源项目
此项目整理了全面的负责任机器学习资源,包括社区和官方指导、教育资源、技术工具等。涵盖解释性、公平性、隐私保护等主题的框架、数据集、书籍、课程。为负责任AI的研究和开发提供宝贵参考。项目保持更新,鼓励社区贡献,致力于推动机器学习的负责任发展。