注释版变压器 深入注释的 PyTorch 变压器实现,适用于从零开始创建变压器系列: 注意力机制 变压器的其余部分 layers 文件夹包含双向注意力、因果注意力和因果交叉注意力的实现。 models 文件夹包含 GPT-2 和 BERT 的单文件实现。这两种模型都兼容 torch.compile(..., fullgraph=True)。