hardware-aware-transformers

项目介绍: HAT (Hardware Aware Transformers)

项目概述

HAT（Hardware-Aware Transformers）是一个创新的项目，旨在为自然语言处理任务提供高效的硬件适应型Transformer模型。该项目通过对超级Transformer网络（SuperTransformer）进行专门的搜索，以硬件延迟反馈为指导，为每种硬件找到最快的模型（SubTransformer）。这样的搜索成本比传统方法降低了10000倍以上。HAT模型在无需牺牲性能的基础上，实现了高达3倍的速度提升和3.7倍的模型尺寸缩减。

项目优势

快速高效：HAT模型显著提高了训练和推理的速度，同时大幅减少了模型大小。
硬件适应性强：针对不同的硬件架构进行特别优化，通过最小化的搜索机制，实现最佳性能。
丰富的资源支持：提供了基于PyTorch的代码和50个预训练模型，方便研究人员和开发者快速上手。
新闻报道：HAT项目被多家知名媒体报道，如VentureBeat和MIT News，以表彰其对提升AI技术效率和减少碳足迹的贡献。

安装与使用

安装步骤

您可以通过以下步骤从源代码安装来进行本地开发：

git clone https://github.com/mit-han-lab/hardware-aware-transformers.git
cd hardware-aware-transformers
pip install --editable .

数据准备

对于不同的任务，HAT提供了数据集的下载和预处理脚本。可以选择自行预处理数据，也可以下载预处理好的数据以节省时间。

测试模型

HAT提供针对机器翻译任务的预训练模型，方便用户进行评估。通过运行相应的脚本，可以测试模型的BLEU分数、计算延迟以及衡量模型的大小和计算量（FLOPs）。

训练步骤

训练超级Transformer：这是一个包含多个共享权重的子Transformer的超级网络。默认情况下，WMT任务会使用8个GPU进行训练，IWSLT任务则使用单个GPU。
进化搜索：在训练好的超级Transformer中进行进化搜索，这个过程会凭借硬件的延迟约束进行。通过训练延迟预测器，可以快速获得准确的延迟反馈。
训练搜索得出的子Transformer：最后，对搜索得到的特定子结构Transformer进行从头到尾的全面训练。