Basic-UI-for-GPT-J-6B-with-low-vram
一个用于在低显存系统上运行GPT-J-6B的仓库,通过同时使用内存、显存和固定内存来实现。
驱动链接中的权重似乎存在一些问题。性能有所下降,很可能是由于糟糕的16位转换导致的。
运行方法:
使用命令 - pip install git+https://github.com/finetuneanon/transformers@gpt-neo-localattention3 使用链接 - https://drive.google.com/file/d/1tboTvohQifN6f1JiSV8hnciyNKvj9pvm/view?usp=sharing 下载已按此说明保存的模型 - https://github.com/arrmansa/saving-and-loading-large-models-pytorch
计时(2000个token上下文)
1
系统 -
16GB DDR4内存。1070 8GB显卡。 内存块23块(ram_blocks = 23),其中18块为共享/固定内存(max_shared_ram_blocks = 18)。
计时 -
单次模型运行(输入)耗时6.5秒。 生成25个token需时35秒,在2000个上下文中。 (1.4秒/token)
2
系统 -
16GB DDR4内存。1060 6GB显卡。 内存块26块(ram_blocks = 26),其中18块为共享/固定内存(max_shared_ram_blocks = 18)。
计时 -
生成25个token需时40秒,在2000个上下文中。 (1.6秒/token)