项目介绍:Basic-UI-for-GPT-J-6B-with-low-vram
项目背景
Basic-UI-for-GPT-J-6B-with-low-vram 是一个项目,旨在帮助用户在低显存的系统上运行 GPT-J-6B 模型。这个项目通过综合利用系统的 RAM、VRAM 以及固定内存来实现这一目标。该模型虽然功能强大,但也有高内存需求的问题,这给普通用户的使用造成了困难。通过这个项目,更多普通配置的电脑也能运行这一模型,进一步拓展了大模型的应用范围。
当前的问题
项目在实现过程中,发现了一些权重存储方面的问题,尤其是在 Google Drive 链接中的权重文件。可能是由于 16 位精度转换不佳,导致了一定的性能损失。用户在使用时需要留意这一点,可能需要等到问题得到全面解决后,性能才会完全恢复。
如何运行
要运行 GPT-J-6B,这里提供了一些步骤:
-
通过以下命令安装相关库:
pip install git+https://github.com/finetuneanon/transformers@gpt-neo-localattention3
-
下载模型: 用户可以通过指定的链接下载模型,该模型按照某种特定方式保存,以便在低配置电脑上运行。
性能测试
测试环境 1
-
系统配置:
- 16 GB DDR4 内存
- NVIDIA 1070 8GB 显卡
- 23 个内存块,其中 18 个为共享/固定内存块
-
运行时间:
- 单次模型运行耗时约 6.5 秒
- 在 2000 token 上下文情况下,生成 25 个 token 需要 35 秒,每 token 平均耗时约为 1.4 秒
测试环境 2
-
系统配置:
- 16 GB DDR4 内存
- NVIDIA 1060 6GB 显卡
- 26 个内存块,其中 18 个为共享/固定内存块
-
运行时间:
- 在 2000 token 上下文情况下,生成 25 个 token 需要 40 秒,每 token 平均耗时约为 1.6 秒
小结
Basic-UI-for-GPT-J-6B-with-low-vram 项目为那些高内存需求的大语言模型的普及打开了新的大门。虽然目前在某些方面仍有优化空间,如精度和性能方面的损失,但是通过合理的内存管理策略,这个项目已然能够在很多低配置的电脑上实现模型的顺利运行。适合于对模型性能和内存消耗有较高要求的应用场景。