bucketMul算法的示例实现 - 你可以在这里阅读相关内容。
使用它,你可以在LLM模型推理过程中实时、平滑地调整执行的计算量。
在50%的计算量下,它在Apple Silicon芯片上的性能与常规矩阵乘法相当;在25%的计算量下,速度提高一倍,同时仍保留大部分质量。
你还可以选择跳过加载最不重要的权重。
入门
二进制文件
你可以通过下载预编译的二进制文件快速开始: Effort Engine v0.0.1
要绕过macOS的Gatekeeper,首次打开下载的应用程序时请按住option
键单击。
初始设置
首次运行时,系统会提示你下载运行所需的转换后的权重。之后,将执行矩阵乘法基准测试,以展示引擎的功能。
源代码
源代码使用Swift和Metal编写。
下载并打开effort.xcodeproj。它应该可以直接运行。
其他资源
更新
还有很多需要修复的地方,欢迎合作!:)