项目介绍:llama-tokenizer-js
llama-tokenizer-js 是一个专为 LLaMA 模型设计的 JavaScript 分词器,适用于 LLaMA 1 和 LLaMA 2,并可在浏览器及 Node.js 环境中运行,现也支持 TypeScript。其主要用途是在客户端准确计算令牌数。
功能特色
- 简单易用:llama-tokenizer-js 没有任何依赖,其代码和数据封装在一个单独的文件中。
- 广泛的兼容性:适配大多数 LLaMA 模型。
- 优化的性能:采用高效的 BPE(字节对编码)实现,运行时间得到优化。
- 紧凑的文件体积:在压缩和 gzip 处理前,大小为 670KiB,通过二进制格式和 base64 编码实现数据压缩。
如何导入
推荐的导入方式是通过 npm 安装并以 ES6 模块导入:
npm install llama-tokenizer-js
import llamaTokenizer from 'llama-tokenizer-js';
console.log(llamaTokenizer.encode("Hello world!").length);
替代方法包括通过 <script>
标签加载或在 CommonJS 项目中异步导入。
使用说明
一旦模块被导入,可以使用它进行编码或解码操作。不支持训练。在浏览器中使用时,llama-tokenizer-js 会污染全局命名空间。
编码示例:
llamaTokenizer.encode("Hello world!");
// 输出为: [1, 15043, 3186, 29991]
解码示例:
llamaTokenizer.decode([1, 15043, 3186, 29991]);
// 输出为: 'Hello world!'
需要注意的是,编码时默认会添加特定的“句首”令牌和空格,解码时也期望如此,这会影响令牌的计数。
测试
可以通过以下命令运行测试:
llamaTokenizer.runTests();
测试套件虽小,但能很好地覆盖不同的边界情况。在浏览器和 Node 环境中均可运行测试。
与其他方案的比较
llama-tokenizer-js 是第一个可以在浏览器客户端运行的 LLaMA JavaScript 分词器。相比其他不兼容的分词器(如 OpenAI 的),它无需依赖网络请求来计算令牌数,从而避免了延迟问题。
兼容性说明
分词器使用 SentencePiece Byte-Pair Encoding,与大多数基于 Facebook 提供的 LLaMA 检查点(模型权重)训练的模型兼容。对于从零训练的 LLaMA 模型(如 OpenLLaMA)不兼容。
项目的维护者
这个分词器由 belladore.ai 开发,得到了 xenova、blaze2004、imoneoi 和 ConProgramming 的贡献。
以上就是 llama-tokenizer-js 的全面介绍,该项目为在客户端进行高效的 LLaMA 令牌计数提供了简便的解决方案。