GPT3 Tokenizer
这是一个用于OpenAI GPT-3模型的同构TypeScript分词器,支持gpt3
和codex
分词。它应在NodeJS和浏览器环境中均能工作。
使用方法
首先,安装:
yarn add gpt3-tokenizer
在代码中使用:
import GPT3Tokenizer from 'gpt3-tokenizer';
const tokenizer = new GPT3Tokenizer({ type: 'gpt3' }); // 或 'codex'
const str = "hello 👋 world 🌍";
const encoded: { bpe: number[]; text: string[] } = tokenizer.encode(str);
const decoded = tokenizer.decode(encoded.bpe);
参考资料
该库基于以下内容:
这个库与gpt-3-encoder的主要不同之处在于,前者支持gpt3
和codex
分词(词典直接取自OpenAI,因此分词结果与OpenAI Playground一致)。此外,使用了Map API替代JavaScript对象,特别是bpeRanks
对象,这样应能带来一定的性能提升。