⏳ tiktoken
tiktoken 是一个快速的 BPE 分词器,用于 OpenAI 的模型。
import tiktoken
enc = tiktoken.get_encoding("o200k_base")
assert enc.decode(enc.encode("hello world")) == "hello world"
# 获取与 OpenAI API 中特定模型对应的分词器:
enc = tiktoken.encoding_for_model("gpt-4o")
可以从 PyPI 安装 tiktoken
的开源版本:
pip install tiktoken
分词器 API 文档在 tiktoken/core.py
中。
使用 tiktoken
的示例代码可以在 OpenAI Cookbook 中找到。
性能
tiktoken
比同类的开源分词器快 3-6 倍:
性能测试使用 1GB 文本和 GPT-2 分词器进行,使用了 tokenizers==0.13.2
、transformers==4.24.0
和 tiktoken==0.2.0
中的 GPT2TokenizerFast
。
获取帮助
请在 问题追踪器 中发布问题。
如果你在 OpenAI 工作,请确保查看内部文档或随时联系 @shantanu。
BPE 到底是什么?
语言模型看到的文本不像你我看到的那样,它们看到的是一系列数字(称为标记)。字节对编码(BPE)是将文本转换为标记的一种方法。它有几个理想的特性:
- 可逆且无损,因此可以将标记转换回原始文本
- 适用于任意文本,即使是不在分词器训练数据中的文本
- 压缩文本:标记序列比原始文本对应的字节短。实际上,平均每个标记对应约 4 个字节。
- 尝试让模型看到常见的子词。例如,"ing" 在英语中是常见的子词,所以 BPE 编码通常会将 "encoding" 分割成像 "encod" 和 "ing" 这样的标记(而不是例如 "enc" 和 "oding")。因为模型会在不同的上下文中反复看到 "ing" 标记,这有助于模型泛化并更好地理解语法。
tiktoken
包含一个教育性的子模块,如果你想了解更多关于 BPE 的细节,它会更友好,包括帮助可视化 BPE 过程的代码:
from tiktoken._educational import *
# 在少量文本上训练 BPE 分词器
enc = train_simple_encoding()
# 可视化 GPT-4 编码器如何编码文本
enc = SimpleBytePairEncoding.from_tiktoken("cl100k_base")
enc.encode("hello world aaaaaaaaaaaa")
扩展 tiktoken
你可能希望扩展 tiktoken
以支持新的编码。有两种方法可以做到这一点。
创建你想要的 Encoding
对象,然后简单地传递它。
cl100k_base = tiktoken.get_encoding("cl100k_base")
# 在生产环境中,直接加载参数而不是访问私有属性
# 在 openai_public.py 中可以找到特定编码的参数示例
enc = tiktoken.Encoding(
# 如果你要更改特殊标记集,请确保使用不同的名称
# 名称应该清楚地表明预期的行为。
name="cl100k_im",
pat_str=cl100k_base._pat_str,
mergeable_ranks=cl100k_base._mergeable_ranks,
special_tokens={
**cl100k_base._special_tokens,
"<|im_start|>": 100264,
"<|im_end|>": 100265,
}
)
使用 tiktoken_ext
插件机制将你的 Encoding
对象注册到 tiktoken
。
只有当你需要 tiktoken.get_encoding
找到你的编码时,这才有用,否则请选择方法 1。
要做到这一点,你需要在 tiktoken_ext
下创建一个命名空间包。
按照以下方式布局你的项目,确保省略 tiktoken_ext/__init__.py
文件:
my_tiktoken_extension
├── tiktoken_ext
│ └── my_encodings.py
└── setup.py
my_encodings.py
应该是一个包含名为 ENCODING_CONSTRUCTORS
变量的模块。这是一个字典,从编码名称映射到一个不接受参数并返回可以传递给 tiktoken.Encoding
的参数的函数,用于构造该编码。例子可以参见 tiktoken_ext/openai_public.py
。详细信息请参见 tiktoken/registry.py
。
你的 setup.py
应该类似这样:
from setuptools import setup, find_namespace_packages
setup(
name="my_tiktoken_extension",
packages=find_namespace_packages(include=['tiktoken_ext*']),
install_requires=["tiktoken"],
...
)
然后只需 pip install ./my_tiktoken_extension
,你就应该能够使用你的自定义编码了!确保不要使用可编辑安装。