项目介绍:tiktoken-rs
tiktoken-rs
是一个使用 Rust 编写的库,专门用于与 OpenAI 模型合作进行文本分词。这个库提供了一系列现成的分词工具,能够处理 GPT、tiktoken 以及其他相关的 OpenAI 模型。它的主要功能包括对文本输入进行分词和统计文章的词元数量。
这个库建立在 tiktoken
基础库之上,并在此基础上添加了一些额外功能和改进,使得在使用 Rust 代码时更为便捷。
使用例子
tiktoken-rs
库提供了丰富的使用例子,用户可以在 项目的例子目录 中找到所有支持功能的完整示例。
如何使用
要在本地安装这个工具,只需使用 cargo
命令:
cargo add tiktoken-rs
安装完成后,可以在 Rust 代码中调用其 API。例如:进行词元长度统计:
use tiktoken_rs::o200k_base;
let bpe = o200k_base().unwrap();
let tokens = bpe.encode_with_special_tokens("This is a sentence with spaces");
println!("Token count: {}", tokens.len());
或者计算聊天完成请求的最大词元参数:
use tiktoken_rs::{get_chat_completion_max_tokens, ChatCompletionRequestMessage};
let messages = vec![
ChatCompletionRequestMessage {
content: Some("You are a helpful assistant that only speaks French.".to_string()),
role: "system".to_string(),
name: None,
function_call: None,
},
ChatCompletionRequestMessage {
content: Some("Hello, how are you?".to_string()),
role: "user".to_string(),
name: None,
function_call: None,
},
ChatCompletionRequestMessage {
content: Some("Parlez-vous francais?".to_string()),
role: "system".to_string(),
name: None,
function_call: None,
},
];
let max_tokens = get_chat_completion_max_tokens("o1-mini", &messages).unwrap();
println!("max_tokens: {}", max_tokens);
如果使用 async-openai
功能,可以在Cargo.toml
中启用相应特性:
use tiktoken_rs::async_openai::get_chat_completion_max_tokens;
use async_openai::types::{ChatCompletionRequestMessage, Role};
let messages = vec![
ChatCompletionRequestMessage {
content: Some("You are a helpful assistant that only speaks French.".to_string()),
role: Role::System,
name: None,
function_call: None,
},
ChatCompletionRequestMessage {
content: Some("Hello, how are you?".to_string()),
role: Role::User,
name: None,
function_call: None,
},
ChatCompletionRequestMessage {
content: Some("Parlez-vous francais?".to_string()),
role: Role::System,
name: None,
function_call: None,
},
];
let max_tokens = get_chat_completion_max_tokens("o1-mini", &messages).unwrap();
println!("max_tokens: {}", max_tokens);
tiktoken
支持 OpenAI 模型使用的各种编码格式:
o200k_base
:适用于 GPT-4o 模型,o1 模型cl100k_base
:用于 ChatGPT 模型和text-embedding-ada-002
p50k_base
:用于代码模型,text-davinci-002
、text-davinci-003
p50k_edit
:用于编辑模型,如text-davinci-edit-001
、code-davinci-edit-001
r50k_base
(或gpt2
):用于 GPT-3 模型,如davinci
有关不同分词器更多的背景知识,可以参见 OpenAI 的相关指南。
遇到问题?
如果在使用过程中遇到任何问题或者有任何改进建议,欢迎在项目的代码库上提交 Issue。
致谢
特别感谢 @spolu 提供的原始代码和 .tiktoken
文件。
许可
该项目基于 MIT 许可。