tiktoken-rs - OpenAI模型专用的Rust分词和计数库

项目介绍：tiktoken-rs

tiktoken-rs 是一个使用 Rust 编写的库，专门用于与 OpenAI 模型合作进行文本分词。这个库提供了一系列现成的分词工具，能够处理 GPT、tiktoken 以及其他相关的 OpenAI 模型。它的主要功能包括对文本输入进行分词和统计文章的词元数量。

这个库建立在 tiktoken 基础库之上，并在此基础上添加了一些额外功能和改进，使得在使用 Rust 代码时更为便捷。

使用例子

tiktoken-rs 库提供了丰富的使用例子，用户可以在项目的例子目录中找到所有支持功能的完整示例。

如何使用

要在本地安装这个工具，只需使用 cargo 命令：

cargo add tiktoken-rs

安装完成后，可以在 Rust 代码中调用其 API。例如：进行词元长度统计：

use tiktoken_rs::o200k_base;

let bpe = o200k_base().unwrap();
let tokens = bpe.encode_with_special_tokens("This is a sentence   with spaces");
println!("Token count: {}", tokens.len());

或者计算聊天完成请求的最大词元参数：

use tiktoken_rs::{get_chat_completion_max_tokens, ChatCompletionRequestMessage};

let messages = vec![
    ChatCompletionRequestMessage {
        content: Some("You are a helpful assistant that only speaks French.".to_string()),
        role: "system".to_string(),
        name: None,
        function_call: None,
    },
    ChatCompletionRequestMessage {
        content: Some("Hello, how are you?".to_string()),
        role: "user".to_string(),
        name: None,
        function_call: None,
    },
    ChatCompletionRequestMessage {
        content: Some("Parlez-vous francais?".to_string()),
        role: "system".to_string(),
        name: None,
        function_call: None,
    },
];
let max_tokens = get_chat_completion_max_tokens("o1-mini", &messages).unwrap();
println!("max_tokens: {}", max_tokens);

如果使用 async-openai 功能，可以在Cargo.toml中启用相应特性：

use tiktoken_rs::async_openai::get_chat_completion_max_tokens;
use async_openai::types::{ChatCompletionRequestMessage, Role};

let messages = vec![
    ChatCompletionRequestMessage {
        content: Some("You are a helpful assistant that only speaks French.".to_string()),
        role: Role::System,
        name: None,
        function_call: None,
    },
    ChatCompletionRequestMessage {
        content: Some("Hello, how are you?".to_string()),
        role: Role::User,
        name: None,
        function_call: None,
    },
    ChatCompletionRequestMessage {
        content: Some("Parlez-vous francais?".to_string()),
        role: Role::System,
        name: None,
        function_call: None,
    },
];
let max_tokens = get_chat_completion_max_tokens("o1-mini", &messages).unwrap();
println!("max_tokens: {}", max_tokens);

tiktoken 支持 OpenAI 模型使用的各种编码格式：