jtokkit - 专为OpenAI模型设计的Java分词库，提供便捷的API，支持多种编码和解码算法

JTokkit 项目介绍

JTokkit 是一个专为 OpenAI 模型设计的 Java 分词库，它的诞生是为了在 JVM 生态系统中提供类似于 Python 的 tiktoken 库的功能。这个项目致力于在自然语言处理任务中快速、高效地处理文本分词。

主要功能

编码与解码支持：JTokkit 支持多种编码和解码方式，包括 r50k_base, p50k_base, p50k_edit, cl100k_base 和 o200k_base。
易于使用的 API：提供简单易用的接口，方便用户快速上手并集成到项目中。
可扩展性：支持自定义编码算法的扩展，满足不同场景的需求。
无外部依赖：JTokkit 不依赖于其他第三方库，使其更轻量化。
广泛兼容性：支持 Java 8 及以上版本。
高效性能：相比于同类分词器，JTokkit 的性能高出两到三倍。

性能表现

根据基准测试，JTokkit 的性能明显优于其他可比较的分词器。高效的编码和解码能力，确保处理速度更快，内存占用更少。

安装方法

要在项目中使用 JTokkit，可以通过以下方式引入依赖：

Maven

在你的 pom.xml 中添加以下依赖：

<dependency>
    <groupId>com.knuddels</groupId>
    <artifactId>jtokkit</artifactId>
    <version>1.1.0</version>
</dependency>

Gradle

在你的 build.gradle 文件中添加：

dependencies {
    implementation 'com.knuddels:jtokkit:1.1.0'
}

入门指南

使用 JTokkit 非常简单。用户可以通过创建一个新的 EncodingRegistry 实例，然后使用 getEncoding 方法来获取所需的编码。接着，便可以利用 encode 和 decode 方法进行文本的编码与解码操作：

EncodingRegistry registry = Encodings.newDefaultEncodingRegistry();
Encoding enc = registry.getEncoding(EncodingType.CL100K_BASE);
IntArrayList encoded = enc.encode("This is a sample sentence.");
// encoded = [2028, 374, 264, 6205, 11914, 13]
        
String decoded = enc.decode(encoded);
// decoded = "This is a sample sentence."

此外，用户还可以根据模型类型来获取相应的分词器。

扩展 JTokkit

用户可以通过实现 Encoding 接口并将其注册到 EncodingRegistry 来扩展 JTokkit 的功能。或者，更进一步地使用现有的 BPE 算法参数来增强其编码能力。这种灵活性使得 JTokkit 能够适应更多定制化需求，并能够被安全地在线程之间共享。

许可证

JTokkit 根据 MIT 许可证进行授权，具体信息请查阅相关许可文件。

JTokkit 是一个为 OpenAI 模型目标优化的 Java 分词库，其便捷的使用方式和强大的扩展能力，将为开发人员在自然语言处理领域提供极大的便利。