项目简介:Tokenizer
Tokenizer 项目是一个开源的项目,提供了字节对编码(Byte Pair Encoding, BPE)分词器的实现,用于支持 OpenAI 大语言模型(LLMs)。该项目基于开源的 Rust 实现,名为 OpenAI tiktoken,并提供了 TypeScript 和 C# 的实现版本。这些实现尤其适合在 Node.js 和 .NET 环境中进行提示词(prompt)分词,然后再将处理好的提示词输入到大语言模型中。
TypeScript 实现
项目中有对 TypeScript 版本实现的具体介绍。使用者可以在对应的 README 文件中获取更加详细的使用说明和指南,从而有效地在 Node.js 环境中运行分词器。
C# 实现
对于 C# 的实现,项目中特别提醒使用者,从 Microsoft.DeepDev.TokenizerLib
迁移到 Microsoft.ML.Tokenizers
。这是因为 C# 的分词器功能已经整合进 Microsoft.ML.Tokenizers
。这是 .NET 团队正在开发的一个分词库,未来将在.NET 9.0 发布时一同推出稳定版本。使用 Microsoft.ML.Tokenizers
将提升现有分词库的性能表现。项目中提供了迁移指南,帮助开发者顺利过渡到新的库。
贡献指南
Tokenizer 项目欢迎所有热心贡献的开发者参与其中。开发者们可以通过项目中提供的贡献指南来了解如何有效地为项目做出贡献。
商标声明
该项目可能包含 Microsoft 或其他第三方的商标或标识。对于 Microsoft 商标或标识的使用,必须遵循 Microsoft 的商标和品牌指南。同样,对于第三方的商标或标识的使用,用户需遵循相关方的政策规定。未经授权的修改版本不得引起误解或暗示 Microsoft 的赞助。
通过 Tokenizer 项目,开发者能够以更加便捷的方式在各自的开发环境中实现对大语言模型输入提示词的分词,并取得优异的性能。除操作说明外,该项目还充分考虑了参与者的贡献和使用相关商标的合规性。