分词器
这个仓库包含了用于 OpenAI LLMs 的字节对编码 (BPE) 分词器的 Typescript 和 C# 实现,它基于 OpenAI tiktoken 中开源的 rust 实现。这两种实现都可以在将提示输入 LLM 之前在 Nodejs 和 .NET 环境中运行提示分词。
Typescript 实现
请参阅 README。
C# 实现
[!重要]
Microsoft.DeepDev.TokenizerLib
的用户应迁移到Microsoft.ML.Tokenizers
。Microsoft.DeepDev.TokenizerLib
中的功能已被添加到Microsoft.ML.Tokenizers
中。Microsoft.ML.Tokenizers
是由 .NET 团队开发的分词库,未来将成为 .NET 中分词器开发的核心。通过使用Microsoft.ML.Tokenizers
,你应该能看到比现有分词库实现(包括Microsoft.DeepDev.TokenizerLib
)更好的性能。Microsoft.ML.Tokenizers
的稳定版本预计将在 .NET 9.0 发布时发布(2024 年 11 月)。迁移的说明可以在 https://github.com/dotnet/machinelearning/blob/main/docs/code/microsoft-ml-tokenizers-migration-guide.md 中找到。
贡献
我们欢迎贡献。请参阅 此指南。
商标
这个项目可能包含项目、产品或服务的商标或标志。授权使用 Microsoft 商标或标志时须遵循 Microsoft 的商标和品牌指南。在修改版本中使用 Microsoft 商标或标志不得引起混淆或暗示 Microsoft 赞助。任何第三方商标或标志的使用均须遵守第三方的政策。