#tokenizer
llama-tokenizer-js 学习资料汇总 - 浏览器端LLaMA模型JavaScript分词器
2 个月前
llama-tokenizer-js:为LLaMA模型打造的高效JavaScript tokenizer
3 个月前
相关项目
llama-tokenizer-js
Llama-tokenizer-js 是一款JavaScript客户端分词器,适用于LLaMA 1和LLaMA 2模型,并支持TypeScript。该工具无依赖、易于使用,专为客户端准确计算token数量设计。利用优化的BPE算法实现高效运行时间和小巧包大小。支持浏览器和Node环境,并提供便捷的demo和详细使用说明。
jtokkit
JTokkit是一个专为OpenAI模型设计的Java分词库,提供便捷的API,支持多种编码和解码算法如r50k_base和cl100k_base。该库无依赖,兼容Java 8及以上版本,并具备高效性能。用户可以通过Maven或Gradle轻松安装,并支持自定义编码算法。使用JTokkit,开发者能够轻松进行自然语言处理任务中的文本分词和令牌计算。
tiktoken-rs
tiktoken-rs是一个Rust实现的文本分词库,特别为OpenAI的GPT和其他相关模型设计,具备分词和计数的功能。支持多种OpenAI编码格式如GPT-3和GPT-4,用户可以通过Cargo轻松安装并使用,并在开源库中找到完整的示例。适用于需要高效、准确文本处理的开发者。
Mistral-7B-v0.2
本文介绍了Mistral-7B-v0.2模型的下载和转换过程,指导用户通过特定脚本和工具完成模型配置,以便在Huggingface平台上进行部署。同时,还提供了从相关库复制tokenizer模型的步骤,确保功能的完善性。