#tokenizer

llama-tokenizer-js 学习资料汇总 - 浏览器端LLaMA模型JavaScript分词器

2024年09月10日
Cover of llama-tokenizer-js 学习资料汇总 - 浏览器端LLaMA模型JavaScript分词器

tiktoken-rs: Rust语言下的OpenAI模型高效分词库

2024年08月31日
Cover of tiktoken-rs: Rust语言下的OpenAI模型高效分词库

JTokkit: 高效Java分词库助力OpenAI模型开发

2024年08月31日
Cover of JTokkit: 高效Java分词库助力OpenAI模型开发

llama-tokenizer-js:为LLaMA模型打造的高效JavaScript tokenizer

2024年08月31日
Cover of llama-tokenizer-js:为LLaMA模型打造的高效JavaScript tokenizer
相关项目
Project Cover

llama-tokenizer-js

Llama-tokenizer-js 是一款JavaScript客户端分词器,适用于LLaMA 1和LLaMA 2模型,并支持TypeScript。该工具无依赖、易于使用,专为客户端准确计算token数量设计。利用优化的BPE算法实现高效运行时间和小巧包大小。支持浏览器和Node环境,并提供便捷的demo和详细使用说明。

Project Cover

jtokkit

JTokkit是一个专为OpenAI模型设计的Java分词库,提供便捷的API,支持多种编码和解码算法如r50k_base和cl100k_base。该库无依赖,兼容Java 8及以上版本,并具备高效性能。用户可以通过Maven或Gradle轻松安装,并支持自定义编码算法。使用JTokkit,开发者能够轻松进行自然语言处理任务中的文本分词和令牌计算。

Project Cover

tiktoken-rs

tiktoken-rs是一个Rust实现的文本分词库,特别为OpenAI的GPT和其他相关模型设计,具备分词和计数的功能。支持多种OpenAI编码格式如GPT-3和GPT-4,用户可以通过Cargo轻松安装并使用,并在开源库中找到完整的示例。适用于需要高效、准确文本处理的开发者。

Project Cover

dummy-unknown

dummy-unknown是一个用于单元测试和持续集成(CI)的简化RoBERTa模型项目。它提供了小型配置的RoBERTa模型,支持PyTorch和TensorFlow实现,并包含简单的分词器、词汇表和合并规则。这个轻量级模型为开发者创建了高效的测试环境,有助于加快模型开发和验证流程。项目的设计简洁明了,适合快速部署和测试,是NLP开发中的实用工具。

Project Cover

Mistral-7B-v0.2

本文介绍了Mistral-7B-v0.2模型的下载和转换过程,指导用户通过特定脚本和工具完成模型配置,以便在Huggingface平台上进行部署。同时,还提供了从相关库复制tokenizer模型的步骤,确保功能的完善性。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号