#Tokenization

Tokenizer - 跨平台BPE编码实现

TokenizerOpenAITypescriptC#TokenizationGithub开源项目

该项目提供了TypeScript和C#版的字节对编码(BPE)tokenizer，主要用于OpenAI LLMs，并基于开源的Rust实现。适用于Node.js和.NET环境，在传递提示词给LLM前进行tokenization处理。建议C#用户从Microsoft.DeepDev.TokenizerLib迁移至性能更优的Microsoft.ML.Tokenizers。欢迎开发者贡献代码和意见。

llama2_xs_460M_experimental - 了解LLaMA与LLaMa 2的小型实验版本及其精简模型参数

大模型GithubMMLU开源项目LLaMa 2开源HuggingfaceTokenization模型

项目呈现Meta AI的LLaMA与LLaMa 2开源重现版本，并采用缩小的模型参数：llama1_s为1.8B，llama2_xs为460M。训练基于RedPajama数据集，使用GPT2Tokenizer分词，支持通过HuggingFace Transformers库直接加载以及文本生成。模型在MMLU任务中表现评估，其中llama2_xs_460M在0-shot和5-shot中分别得21.13和26.39的分数。

相关文章

Article Cover

Tokenizer: 高效的文本分词利器

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号