#分词器

Rust-tokenizers: 高性能自然语言处理分词器库

3 个月前

rust-tokenizers 语言模型分词器性能优化自然语言处理 Github 开源项目

3 个月前

Vaporetto: 革新性的超高速日语分词工具

3 个月前

Vaporetto 分词器 Rust 模型训练标签预测 Github 开源项目

3 个月前

Zero-Shot Tokenizer Transfer: 革新自然语言处理的新方法

3 个月前

Zero-Shot Tokenizer Transfer 语言模型分词器超网络模型迁移 Github 开源项目

3 个月前

BytePiece: 更纯粹、更高压缩率的Tokenizer

3 个月前

BytePiece 分词器 Unigram 压缩率 Python Github 开源项目

3 个月前

相关项目

bytepiece

BytePiece是一款基于字节的Unigram分词工具，采用创新训练算法实现高压缩率。该工具直接处理UTF-8字节，无需预处理，确保语言无关性。相比SentencePiece，BytePiece具有更高效的随机分词算法，支持多进程训练加速，并采用纯Python实现，便于二次开发。这一工具为自然语言处理提供了纯粹、易扩展的分词方案。

zett

ZeTT是一个创新的开源项目，旨在解决语言模型与分词器之间的兼容性问题。该项目通过零样本分词器迁移技术，使任何语言模型能够与任意分词器协同工作，几乎不需要额外训练。ZeTT提供多个预训练超网络，支持26种语言和代码处理。用户可以轻松将现有模型适配新的分词器，提升模型的通用性。此外，ZeTT还支持训练自定义超网络和迁移微调模型等高级功能，为自然语言处理研究提供新的可能性。

tiktoken

tiktoken是一款为OpenAI模型优化的BPE分词器。该工具提供快速的文本编码和解码功能，支持多种编码方式，易于集成到Python项目中。相较于其他开源分词器，tiktoken的性能提升了3-6倍。除了标准功能外，tiktoken还包含教育性子模块，有助于理解BPE算法原理。此外，该工具支持自定义扩展，可满足特定应用需求。

vaporetto

Vaporetto是一款基于点预测的日语分词工具,具有高速和轻量级的特点。它提供Rust API和命令行界面,支持使用预训练模型、转换KyTea模型或自定义训练。Vaporetto的分词速度比KyTea快8.7倍,性能卓越。此外,它还具备词性和发音标注功能,并允许通过词典编辑优化分词结果。作为一个高效可靠的解决方案,Vaporetto适用于各种日语自然语言处理任务。

rust-tokenizers

rust-tokenizers是一个为现代自然语言处理模型设计的分词器库。该项目支持WordPiece、BPE和Unigram等分词算法，适用于BERT、GPT、RoBERTa等Transformer架构。库提供单线程和多线程处理，并具有Python接口，可用于各类NLP项目的文本预处理。

koelectra-base-v3-discriminator

koelectra-base-v3-discriminator是第三代韩语ELECTRA预训练语言模型判别器，采用base规模参数配置。模型内置韩语文本处理功能，通过tokenizer实现文本标记化和ID转换，主要应用于文本分类、伪造内容检测等自然语言处理任务。项目采用Apache 2.0许可证开源发布。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com