热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#子词单元
sentencepiece - 无监督神经网络文本分词与去分词工具
SentencePiece
分词
子词单元
自然语言处理
机器翻译
Github
开源项目
SentencePiece是一种用于神经网络文本生成系统的无监督分词工具。它支持多种子词算法,如BPE和unigram语言模型,可直接从原始文本训练。这个工具具有语言无关性,实现了子词正则化,运行速度快,占用资源少。SentencePiece能直接生成词汇ID序列,执行NFKC标准化,是一个完全端到端的系统,无需依赖特定语言的预处理或后处理。
1
1
相关文章
SentencePiece: 革新自然语言处理的无监督文本分词利器
3 个月前
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号