#fastText
fastText - 高效词向量学习和文本分类库
Github开源项目自然语言处理机器学习文本分类词向量fastText
fastText是Facebook开发的开源自然语言处理库,专注于高效词向量学习和文本分类。它支持157种语言,利用子词信息丰富词向量表示,并采用多种技巧提升分类性能。该库易用且训练速度快,适合大规模文本处理。fastText还提供模型量化功能,可大幅压缩模型体积,便于部署。
floret - 将fastText和Bloom嵌入结合的紧凑词向量生成工具
Github开源项目文本分类词向量子词嵌入fastTextfloret
floret是fastText的扩展版本,结合fastText的子词技术和Bloom嵌入,为任意词生成紧凑的全覆盖向量。通过将词和子词哈希存储在同一表中,大幅减少存储空间。支持训练词嵌入和文本分类模型,提供Python接口,生成的向量可轻松导入spaCy等NLP库。作为一个高效的文本处理工具,floret在保持fastText优点的同时,提供了更紧凑的词向量表示方法。
fasttext-en-vectors - 多语言词向量学习和文本分类开源库
Github开源项目自然语言处理机器学习模型Huggingface文本分类词向量fastText
fastText是一个开源轻量级库,专注于词向量学习和文本分类。它支持157种语言,可在普通硬件上快速训练,并提供预训练模型。fastText适用于文本分类、语言识别等任务,从实验到生产均可使用。该库简单易用,能在短时间内处理海量文本,是自然语言处理领域的高效工具。
fasttext-zh-vectors - fastText库:支持中文文本分类与词向量学习
Github开源项目模型Huggingface文本分类词向量训练数据语言识别fastText
fastText是开源且易于使用的库,可在标准硬件上快速进行文本表示学习和分类。此库支持157种语言,并包含预训练模型,适用于文本分类与语言识别,且能在多核CPU上快速训练、并适合移动设备应用。