#FastText
embeddings - 高效加载和查询预训练词向量的Python库
词嵌入自然语言处理机器学习GloVeFastTextGithub开源项目
Embeddings是一个面向自然语言处理和机器学习的轻量级Python库,专注于高效处理预训练词向量。该库采用数据库后端技术,实现了快速加载和查询嵌入向量的功能,无需加载大型文件。Embeddings支持GloVe、FastText和字符级嵌入等多种嵌入类型,并提供了组合使用的能力。此外,项目还提供预装常用嵌入向量的Docker镜像,有助于简化部署和使用流程。
pos-french - 法语POET增强型词性标注器基于ANTILLES语料库
GithubFastText模型开源项目词性标注Bi-LSTM-CRFHuggingfaceANTILLESPOET
项目POET使用了ANTILLES语料库,结合FastText和Bi-LSTM-CRF标注模型,为法语文本提供涵盖性别、数量及时态等信息的60种词性标签。通过Flair实现的准确标注工具。
fineweb-edu-fasttext-classifier - 高效快速的FastText分类器用于网页教育价值评估
HuggingFaceFW教育价值Huggingface分类器Github开源项目模型FastText模型评估
该项目引入了一种基于FastText的分类器,旨在评估网页的教育价值。通过使用fineweb-edu-llama3-annotations数据集进行训练,该模型支持高速数据处理,在CPU上每秒可分类超过2000个样本。该分类器与基于transformer的模型进行了性能比较,尤其在标签0、1、2上的表现相近,但在较高标签上性能稍有下降。适合用于需要快速判断网页教育内容的场景,是处理大数据的有效工具。