#词向量

Hungarian NLP资源大全:构建匈牙利语自然语言处理的完整生态系统

3 个月前

NLP 匈牙利语语料库词向量形态分析 Github 开源项目

3 个月前

Floret: 结合fastText和Bloom嵌入的紧凑全覆盖向量

3 个月前

fastText floret 词向量文本分类子词嵌入 Github 开源项目

3 个月前

中文词向量:自然语言处理的基石

3 个月前

Chinese Word Vectors 词向量语义关系中文语料库 Github 开源项目

3 个月前

fastText: 高效的文本表示和分类库

3 个月前

fastText 词向量文本分类机器学习自然语言处理 Github 开源项目

3 个月前

语言模型中文认知能力分析：探索词汇覆盖率与阅读理解的关系

3 个月前

语言模型中文认知 BERT ERNIE 词向量 Github 开源项目

3 个月前

相关项目

vocab-coverage

该项目分析了多种语言模型的中文识字率与词向量分布情况，通过字符集分类和词向量空间分布的研究，了解模型在处理中文字符时的认知能力。涵盖了BERT、ERNIE、roBERTa等模型的对比，以及不同字符集的识字判定，为后续的模型评估和改进提供了参考。

nlp_chinese_corpus

该中文自然语言处理项目提供丰富的高质量语料，包括维基百科条目、新闻、百科问答等，目标是解决中文大规模语料匮乏的问题。项目支持10大任务和9个模型的基准测试，并提供一键运行和详细性能比较，旨在提升中文NLP标准。适用于多种实际应用场景，如词向量训练、关键词生成和标题生成，方便研究人员和从业者获取和利用中文语料。

fastText

fastText是Facebook开发的开源自然语言处理库,专注于高效词向量学习和文本分类。它支持157种语言,利用子词信息丰富词向量表示,并采用多种技巧提升分类性能。该库易用且训练速度快,适合大规模文本处理。fastText还提供模型量化功能,可大幅压缩模型体积,便于部署。

Chinese-Word-Vectors

该项目集成了多种中文词向量模型，涵盖稠密和稀疏表示方法，以及词、n-gram、字符等上下文特征。同时提供中文类比推理数据集CA8和评估工具包，便于模型质量评估。这些预训练资源可应用于多种自然语言处理任务，为相关研究和开发工作提供了有力支持。

floret

floret是fastText的扩展版本,结合fastText的子词技术和Bloom嵌入,为任意词生成紧凑的全覆盖向量。通过将词和子词哈希存储在同一表中,大幅减少存储空间。支持训练词嵌入和文本分类模型,提供Python接口,生成的向量可轻松导入spaCy等NLP库。作为一个高效的文本处理工具,floret在保持fastText优点的同时,提供了更紧凑的词向量表示方法。

awesome-hungarian-nlp

该项目整理了丰富的匈牙利自然语言处理资源,包括开源工具、语言模型和数据集。涵盖分词、形态分析、词性标注等多项NLP任务,并收录预训练词嵌入和Transformer模型。此外还包含语料库、语言学资源等。内容全面,适合研究人员和开发者参考使用。

German_Semantic_V3

German Semantic V3 是一款德语语义句子嵌入模型，具备灵活性和丰富的文化知识。采用 Matryoshka Embeddings 和 GBert-Large 基础，支持长文本的嵌入，并展现出对小错误的鲁棒性。更新的知识库和优化的德语特性提升了处理效率，令其在应对德语语境和文化语义需求时表现出色。

fasttext-en-vectors

fastText是一个开源轻量级库，专注于词向量学习和文本分类。它支持157种语言，可在普通硬件上快速训练，并提供预训练模型。fastText适用于文本分类、语言识别等任务，从实验到生产均可使用。该库简单易用，能在短时间内处理海量文本，是自然语言处理领域的高效工具。

fasttext-zh-vectors

fastText是开源且易于使用的库，可在标准硬件上快速进行文本表示学习和分类。此库支持157种语言，并包含预训练模型，适用于文本分类与语言识别，且能在多核CPU上快速训练、并适合移动设备应用。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com