#分词

ltp - 中文自然语言处理平台,多任务和高效推理支持
LTP中文自然语言处理分词深度学习模型预训练模型Github开源项目
LTP(Language Technology Platform)提供中文分词、词性标注、句法分析和命名实体识别等自然语言处理功能。通过多任务框架和共享预训练模型进行优化,显著提升性能。LTP支持快速的感知机算法推理和高精度的深度学习分析,并在Huggingface Hub上提供预训练模型下载。最新版LTP v4.2.0优化了结构,并支持用户自定义模型训练和上传,提高了灵活性和实用性。
Synonyms - 中文近义词自然语言处理工具包
Synonyms中文近义词自然语言处理相似度计算分词Github开源项目
Synonyms是一个开源的中文近义词工具包,用于自然语言处理任务。它支持文本对齐、相似度计算、语义偏移和关键词提取等功能。该工具包基于大规模词向量模型,覆盖43万余词汇,适用于聊天机器人、问答系统、推荐系统等场景。Synonyms提供词语和句子相似度计算API,可用于多种NLP应用。
tokenizer - Go语言实现的自然语言处理分词库
TokenizerGo语言NLP预训练模型分词Github开源项目
Tokenizer是一个纯Go语言实现的自然语言处理分词库,支持Word level、Wordpiece和BPE等多种分词模型。该项目可用于训练新模型或微调现有模型,并兼容HuggingFace预训练模型。Tokenizer为Go开发者提供了构建NLP应用所需的工具,助力高效生产级软件开发。
pyhanlp - HanLP1.x的Python接口,功能全面的中文NLP工具包
pyhanlpHanLP自然语言处理分词依存句法分析Github开源项目
pyhanlp是HanLP1.x的Python接口,支持中文分词、词性标注、命名实体识别、依存句法分析等多种NLP任务。项目提供自动下载升级功能,算法经工业界和学术界验证。配套《自然语言处理入门》书籍,支持命令行和API调用,适合NLP研究和工程应用。
wink-nlp-utils - 轻量级自然语言处理工具集 简化文本预处理和分析
NLP文本处理分词句子边界检测停用词Github开源项目
wink-nlp-utils是一个轻量级自然语言处理工具集,提供36多个实用函数。支持姓名提取、语料库生成、句子分割、分词和停用词移除等功能。适用于语义搜索和文本分类等任务的预处理,为开发人员提供简洁API。该项目是wink开源家族的一员,专注于文本预处理和分析,在npm上可用,具有完整的文档和测试覆盖率。支持Node.js环境。
sentencepiece - 无监督神经网络文本分词与去分词工具
SentencePiece分词子词单元自然语言处理机器翻译Github开源项目
SentencePiece是一种用于神经网络文本生成系统的无监督分词工具。它支持多种子词算法,如BPE和unigram语言模型,可直接从原始文本训练。这个工具具有语言无关性,实现了子词正则化,运行速度快,占用资源少。SentencePiece能直接生成词汇ID序列,执行NFKC标准化,是一个完全端到端的系统,无需依赖特定语言的预处理或后处理。
subword-nmt - 神经机器翻译子词分割预处理工具
分词机器翻译BPE神经网络自然语言处理Github开源项目
subword-nmt是一个文本子词分割预处理工具,主要应用于神经机器翻译领域。它实现了字节对编码(BPE)等算法,具备多语言联合学习、词汇过滤和BPE dropout等功能。该工具支持pip安装,提供命令行接口,适用于各类NMT任务,可有效处理罕见词。
kagome - 纯Go实现的开源日语形态素分析工具 支持多种词典和分词模式
Kagome日语形态素分析器Go语言分词开源Github开源项目
Kagome是一个用Go语言开发的开源日语形态素分析工具。它支持将MeCab-IPADIC和UniDic等多种词典嵌入二进制文件,并提供普通、搜索和扩展三种分词模式。Kagome可通过命令行、服务器或WebAssembly方式使用,具有性能高、易于集成和跨平台等特点,适用于各种日语文本处理任务。
ParsiAnalyzer - 针对Elasticsearch的波斯语文本分析插件
ParsiAnalyzerElasticsearch分词文本规范化波斯语分析Github开源项目
ParsiAnalyzer是一个为Elasticsearch开发的波斯语分析插件。该插件提供文本分词、标准化和词干提取等功能,专门处理波斯语的独特特征。它能将空格转换为零宽连接符,标准化波斯语标点和数字,移除变音符号,并去除常见停用词。ParsiAnalyzer易于集成,可提高Elasticsearch中波斯语文本的搜索和分析质量。
pinyin - 多功能汉字拼音转换工具 支持多音字识别和智能分词
汉字拼音拼音转换多音字分词Node.jsGithub开源项目
pinyin是一个开源的汉字拼音转换工具,支持多音字识别和智能分词。它提供多种拼音输出风格,可用于汉字注音、排序和检索。该工具适用于Node.js和Web环境,具有可定制性强的特点。用户可以选择不同的分词方式和拼音模式,以适应各种应用场景。pinyin还包含命令行接口,方便快速使用。
dictabert-seg - 现代希伯来语前缀分割模型
DictaBERT语言模型模型希伯来语Github分词Huggingface开源项目自然语言处理
DictaBERT-seg是一个专门用于现代希伯来语前缀分割任务的微调模型。作为DictaBERT项目的一部分,它能够准确地进行词素分割,为希伯来语自然语言处理研究提供了重要工具。该模型附有简单的使用示例代码,方便研究者快速上手。DictaBERT-seg适用于多种下游任务,为希伯来语NLP领域的发展做出了重要贡献。
sat-3l-sm - 基于Transformer的多语言句子分割模型
模型Github开源项目Huggingface分词Transformer自然语言处理多语言wtpsplit
sat-3l-sm是一个基于3层Transformer架构的句子分割模型,支持80种语言的文本分段。作为wtpsplit库的核心组件,该模型采用MIT许可证开源。sat-3l-sm源于'Segment any Text'研究,为自然语言处理提供准确的句子边界检测功能。
chunk-english-fast - Flair框架驱动的高效英语短语切分模型
语言模型Huggingface模型Github开源项目序列标注自然语言处理Flair分词
chunk-english-fast是一款基于Flair框架的英语短语切分模型。该模型在CoNLL-2000数据集上实现了96.22%的F1分数,能够精确识别句子中的名词短语、动词短语等10种不同结构。模型采用Flair嵌入和LSTM-CRF架构,通过简洁的Python接口即可轻松实现短语切分,为各类自然语言处理任务提供有力支持。
bert-base-japanese-v2 - 日语BERT预训练模型:全词屏蔽和Unidic分词
模型维基百科BERTGithub分词全词掩码Huggingface开源项目日语预训练模型
bert-base-japanese-v2是基于日语维基百科预训练的BERT模型,采用unidic-lite词典和全词屏蔽策略。模型架构包含12层、768维隐藏状态和12个注意力头。它结合MeCab和WordPiece算法进行分词,词表大小为32768。模型在512个token实例上进行了100万步训练,耗时约5天。该模型适用于多种日语自然语言处理任务,为研究人员和开发者提供了强大的日语语言理解工具。
base1 - 基于LTP实现的高效中文自然语言处理任务
分词LTP深度学习模型Huggingface开源项目模型感知机算法Github自然语言处理
LTP是一款中文自然语言处理工具,支持分词、词性标注和命名实体识别等任务。在Huggingface Hub上提供快速访问,并支持深度学习和感知机算法模型。用户可根据需求选择合适的模型,以满足不同应用场景的效率和精度要求。新的Pipeline API提升了推理速度和易用性,为研究和开发人员提供了多样化的应用支持。