#中文分词

MiNLP - 迈向智能文本解析的先进中文自然语言处理平台

MiNLP自然语言处理中文分词开源结构化解析Github开源项目

小米自然语言处理平台（MiNLP）涵盖词法、句法和语义分析模块，已在公司业务中广泛应用。MiNLP-Tokenizer中文分词工具自2020年11月开源以来不断优化。2021年计划开源词性标注和命名实体识别工具，并逐步开源句法和语义分析工具，致力于打造功能领先的NLP平台。duckling-fork-chinese专注于中文结构化解析，广泛应用于小爱生产环境，尤其在数字和时间解析方面表现出色。

jieba-rs - 使用 Rust 实现的中文分词库

jieba-rsRust中文分词性能优化库Github开源项目

jieba-rs 是一个用 Rust 编写的中文分词库，提供快速和准确的分词功能。使用方法简单，通过添加到 Cargo.toml 即可使用。支持 TF-IDF 和 TextRank 关键字提取等功能，性能优异，比 cppjieba 快 33%。适用于多种开发环境，包括 NodeJS、PHP、Python 和 WebAssembly。

jcseg - 轻量级中文分词和关键字提取工具，支持多种语言

Jcseg中文分词mmseg算法关键字提取JettyGithub开源项目

Jcseg是一款基于mmseg算法的中文分词器，具备关键字、短语、句子提取及文章自动摘要功能，支持Lucene、Solr、Elasticsearch分词接口。其内置Jetty高性能Web服务器，提供多种分词模式、自定义词库、同义词匹配和拼音追加，适合多种语言客户端调用。

ansj_seg - 精准高效的中文分词工具

Ansj中文分词自然语言处理CRFHMMGithub开源项目

Ansj中文分词是一个基于n-Gram、CRF和HMM的Java实现，具有每秒约200万字的高效分词能力，准确率超过96%。其功能包括中文分词、姓名识别、自定义词典、关键字提取、自动摘要和关键词标记，适用于对分词效果要求高的自然语言处理项目。

elasticsearch-analysis-ansj - Elasticsearch的高性能中文分词插件

Elasticsearch中文分词插件ansj配置Github开源项目

elasticsearch-analysis-ansj是基于ansj分词算法的Elasticsearch中文分词插件。该插件提供多种分词器，支持自定义词典和配置，具备姓名识别、数字识别等功能。插件安装简便，配置灵活，可实现精准中文分词，有效提升Elasticsearch的搜索性能。

Cemotion - 高效中文情感分析和分词工具库

Cemotion中文NLP情感分析中文分词BERTGithub开源项目

Cemotion是一个Python中文NLP库，主要用于情感分析和通用领域分词。该库采用BERT模型训练，可为中文文本提供情感倾向置信度。新增的Cegementor类使用BAStructBERT模型进行语义分词。Cemotion支持批量处理和多平台部署，可自动调用GPU加速。2.0版本在性能和准确度方面有所提升。

zhparser - 基于SCWS的PostgreSQL中文全文搜索扩展

ZhparserPostgreSQL中文分词全文检索SCWSGithub开源项目

zhparser是一个基于SCWS的PostgreSQL中文全文搜索扩展，支持自定义词典和灵活配置分词行为。该扩展能有效解析中文文本，适用于PostgreSQL 9.2及以上版本的数据库。它提供多种安装方式，包括Docker快速部署，并支持复杂查询功能。zhparser为开发者提供了详细的使用说明和配置选项，方便实现高效的中文全文搜索功能。

ik-analyzer - Maven化中文分词器支持Lucene 5至9版本

IK-Analyzer中文分词MavenLucene开源项目Github

ik-analyzer是一个Maven化的中文分词器项目，专为中文分词优化词典。该项目支持Lucene 5至9全系列版本，已发布至Maven Central方便集成。除Java实现外，还提供Rust版本，为开发者提供更多选择。

相关文章

Article Cover

Elasticsearch Analysis Ansj插件：强大的中文分词解决方案

Article Cover

Cemotion: 基于BERT的中文自然语言处理库

Article Cover

IK Analyzer: 强大的中文分词工具

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号