#中文分词
MiNLP - 迈向智能文本解析的先进中文自然语言处理平台
MiNLP自然语言处理中文分词开源结构化解析Github开源项目
小米自然语言处理平台(MiNLP)涵盖词法、句法和语义分析模块,已在公司业务中广泛应用。MiNLP-Tokenizer中文分词工具自2020年11月开源以来不断优化。2021年计划开源词性标注和命名实体识别工具,并逐步开源句法和语义分析工具,致力于打造功能领先的NLP平台。duckling-fork-chinese专注于中文结构化解析,广泛应用于小爱生产环境,尤其在数字和时间解析方面表现出色。
jieba-rs - 使用 Rust 实现的中文分词库
jieba-rsRust中文分词性能优化库Github开源项目
jieba-rs 是一个用 Rust 编写的中文分词库,提供快速和准确的分词功能。使用方法简单,通过添加到 Cargo.toml 即可使用。支持 TF-IDF 和 TextRank 关键字提取等功能,性能优异,比 cppjieba 快 33%。适用于多种开发环境,包括 NodeJS、PHP、Python 和 WebAssembly。
jcseg - 轻量级中文分词和关键字提取工具,支持多种语言
Jcseg中文分词mmseg算法关键字提取JettyGithub开源项目
Jcseg是一款基于mmseg算法的中文分词器,具备关键字、短语、句子提取及文章自动摘要功能,支持Lucene、Solr、Elasticsearch分词接口。其内置Jetty高性能Web服务器,提供多种分词模式、自定义词库、同义词匹配和拼音追加,适合多种语言客户端调用。
ansj_seg - 精准高效的中文分词工具
Ansj中文分词自然语言处理CRFHMMGithub开源项目
Ansj中文分词是一个基于n-Gram、CRF和HMM的Java实现,具有每秒约200万字的高效分词能力,准确率超过96%。其功能包括中文分词、姓名识别、自定义词典、关键字提取、自动摘要和关键词标记,适用于对分词效果要求高的自然语言处理项目。
elasticsearch-analysis-ansj - Elasticsearch的高性能中文分词插件
Elasticsearch中文分词插件ansj配置Github开源项目
elasticsearch-analysis-ansj是基于ansj分词算法的Elasticsearch中文分词插件。该插件提供多种分词器,支持自定义词典和配置,具备姓名识别、数字识别等功能。插件安装简便,配置灵活,可实现精准中文分词,有效提升Elasticsearch的搜索性能。
Cemotion - 高效中文情感分析和分词工具库
Cemotion中文NLP情感分析中文分词BERTGithub开源项目
Cemotion是一个Python中文NLP库,主要用于情感分析和通用领域分词。该库采用BERT模型训练,可为中文文本提供情感倾向置信度。新增的Cegementor类使用BAStructBERT模型进行语义分词。Cemotion支持批量处理和多平台部署,可自动调用GPU加速。2.0版本在性能和准确度方面有所提升。
zhparser - 基于SCWS的PostgreSQL中文全文搜索扩展
ZhparserPostgreSQL中文分词全文检索SCWSGithub开源项目
zhparser是一个基于SCWS的PostgreSQL中文全文搜索扩展,支持自定义词典和灵活配置分词行为。该扩展能有效解析中文文本,适用于PostgreSQL 9.2及以上版本的数据库。它提供多种安装方式,包括Docker快速部署,并支持复杂查询功能。zhparser为开发者提供了详细的使用说明和配置选项,方便实现高效的中文全文搜索功能。
ik-analyzer - Maven化中文分词器 支持Lucene 5至9版本
IK-Analyzer中文分词MavenLucene开源项目Github
ik-analyzer是一个Maven化的中文分词器项目,专为中文分词优化词典。该项目支持Lucene 5至9全系列版本,已发布至Maven Central方便集成。除Java实现外,还提供Rust版本,为开发者提供更多选择。
相关文章