Logo

#中文分词

IK Analyzer: 强大的中文分词工具

2 个月前
Cover of IK Analyzer: 强大的中文分词工具

Elasticsearch Analysis Ansj插件:强大的中文分词解决方案

2 个月前
Cover of Elasticsearch Analysis Ansj插件:强大的中文分词解决方案

Cemotion: 基于BERT的中文自然语言处理库

2 个月前
Cover of Cemotion: 基于BERT的中文自然语言处理库

相关项目

Project Cover
MiNLP
小米自然语言处理平台(MiNLP)涵盖词法、句法和语义分析模块,已在公司业务中广泛应用。MiNLP-Tokenizer中文分词工具自2020年11月开源以来不断优化。2021年计划开源词性标注和命名实体识别工具,并逐步开源句法和语义分析工具,致力于打造功能领先的NLP平台。duckling-fork-chinese专注于中文结构化解析,广泛应用于小爱生产环境,尤其在数字和时间解析方面表现出色。
Project Cover
jieba-rs
jieba-rs 是一个用 Rust 编写的中文分词库,提供快速和准确的分词功能。使用方法简单,通过添加到 Cargo.toml 即可使用。支持 TF-IDF 和 TextRank 关键字提取等功能,性能优异,比 cppjieba 快 33%。适用于多种开发环境,包括 NodeJS、PHP、Python 和 WebAssembly。
Project Cover
jcseg
Jcseg是一款基于mmseg算法的中文分词器,具备关键字、短语、句子提取及文章自动摘要功能,支持Lucene、Solr、Elasticsearch分词接口。其内置Jetty高性能Web服务器,提供多种分词模式、自定义词库、同义词匹配和拼音追加,适合多种语言客户端调用。
Project Cover
ansj_seg
Ansj中文分词是一个基于n-Gram、CRF和HMM的Java实现,具有每秒约200万字的高效分词能力,准确率超过96%。其功能包括中文分词、姓名识别、自定义词典、关键字提取、自动摘要和关键词标记,适用于对分词效果要求高的自然语言处理项目。
Project Cover
elasticsearch-analysis-ansj
elasticsearch-analysis-ansj是基于ansj分词算法的Elasticsearch中文分词插件。该插件提供多种分词器,支持自定义词典和配置,具备姓名识别、数字识别等功能。插件安装简便,配置灵活,可实现精准中文分词,有效提升Elasticsearch的搜索性能。
Project Cover
Cemotion
Cemotion是一个Python中文NLP库,主要用于情感分析和通用领域分词。该库采用BERT模型训练,可为中文文本提供情感倾向置信度。新增的Cegementor类使用BAStructBERT模型进行语义分词。Cemotion支持批量处理和多平台部署,可自动调用GPU加速。2.0版本在性能和准确度方面有所提升。
Project Cover
zhparser
zhparser是一个基于SCWS的PostgreSQL中文全文搜索扩展,支持自定义词典和灵活配置分词行为。该扩展能有效解析中文文本,适用于PostgreSQL 9.2及以上版本的数据库。它提供多种安装方式,包括Docker快速部署,并支持复杂查询功能。zhparser为开发者提供了详细的使用说明和配置选项,方便实现高效的中文全文搜索功能。
Project Cover
ik-analyzer
ik-analyzer是一个Maven化的中文分词器项目,专为中文分词优化词典。该项目支持Lucene 5至9全系列版本,已发布至Maven Central方便集成。除Java实现外,还提供Rust版本,为开发者提供更多选择。
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号