nlp-lang
##MAVEN
<dependencies>
<dependency>
<groupId>org.nlpcn</groupId>
<artifactId>nlp-lang</artifactId>
<version>1.7.6</version>
</dependency>
</dependencies>
这个项目是一个基础包,封装了大多数自然语言处理项目中常用的工具
工具
- √ 词语标准化
- √ 字典树结构
- √ 双数组字典树
- √ 文本断句
- √ HTML标签清理
- √ Viterbi算法增强
组件
- √ 汉字转拼音
- √ 简繁体转换
- √ 布隆过滤器
- √ 指纹去重
- √ SimHash文章相似度计算
- √ 词共现统计
- √ 基于内存的搜索提示
- √ WordWeight词频统计、词IDF统计、词类别相关度统计