PyNLPl - Python自然语言处理库
.. image:: https://travis-ci.org/proycon/pynlpl.svg?branch=master :target: https://travis-ci.org/proycon/pynlpl
.. image:: http://readthedocs.org/projects/pynlpl/badge/?version=latest :target: http://pynlpl.readthedocs.io/en/latest/?badge=latest :alt: 文档状态
.. image:: http://applejack.science.ru.nl/lamabadge.php/pynlpl :target: http://applejack.science.ru.nl/languagemachines/
.. image:: https://zenodo.org/badge/759484.svg :target: https://zenodo.org/badge/latestdoi/759484
PyNLPl,读作“pineapple(菠萝)”,是一个用于自然语言处理的Python库。它包含了许多对于常见和不太常见的NLP任务有用的模块。PyNLPl可用于基本任务,如提取n-gram和频率列表,以及构建简单的语言模型。此外,还有更复杂的数据类型和算法。此外,还有用于NLP中常见文件格式(例如FoLiA/Giza/Moses/ARPA/Timbl/CQL)的解析器。还有与各种特定NLP服务器接口的客户端。PyNLPl尤其具有一个非常广泛的FoLiA XML(语言注释格式)操作库。
该库分为几个包和模块。它可以在Python 2.7以及Python 3上运行。
以下模块可用:
pynlpl.datatypes
- 额外的数据类型(优先队列,模式,tries)pynlpl.evaluation
- 评估和实验类(参数搜索,包装渐进采样,类评估(精确度/召回率/F-分数/auc),采样器,混淆矩阵,多线程实验池)pynlpl.formats.cgn
- 用于解析CGN(Corpus Gesproken Nederlands)词性标签的模块pynlpl.formats.folia
- 用于读取和操作FoLiA <http://proycon.github.io/folia>
_格式(语言注释格式)文档的广泛库pynlpl.formats.fql
- FoLiA查询语言(FQL)的广泛库,构建在pynlpl.formats.folia
之上。FQL的当前文档在这里 <https://github.com/proycon/foliadocserve>
__pynlpl.formats.cql
- 用于语料库查询语言(CQL)的解析器,也被Corpus Workbench和Sketch Engine使用。包含一个到FQL的转换器。pynlpl.formats.giza
- 用于读取GIZA++词对齐数据的模块pynlpl.formats.moses
- 用于读取Moses短语翻译表的模块pynlpl.formats.sonar
- 主要已废弃的模块,用于预发布的SoNaR语料库,使用pynlpl.formats.folia
代替pynlpl.formats.timbl
- 用于读取Timbl输出的模块(不过建议使用python-timbl <https://github.com/proycon/python-timbl>
_)pynlpl.lm.lm
- 用于简单语言模型和ARPA语言模型数据读取器(SRILM使用)pynlpl.search
- 各种搜索算法(广度优先搜索,深度优先搜索,束搜索,爬山法,A星算法,各种变体)pynlpl.statistics
- 频率列表,Levenshtein距离,常见统计和信息论函数pynlpl.textprocessors
- 简单的分词器,n-gram提取
安装
从Python Package Index直接下载并安装最新稳定版本,使用pip install pynlpl
(或对于大多数系统的Python 3使用pip3
)。对于全局安装,请添加sudo
。
或者,克隆此仓库并运行python setup.py install
(或对于大多数系统的Python 3使用python3 setup.py install
。对于全局安装,请添加sudo
)。
此软件也可以在某些Linux发行版中找到,例如最新版本的Debian/Ubuntu,作为python-pynlpl
和python3-pynlpl
。
PyNLPl也包含在我们的LaMachine <http://proycon.github.io/LaMachine>
_发行版中。
文档
API文档可以在这里 <http://pynlpl.readthedocs.io/en/latest/>
__找到。