TextBlob:简化的文本处理
.. image:: https://badgen.net/pypi/v/TextBlob :target: https://pypi.org/project/textblob/ :alt: 最新版本
.. image:: https://github.com/sloria/TextBlob/actions/workflows/build-release.yml/badge.svg :target: https://github.com/sloria/TextBlob/actions/workflows/build-release.yml :alt: 构建状态
主页:https://textblob.readthedocs.io/ <https://textblob.readthedocs.io/>
_
TextBlob
是一个用于处理文本数据的Python库。它为常见的自然语言处理(NLP)任务提供了简单的API,如词性标注、名词短语提取、情感分析、分类等。
.. code-block:: python
from textblob import TextBlob
text = """
电影《异形》中的主要威胁一直让我觉得是终极电影怪物:一个永不满足的
饥饿、类似变形虫的物质,能够穿透几乎任何防护,正如一位注定要死的医生
令人毛骨悚然地描述的那样——"能够在接触时同化肉体"。
尽管有人嘲笑它像果冻,但这个概念具有最具破坏性的潜在后果,不亚于
技术理论家们所担忧的、人工智能失控的灰色粘液场景。
"""
blob = TextBlob(text)
blob.tags # [('The', 'DT'), ('titular', 'JJ'),
# ('threat', 'NN'), ('of', 'IN'), ...]
blob.noun_phrases # WordList(['titular threat', 'blob',
# 'ultimate movie monster',
# 'amoeba-like mass', ...])
for sentence in blob.sentences:
print(sentence.sentiment.polarity)
# 0.060
# -0.341
TextBlob 站在 NLTK
_ 和 pattern
_ 这两个巨人的肩膀上,并与它们和谐共处。
特性
- 名词短语提取
- 词性标注
- 情感分析
- 分类(朴素贝叶斯、决策树)
- 分词(将文本分割成单词和句子)
- 词语和短语频率
- 句法分析
n
元语法- 词形变化(复数化和单数化)和词形还原
- 拼写纠正
- 通过扩展添加新模型或语言
- WordNet 集成
立即获取
::
$ pip install -U textblob
$ python -m textblob.download_corpora
示例
更多示例请参见快速入门指南
_。
.. _快速入门指南
: https://textblob.readthedocs.io/en/latest/quickstart.html#quickstart
文档
完整文档可在 https://textblob.readthedocs.io/ 获取。
项目链接
- 文档:https://textblob.readthedocs.io/
- 更新日志:https://textblob.readthedocs.io/en/latest/changelog.html
- PyPI:https://pypi.python.org/pypi/TextBlob
- 问题:https://github.com/sloria/TextBlob/issues
许可证
采用 MIT 许可证。有关更多详细信息,请参阅随附的 LICENSE <https://github.com/sloria/TextBlob/blob/master/LICENSE>
_ 文件。
.. _pattern: https://github.com/clips/pattern/ .. _NLTK: http://nltk.org/