Stanza: 斯坦福大学开发的多语言自然语言处理工具库

Stanza是斯坦福大学自然语言处理小组开发的一个强大的Python NLP工具库,为多种人类语言提供了丰富的自然语言处理功能。作为斯坦福NLP小组的官方Python库,Stanza不仅支持60多种语言的各种NLP任务,还提供了从Python访问Java版Stanford CoreNLP软件的接口。

Stanza的主要特点

多语言支持:支持60多种人类语言的NLP处理。
全面的NLP功能:提供分词、句子分割、词性标注、命名实体识别、依存句法分析等多种NLP任务。
神经网络模型:采用最新的神经网络技术,性能优异。
生物医学模型:新增了生物医学和临床英语模型包,可无缝处理生物医学文献和临床记录。
CoreNLP接口:提供了访问Java版Stanford CoreNLP的Python接口。
易用性:安装简单,使用方便,有详细的文档说明。

Stanza logo

安装和使用

Stanza支持Python 3.6及以上版本。推荐通过pip安装:

pip install stanza

使用示例:

import stanza
stanza.download('en')  # 下载英语模型
nlp = stanza.Pipeline('en')  # 创建英语处理pipeline
doc = nlp("Barack Obama was born in Hawaii. He was elected president in 2008.")
doc.sentences[0].print_dependencies()

这将输出第一个句子的依存句法分析结果。