HanLP: Han Language Processing
English | 日本語 | 文档 | 论文 | 论坛 | docker | ▶️在线运行
面向生产环境的多语种自然语言处理工具包,基于PyTorch和TensorFlow 2.x双引擎,目标是普及落地最前沿的NLP技术。HanLP具备功能完善、精度准确、性能高效、语料时新、架构清晰、可自定义的特点。
借助世界上最大的多语种语料库,HanLP2.1支持包括简繁中英日俄法德在内的130种语言上的10种联合任务以及多种单任务。HanLP预训练了十几种任务上的数十个模型并且正在持续迭代语料库与模型:
功能 | RESTful | 多任务 | 单任务 | 模型 | 标注标准 |
---|---|---|---|---|---|
分词 | 教程 | 教程 | 教程 | tok | 粗分、细分 |
词性标注 | 教程 | 教程 | 教程 | pos | CTB、PKU、863 |
命名实体识别 | 教程 | 教程 | 教程 | ner | PKU、MSRA、OntoNotes |
依存句法分析 | 教程 | 教程 | 教程 | dep | SD、UD、PMT |
成分句法分析 | 教程 | 教程 | 教程 | con | Chinese Tree Bank |
语义依存分析 | 教程 | 教程 | 教程 | sdp | CSDP |
语义角色标注 | 教程 | 教程 | 教程 | srl | Chinese Proposition Bank |
抽象意义表示 | 教程 | 暂无 | 教程 | amr | CAMR |
指代消解 | 教程 | 暂无 | 暂无 | 暂无 | OntoNotes |
语义文本相似度 | 教程 | 暂无 | 教程 | sts | 暂无 |
文本风格转换 | 教程 | 暂无 | 暂无 | 暂无 | 暂无 |
关键词短语提取 | 教程 | 暂无 | 暂无 | 暂无 | 暂无 |
抽取式自动摘要 | 教程 | 暂无 | 暂无 | 暂无 | 暂无 |
生成式自动摘要 | 教程 | 暂无 | 暂无 | 暂无 | 暂无 |
文本语法纠错 | 教程 | 暂无 | 暂无 | 暂无 | 暂无 |
文本分类 | 教程 | 暂无 | 暂无 | 暂无 | 暂无 |
情感分析 | 教程 | 暂无 | 暂无 | 暂无 | [-1,+1] |
语种检测 | 教程 | 暂无 | 教程 | 暂无 | ISO 639-1编码 |
量体裁衣,HanLP提供RESTful和native两种API,分别面向轻量级和海量级两种场景。无论何种API何种语言,HanLP接口在语义上保持一致,在代码上坚持开源。如果您在研究中使用了HanLP,请引用我们的EMNLP论文。
轻量级RESTful API
仅数KB,适合敏捷开发、移动APP等场景。简单易用,无需GPU配环境,秒速安装。语料更多、模型更大、精度更高,强烈推荐。服务器GPU算力有限,匿名用户配额较少,建议申请免费公益API秘钥auth
。
Python
pip install hanlp_restful
创建客户端,填入服务器地址和秘钥:
from hanlp_restful import HanLPClient
HanLP = HanLPClient('https://www.hanlp.com/api', auth=None,