同义词词典
离线同义词/同义词词典数据库
格式
采用jsonl
格式 - 即每行是一个独立的json
文档。
包含以下内容:
word: (字符串) 实际词语
wordnet_id: (字符串) 内部WordNet参考
key: (字符串) 某些词可能有多种含义。每个含义将有相同的词,但不同的key。
pos: (字符串) 词性标签,如`noun`、`verb`
synonyms: (字符串数组) 与此key相关的同义词
desc: (字符串数组) 词语描述
语言
英语
文件:en_thesaurus.jsonl
这是从WordNet提取的内容。使用时请参考WordNet许可证。截至今日:
WordNet的许可证和商业使用
WordNet®不受限制,可根据以下许可协议在商业应用中使用。代表商业利益的律师应就预期用途审查此WordNet许可证。
WordNet许可证
此许可证在任何下载版本的WordNet中均可作为LICENSE文件获得。
WordNet 3.0许可证:(下载)
WordNet 3.0版本 普林斯顿大学根据以下许可向您(被许可人)提供此软件和数据库。通过获取、使用和/或复制此软件和数据库,您同意已阅读、理解并将遵守这些条款和条件:特此授予您使用、复制、修改和分发此软件和数据库及其文档的权限,用于任何目的,无需支付费用或版税,前提是您同意遵守以下版权声明和声明,包括免责声明,并且相同内容出现在软件、数据库和文档的所有副本上,包括您为内部使用或分发而进行的修改。WordNet 3.0版权所有2006普林斯顿大学。保留所有权利。本软件和数据库按"原样"提供,普林斯顿大学不作任何明示或暗示的陈述或保证。举例而言,但不限于此,普林斯顿大学不对适销性或特定用途的适用性作出任何陈述或保证,也不保证使用许可软件、数据库或文档不会侵犯任何第三方专利、版权、商标或其他权利。普林斯顿大学或Princeton的名称不得用于与软件和/或数据库分发相关的广告或宣传中。此软件、数据库和任何相关文档的版权所有权应始终归普林斯顿大学所有,被许可人同意保留该版权。
更新数据的工具
wordnet_extract.py
可以在无需任何额外依赖的情况下运行,需要Python 3.6+版本才能执行
它解析WordNet数据库并创建.jsonl
文件。
英语数据库可在此找到:WordNet
如果其他语言严格遵循相同格式,也应该可以使用。
用法:
usage: wordnet_extract.py [-h] [--db_path DB_PATH] output
位置参数:
output 输出文件,jsonl扩展名
可选参数:
-h, --help 显示此帮助信息并退出
--db_path DB_PATH WordNet数据文件所在的目录