匈牙利自然语言处理优秀资源

精心挑选的匈牙利自然语言处理免费资源列表

维护者 - György Orosz

工具

标记说明：

👌 易于安装和使用
🚀 商业友好许可
💯 预训练模型可用或不需要

分词、分句

huntoken 👌🚀💯 匈牙利语分词和分句工具
quntoken 👌🚀💯 基于quex的新匈牙利语分词器，huntoken

形态学

emMorph (Humor) 💯 基于Humor的匈牙利语形态分析器
emMorphPy 👌💯 为emMorph (Humor)匈牙利语形态分析器实现的Python封装、词形还原器和REST API
hunmorph 🚀💯 用于黏着语、德语和其他语言的拼写检查、词干提取和形态分析的开源工具和编程库
hunmorph-foma 🚀💯 基于hunmorph的匈牙利语形态分析器和生成器
hunspell 👌🚀💯 开源拼写检查器、词干提取器和形态分析器
lara-hungarian-nlp 👌🚀💯 LARA是一个用于匈牙利语聊天机器人的轻量级Python NLP库
Lemmagen 👌🚀💯 旨在提供标准化的开源多语言词形还原平台 (v3的Python包 | v3的C#项目)
Simplemma 👌🚀💯 是一个简单的Python多语言词形还原器

词性/形态标注器

hunpos 👌🚀💯 Hunpos是Thorsten Brants开发的著名词性标注器TnT的开源重新实现
PurePos 👌🚀 基于HunPos的开源形态标注器
purepos.py 👌🚀 PurePos的Python封装

标注器/组块分析器

HunTag 👌🚀 使用最大熵学习和隐马尔可夫模型的NLP序列标注器
HunTag3 👌🚀 原始HunTag的改进版本
SzegedNER 👌🚀💯 匈牙利语和英语的命名实体识别工具
DBpedia Spotlight 👌🚀💯 DBpedia Spotlight是一个自动注释文本中DBpedia资源提及的工具 Docker镜像
emBERT 👌🚀💯 是一个基于预训练Transformer模型的emtsv模块。它提供基于Huggingface的transformers包的标注模型。

包含匈牙利语NLP组件的管道

magyarlanc 👌💯 匈牙利语基础语言处理工具包
magyarlanc_spark 👌💯 magyarlanc的Spark封装
eszterland 👌💯 magyarlanc的Clojure访问接口
HuSpaCy 👌🚀💯 工业级匈牙利语自然语言处理
huNLP 👌💯 magyarlanc和szegedNER的实验性统一Java和REST API
hunlp-GATE 💯 包含匈牙利语NLP工具作为GATE处理资源的GATE插件
Trendminer匈牙利语处理流水线 🚀 用于社交媒体文本分析的匈牙利语NLP流水线（TrendMiner项目）
Google Syntaxnet 🚀💯 语法的神经网络模型
UDPipe 👌🚀💯 用于CoNLL-U文件的分词、标注、词形还原和依存分析的可训练流水线
polyglot 👌🚀💯 支持大规模多语言应用的自然语言处理流水线
emtsv 👌💯 通过tsv和REST API进行模块间通信的文本处理系统
Stanza 👌🚀💯 适用于多种人类语言的Python NLP库
spaCy StanfordNLP 👌🚀💯 封装了StanfordNLP库，使您可以将斯坦福的模型作为spaCy流水线使用
trankit 👌🚀💯 基于Transformer的轻量级多语言自然语言处理Python工具包

句法分析器

hunpars 🚀💯 基于规则的匈牙利语句法分析器
HunParse 🚀💯 使用KR风格形态标注的基于NLTK的解析器
Anagramma Parser 基于心理语言学原理的解析器
benepar 👌🚀💯 支持11种语言模型的高精度解析器，用Python实现。基于ACL 2018的《使用自注意力编码器的成分句法分析》

语义分析

SentimentAnalysisHUN 👌🚀💯 用Python编写的匈牙利语开源情感分析工具
hun-date-parser 👌🚀💯 从匈牙利语句子中提取日期时间区间并将日期时间对象转换为匈牙利语文本的工具
SZTAKI HunSum-1模型 👌🚀💯 mT5-small-HunSum-1，mT5-base-HunSum-1，Bert2Bert-HunSum-1

其他

emLam 👌🚀💯 匈牙利语言建模的预处理脚本
pywnxml 👌🚀💯 用于WordNet XML的Python3 API（匈牙利WordNet / BalkaNet / VisDic格式）
Hun-appointment-chatbot 👌🚀💯 使用Rasa框架的简单匈牙利语预约聊天机器人
neural-punctuator 👌🚀💯 使用BERT模型为英语和匈牙利语自动恢复标点符号
hunaccent 👌🚀💯 匈牙利语小型变音符号恢复工具
Diacritics_restoration 🚀💯 使用扩张卷积神经网络的轻量级变音符号恢复
NYTK MT 👌🚀💯 NYTK机器翻译模型
syntax-augmentation-nmt 🚀💯 基于语法的匈牙利语-英语机器翻译数据增强
anonymizer_hu 🚀💯 CURLICAT项目的匈牙利语匿名化工具

语言模型

词嵌入

FasText Wikipedia 使用fastText在维基百科上训练的90种语言的预训练词向量。
FasText Common Crawl & Wikipedia 使用fastText的CBOW模型在维基百科和Common Crawl上训练的157种语言的预训练词向量。
FastText_multilingual 78种语言的多语言词向量
polyglot vectors 在维基百科上的polyglot嵌入
wordvectors 30多种语言的维基百科上预训练的word2vec和fasttext词向量
hunembed0.0 在匈牙利Web语料库和匈牙利国家语料库的拼接上训练的600维word2vec词嵌入，词频截断为10。
Szeged word vectors 在43亿个标记上训练的匈牙利语词嵌入（word2vec和fasttext）
questions-words-hu 遵循Mikolov等人的匈牙利语类比问题
Conceptnet Numberbatch Conceptnet numbermatch多语言和跨语言语义词嵌入
Multi-sense word embeddings
BytePair Embeddings 预训练的子词嵌入，可下载多种格式
HuSpaCy 300d 在匈牙利Web语料库2.0上训练的300维Floret嵌入
HuSpaCy 100d 在匈牙利Web语料库2.0上训练的100维Floret嵌入
ELMo Representations 为多种语言训练的深度上下文化词表示

Transformer模型

huBERT 在Web语料库2.0和匈牙利维基百科上训练的匈牙利BERT基础模型
HIL* Transformer models HILANCO提供的预训练transformer模型
PULI-BERT-Large 是基于MegatronBERT的匈牙利BERT大型模型
PULI-GPT-2 是一个匈牙利GPT-2模型
PULI-GPT-3SX 是一个匈牙利GPT-NeoX模型（67亿参数）

数据集

语料库

原始语料库

Hungarian Webcorpus 未过滤的词数超过14.8亿（完全过滤后5.89亿词），这是迄今为止最大的匈牙利语语料库，与匈牙利国家语料库（1.25亿词）不同，它完全可在宽松的开放内容许可下使用。
Hungarian Webcorpus 2.0 匈牙利Web语料库的新版本是从Common Crawl构建的，包含略超过90亿个词。
OSCAR 是一个巨大的多语言语料库，通过使用goclassy架构对Common Crawl语料库进行语言分类和过滤获得。（23.39亿个唯一词）
emLam 一个匈牙利语言建模基准语料库，类似于英语的One Billion Word语料库（Chelba，2014）。
Leipzig corpora 包含随机选择的语料库语言的句子，规模从1万句到100万句不等。来源要么是报纸文本，要么是从网络随机收集的文本。
web2corpus 自动创建的多语言网络语料库
CC-100 来自网络爬取数据的单语数据集

标注语料库

CoNLL 2017：自动标注的原始文本和词嵌入使用UDPipe为45种语言的原始文本自动生成分割、分词以及形态和句法标注，同时使用word2vec从小写文本计算100维词嵌入
OpinHuBank OpinHuBank是一个人工标注的语料库，用于辅助匈牙利语的观点挖掘和情感分析研究
HunEmPoli 语料库基于匈牙利国民议会（2014-2018年）的预议程演讲构建，包含764008个标记/36475个句子。进行了方面级情感标注，识别了39840个情感，并标记了引发情感的关键词。
匈牙利论坛观点挖掘语料库这是第一个专门用于匈牙利语观点挖掘的数据库。数据来源于匈牙利政府门户网站论坛中关于双重国籍公投的帖子。
匈牙利情感语料库（HuSent）是一个深度标注的匈牙利语情感语料库。它由发布在[http://divany.hu/]主页上的不同类型产品的匈牙利语评论文本组成
塞格德树库塞格德树库是最大的完全人工标注的匈牙利语树库
塞格德依存树库塞格德依存树库是塞格德树库的依存树格式版本
通用依存关系
匈牙利命名实体语料库匈牙利命名实体语料库是塞格德树库的一个子语料库，包含由语言学专家手动完成的完整句法标注。
KorKor试点语料库是一个包含依存句法分析和共指消解等多层标注的金标准语料库
NerKor 是一个包含100万标记的金标准命名实体标注语料库
NerKor 1.41e 一个包含100万以上标记的匈牙利语命名实体数据集，约有30种实体类型，源自NYTK-NerKor
hunNERwiki 匈牙利命名实体识别的银标准语料库
Mazsola数据库包含来自MNSZ1语料库的2800万个句子，带有浅层句法分析标注
PrevCons 是一个包含21K个带有动词前缀的动词孤词的数据库
匈牙利词义消歧语料库包含39个适合词义消歧目的的词形样本
HunLearner 是一个匈牙利语学习者语料库，包含来自克罗地亚萨格勒布大学35名匈牙利语专业学生的书面数据。文本由magyarlanc工具进行了形态和句法分析。
HuLU 匈牙利语言理解基准测试套件
- HuCOLA 匈牙利语言可接受性语料库
- HuCoPA 匈牙利合理选择语料库
- HuSST 匈牙利情感树库
- HuWNLI 作为推理任务的匈牙利语回指消解数据集
- HuWS 是维诺格拉德模式的匈牙利语版本
HuRC 匈牙利常识推理阅读理解语料库
ELTE诗歌语料库是一个包含50位匈牙利经典诗人完整诗作的数据库，包括诗歌的声音装置和词语的语法特征，以XML格式呈现
ELTE小说语料库是一个包含400部匈牙利小说的数据库（以TEI XML格式标注结构单元和词语的语法特征）
ELTE戏剧语料库是一个包含58部戏剧的数据库（以TEI XML格式标注结构单元和词语的语法特征）
HumSum-1 是一个包含超过110万条独特新闻文章的数据集，包括导语和其他元数据
HAPP 是明确代词消解数据集的匈牙利语翻译版本。