匈牙利自然语言处理优秀资源
精心挑选的匈牙利自然语言处理免费资源列表
维护者 - György Orosz
目录
工具
标记说明:
- 👌 易于安装和使用
- 🚀 商业友好许可
- 💯 预训练模型可用或不需要
分词、分句
形态学
- emMorph (Humor) 💯 基于Humor的匈牙利语形态分析器
- emMorphPy 👌💯 为emMorph (Humor)匈牙利语形态分析器实现的Python封装、词形还原器和REST API
- hunmorph 🚀💯 用于黏着语、德语和其他语言的拼写检查、词干提取和形态分析的开源工具和编程库
- hunmorph-foma 🚀💯 基于hunmorph的匈牙利语形态分析器和生成器
- hunspell 👌🚀💯 开源拼写检查器、词干提取器和形态分析器
- lara-hungarian-nlp 👌🚀💯 LARA是一个用于匈牙利语聊天机器人的轻量级Python NLP库
- Lemmagen 👌🚀💯 旨在提供标准化的开源多语言词形还原平台 (v3的Python包 | v3的C#项目)
- Simplemma 👌🚀💯 是一个简单的Python多语言词形还原器
词性/形态标注器
- hunpos 👌🚀💯 Hunpos是Thorsten Brants开发的著名词性标注器TnT的开源重新实现
- PurePos 👌🚀 基于HunPos的开源形态标注器
- purepos.py 👌🚀 PurePos的Python封装
标注器/组块分析器
- HunTag 👌🚀 使用最大熵学习和隐马尔可夫模型的NLP序列标注器
- HunTag3 👌🚀 原始HunTag的改进版本
- SzegedNER 👌🚀💯 匈牙利语和英语的命名实体识别工具
- DBpedia Spotlight 👌🚀💯 DBpedia Spotlight是一个自动注释文本中DBpedia资源提及的工具 Docker镜像
- emBERT 👌🚀💯 是一个基于预训练Transformer模型的emtsv模块。它提供基于Huggingface的transformers包的标注模型。
包含匈牙利语NLP组件的管道
- magyarlanc 👌💯 匈牙利语基础语言处理工具包
- magyarlanc_spark 👌💯 magyarlanc的Spark封装
- eszterland 👌💯 magyarlanc的Clojure访问接口
- HuSpaCy 👌🚀💯 工业级匈牙利语自然语言处理
- huNLP 👌💯 magyarlanc和szegedNER的实验性统一Java和REST API
- hunlp-GATE 💯 包含匈牙利语NLP工具作为GATE处理资源的GATE插件
- Trendminer匈牙利语处理流水线 🚀 用于社交媒体文本分析的匈牙利语NLP流水线(TrendMiner项目)
- Google Syntaxnet 🚀💯 语法的神经网络模型
- UDPipe 👌🚀💯 用于CoNLL-U文件的分词、标注、词形还原和依存分析的可训练流水线
- polyglot 👌🚀💯 支持大规模多语言应用的自然语言处理流水线
- emtsv 👌💯 通过tsv和REST API进行模块间通信的文本处理系统
- Stanza 👌🚀💯 适用于多种人类语言的Python NLP库
- spaCy StanfordNLP 👌🚀💯 封装了StanfordNLP库,使您可以将斯坦福的模型作为spaCy流水线使用
- trankit 👌🚀💯 基于Transformer的轻量级多语言自然语言处理Python工具包
句法分析器
- hunpars 🚀💯 基于规则的匈牙利语句法分析器
- HunParse 🚀💯 使用KR风格形态标注的基于NLTK的解析器
- Anagramma Parser 基于心理语言学原理的解析器
- benepar 👌🚀💯 支持11种语言模型的高精度解析器,用Python实现。基于ACL 2018的《使用自注意力编码器的成分句法分析》
语义分析
- SentimentAnalysisHUN 👌🚀💯 用Python编写的匈牙利语开源情感分析工具
- hun-date-parser 👌🚀💯 从匈牙利语句子中提取日期时间区间并将日期时间对象转换为匈牙利语文本的工具
- SZTAKI HunSum-1模型 👌🚀💯 mT5-small-HunSum-1,mT5-base-HunSum-1,Bert2Bert-HunSum-1
其他
- emLam 👌🚀💯 匈牙利语言建模的预处理脚本
- pywnxml 👌🚀💯 用于WordNet XML的Python3 API(匈牙利WordNet / BalkaNet / VisDic格式)
- Hun-appointment-chatbot 👌🚀💯 使用Rasa框架的简单匈牙利语预约聊天机器人
- neural-punctuator 👌🚀💯 使用BERT模型为英语和匈牙利语自动恢复标点符号
- hunaccent 👌🚀💯 匈牙利语小型变音符号恢复工具
- Diacritics_restoration 🚀💯 使用扩张卷积神经网络的轻量级变音符号恢复
- NYTK MT 👌🚀💯 NYTK机器翻译模型
- syntax-augmentation-nmt 🚀💯 基于语法的匈牙利语-英语机器翻译数据增强
- anonymizer_hu 🚀💯 CURLICAT项目的匈牙利语匿名化工具
语言模型
词嵌入
- FasText Wikipedia 使用fastText在维基百科上训练的90种语言的预训练词向量。
- FasText Common Crawl & Wikipedia 使用fastText的CBOW模型在维基百科和Common Crawl上训练的157种语言的预训练词向量。
- FastText_multilingual 78种语言的多语言词向量
- polyglot vectors 在维基百科上的polyglot嵌入
- wordvectors 30多种语言的维基百科上预训练的word2vec和fasttext词向量
- hunembed0.0 在匈牙利Web语料库和匈牙利国家语料库的拼接上训练的600维word2vec词嵌入,词频截断为10。
- Szeged word vectors 在43亿个标记上训练的匈牙利语词嵌入(word2vec和fasttext)
- questions-words-hu 遵循Mikolov等人的匈牙利语类比问题
- Conceptnet Numberbatch Conceptnet numbermatch多语言和跨语言语义词嵌入
- Multi-sense word embeddings
- BytePair Embeddings 预训练的子词嵌入,可下载多种格式
- HuSpaCy 300d 在匈牙利Web语料库2.0上训练的300维Floret嵌入
- HuSpaCy 100d 在匈牙利Web语料库2.0上训练的100维Floret嵌入
- ELMo Representations 为多种语言训练的深度上下文化词表示
Transformer模型
huBERT
在Web语料库2.0和匈牙利维基百科上训练的匈牙利BERT基础模型- HIL* Transformer models HILANCO提供的预训练transformer模型
- PULI-BERT-Large 是基于MegatronBERT的匈牙利BERT大型模型
- PULI-GPT-2 是一个匈牙利GPT-2模型
- PULI-GPT-3SX 是一个匈牙利GPT-NeoX模型(67亿参数)
数据集
语料库
原始语料库
- Hungarian Webcorpus 未过滤的词数超过14.8亿(完全过滤后5.89亿词),这是迄今为止最大的匈牙利语语料库,与匈牙利国家语料库(1.25亿词)不同,它完全可在宽松的开放内容许可下使用。
- Hungarian Webcorpus 2.0 匈牙利Web语料库的新版本是从Common Crawl构建的,包含略超过90亿个词。
- OSCAR 是一个巨大的多语言语料库,通过使用goclassy架构对Common Crawl语料库进行语言分类和过滤获得。(23.39亿个唯一词)
- emLam 一个匈牙利语言建模基准语料库,类似于英语的One Billion Word语料库(Chelba,2014)。
- Leipzig corpora 包含随机选择的语料库语言的句子,规模从1万句到100万句不等。来源要么是报纸文本,要么是从网络随机收集的文本。
- web2corpus 自动创建的多语言网络语料库
- CC-100 来自网络爬取数据的单语数据集
标注语料库
-
CoNLL 2017:自动标注的原始文本和词嵌入 使用UDPipe为45种语言的原始文本自动生成分割、分词以及形态和句法标注,同时使用word2vec从小写文本计算100维词嵌入
-
OpinHuBank OpinHuBank是一个人工标注的语料库,用于辅助匈牙利语的观点挖掘和情感分析研究
-
HunEmPoli 语料库基于匈牙利国民议会(2014-2018年)的预议程演讲构建,包含764008个标记/36475个句子。进行了方面级情感标注,识别了39840个情感,并标记了引发情感的关键词。
-
匈牙利论坛观点挖掘语料库 这是第一个专门用于匈牙利语观点挖掘的数据库。数据来源于匈牙利政府门户网站论坛中关于双重国籍公投的帖子。
-
匈牙利情感语料库(HuSent) 是一个深度标注的匈牙利语情感语料库。它由发布在[http://divany.hu/]主页上的不同类型产品的匈牙利语评论文本组成
-
塞格德树库 塞格德树库是最大的完全人工标注的匈牙利语树库
-
塞格德依存树库 塞格德依存树库是塞格德树库的依存树格式版本
-
匈牙利命名实体语料库 匈牙利命名实体语料库是塞格德树库的一个子语料库,包含由语言学专家手动完成的完整句法标注。
-
KorKor试点语料库 是一个包含依存句法分析和共指消解等多层标注的金标准语料库
-
NerKor 是一个包含100万标记的金标准命名实体标注语料库
-
NerKor 1.41e 一个包含100万以上标记的匈牙利语命名实体数据集,约有30种实体类型,源自NYTK-NerKor
-
hunNERwiki 匈牙利命名实体识别的银标准语料库
-
Mazsola数据库 包含来自MNSZ1语料库的2800万个句子,带有浅层句法分析标注
-
PrevCons 是一个包含21K个带有动词前缀的动词孤词的数据库
-
匈牙利词义消歧语料库 包含39个适合词义消歧目的的词形样本
-
HunLearner 是一个匈牙利语学习者语料库,包含来自克罗地亚萨格勒布大学35名匈牙利语专业学生的书面数据。文本由magyarlanc工具进行了形态和句法分析。
-
HuLU 匈牙利语言理解基准测试套件
-
HuRC 匈牙利常识推理阅读理解语料库
-
ELTE诗歌语料库 是一个包含50位匈牙利经典诗人完整诗作的数据库,包括诗歌的声音装置和词语的语法特征,以XML格式呈现
-
ELTE小说语料库 是一个包含400部匈牙利小说的数据库(以TEI XML格式标注结构单元和词语的语法特征)
-
ELTE戏剧语料库 是一个包含58部戏剧的数据库(以TEI XML格式标注结构单元和词语的语法特征)
-
HumSum-1 是一个包含超过110万条独特新闻文章的数据集,包括导语和其他元数据
平行语料库
-
Hunglish语料库 Hunglish语料库是一个免费的句子对齐的匈牙利语-英语平行语料库,包含约1.2亿个单词,400万个句子对。
-
SzegedParallel 这个英语-匈牙利语平行语料库包含根据语法和翻译标准选择的文本。
-
HunOr 一个匈牙利语-俄语平行语料库,包含约80万个单词。
-
CoNLL 2017共享任务匈牙利语数据 对Common Crawl的原始文本进行自动分段、标记化以及形态和句法标注。
-
CSS10 包括匈牙利语在内的10种语言的单一说话人语音数据集合。
-
TED演讲转录平行语料库 包括匈牙利语的句子对齐TED演讲。
-
TaPaCo语料库 从Tatoeba数据库中提取的73种语言(包括匈牙利语)的复述语料库。
-
Duolingo STAPLE 一个包含英语到5种不同语言(包括匈牙利语)的全面接受翻译的数据集。
-
PPDB 一个自动提取的数据库,包含16种不同语言(包括匈牙利语)的数百万个复述。
-
OpenSubtitles语料库 包含62种语言(包括匈牙利语)的电影字幕和对齐。
-
OPUS语料库 一个不断增长的来自网络的翻译文本集合。
-
MASSIVE数据集 一个跨51种语言的超过100万条话语的平行数据集,带有意图预测和槽位标注的自然语言理解任务注释。
-
PWS 七种语言(包括匈牙利语)的Winograd模式的平行集合。
语言学资源
-
morphdb.hu 匈牙利语的开源形态数据库,由基于合理理论决策的词典和形态语法组成。
-
huwn 匈牙利语词网。
-
匈牙利语情感词典 这些词典是在Wordnet-Affect词典的基础上手动创建的。
-
poltextLAB的情感词典 用于分析新闻数据的高精度情感词典。
-
4lang 使用Eilenberg机器的概念词典。
-
Mazsola ISZ 列出从Mazsola数据库中提取的50万个动词框架。
-
Manocska 合并现有数据库中的动词框架。
-
PrevLex 短语动词列表。
-
panmorph 匈牙利语形态分析器的标记集和描述。
-
hun_ner_checklist 匈牙利语命名实体识别的CHECKLIST诊断测试用例。
链接开放数据
-
huwn.rdf 用于链接开放数据云的RDF格式的匈牙利语WordNet。
-
Conceptnet 一个开放的多语言知识图谱(部分支持匈牙利语)。
地理数据
-
Natural-earth-vector (
name_hu
从维基数据标签导入) -
Who's On First 是一个地名词典(包含匈牙利行政地点)
语音相关数据
学术界
期刊
会议
- MSZNY 匈牙利计算语言学会议(自2003年起)
研究所
学习资源
书籍
课程
教程
社区
- 搜索世界 Precognox公司的官方博客
- 匈牙利自然语言处理聚会
- 深度学习阅读研讨会聚会
- HuNLP Slack频道
其他匈牙利相关资源集合
- EENLP 东欧语言自然语言处理资源的广泛索引
- 欧洲语言网格
- Hugging Face数据集(匈牙利语筛选)