#德语
GermanWordEmbeddings - 开源德语词向量训练与评估工具包
词嵌入德语语料库模型训练评估Github开源项目
GermanWordEmbeddings是一个开源的德语词向量模型训练与评估工具包。该工具包基于gensim的word2vec实现,提供了从语料库获取、预处理到模型训练和评估的完整流程。工具包支持语法和语义特征评估,可用于德语自然语言处理研究。项目还提供了一个基于德语维基百科和新闻文章训练的预训练模型。
opus-mt-de-ca - 德语到加泰罗尼亚语翻译技术模型,支持精准语句转换
SentencePieceHuggingface德语deu-cat翻译模型Github开源项目BLEU
该项目基于transformer-align模型,将德语文本转为加泰罗尼亚语,采用正常化及SentencePiece (spm12k) 进行预处理。模型在Tatoeba测试集上的BLEU评分为37.4,chr-F值为0.582,显示了优秀的翻译性能。用户可以下载原始模型权重和相应测试集数据,查看详细的转化结果。
wav2vec2-large-xlsr-53-german - 优化德语自动语音识别的开源模型
Common VoiceWav2Vec2德语语音识别深度学习Github模型开源项目Huggingface
本项目利用wav2vec2-large-xlsr-53-german模型对德语Common Voice数据集进行自动语音识别,得到WER为18.5%的结果。项目采用Torchaudio和Transformers库,并使用Resample进行音频预处理。该模型在语音转文字应用中具有广泛的研究价值。
ner-german - 德语命名实体识别模型 集成Flair嵌入和LSTM-CRF技术
模型命名实体识别德语GithubFlairHuggingface开源项目序列标注自然语言处理
这是一个德语命名实体识别(NER)模型,基于Flair框架开发。模型可识别文本中的人名、地名、组织名和其他专有名词,在CoNLL-03德语修订版数据集上F1分数达87.94%。采用Flair嵌入和LSTM-CRF技术,提供高精度的德语NER功能。该模型易于使用,只需几行Python代码即可集成到NLP项目中。
bert-base-german-dbmdz-uncased - 支持不区分大小写文本处理的德语BERT预训练模型
BERT德语无大小写区分Github模型自然语言处理机器学习开源项目Huggingface
这是一个专为德语设计的BERT预训练模型,主要特点是支持不区分大小写的文本处理。模型针对德语特点进行了优化,适用于各类德语自然语言处理任务,采用MIT许可证发布。该模型与dbmdz/bert-base-german-uncased模型相同,详细信息可参考其模型卡片。
distilbert-base-german-cased - 轻量级德语BERT预训练模型
机器学习Github自然语言处理HuggingfaceDistilBERT开源项目模型德语预训练模型
distilbert-base-german-cased是一个基于知识蒸馏技术的德语BERT压缩模型。该模型在维持BERT基础功能的同时减少了模型体积和运算资源消耗,可用于资源受限环境下的德语自然语言处理任务。模型支持大小写敏感的文本处理功能。
opus-mt-no-de - 挪威语至德语双向机器翻译模型 实现29.6 BLEU评分
德语机器翻译HuggingfaceGithub开源项目模型Tatoeba-Challenge挪威语transformer-align
opus-mt-no-de是一个开源的挪威语-德语神经机器翻译模型。该模型采用transformer-align架构,支持从挪威语的两种书面变体(Nynorsk和Bokmål)到德语的转换。模型使用SentencePiece进行文本预处理,在Tatoeba评测集上取得29.6 BLEU分数。项目开源于2020年6月,提供完整的模型文件及测试数据。
spelling-correction-german-base - 德语文字错误修正及符号优化工具
德语bart-base-spelling-de模型开发开源项目拼写校正模型HuggingfaceGitHubGithub
该开源项目提供了一个德语拼写和标点符号的自动纠正功能,适用于需要高德语书写精度的场合。目前项目仍在开发中,有可能会产生误差,用户可根据需求进行调整。同时,欢迎访问GitHub仓库参与项目开发或开展个性化实验。
german-gpt2 - 开源的德语预训练语言模型
机器学习Github模型德语开源项目GPT-2Huggingface文本生成自然语言处理
German-GPT2是DBMDZ开发的德语预训练语言模型,基于GPT-2架构构建。模型通过大规模德语语料库训练,采用5万词汇量的字节级BPE编码。项目开源发布,提供便捷的API接口,支持文本生成等自然语言处理任务。作为基础模型,German-GPT2主要用于进一步针对特定任务的微调训练。
ner-bert-german - 基于BERT的德语命名实体识别模型实现精准NER分析
德语Github开源项目BERT命名实体识别自然语言处理模型Huggingface机器学习
该模型通过对bert-base-multilingual-cased进行微调,实现德语文本中位置、组织和人名的识别。模型在wikiann数据集训练后,总体F1分数达0.8829,在人名实体识别方面表现尤为出色。模型使用Adam优化器和线性学习率调度器,经7轮训练完成。
whisper-large-v3-german - 德语语音识别优化模型
自动字幕OpenAI开源项目模型GithubHuggingface德语Whisper语音识别
基于Whisper Large v3,专为德语语音识别优化,在转录、命令识别、字幕生成等方面表现优秀。词错误率为3.002%,字符错误率为0.81%,适合高效使用。