#芬兰语
bert-base-finnish-cased-v1 - 芬兰语BERT模型提升自然语言处理性能
芬兰语模型Github预训练模型开源项目HuggingfaceFinBERT自然语言处理深度学习
bert-base-finnish-cased-v1是一个针对芬兰语优化的BERT模型。它使用超过30亿个芬兰语标记和50,000个自定义词片进行预训练,显著提高了芬兰语词汇覆盖率。在文档分类、命名实体识别和词性标注等任务中,该模型的表现超越了多语言BERT,为芬兰语自然语言处理领域带来了显著进步。
sbert-uncased-finnish-paraphrase - 芬兰语句子BERT模型用于句子相似度分析
模型芬兰语GithubHugging Face句子相似度Huggingface开源项目SBERT自然语言处理
sbert-uncased-finnish-paraphrase是基于FinBERT训练的芬兰语句子BERT模型,专用于句子相似度分析。该模型使用平均池化方法,通过二元预测判断句子间的复述关系。兼容SentenceTransformer和HuggingFace Transformers库,为芬兰语自然语言处理提供高质量的句子嵌入。模型支持大规模相似句子检索,适用于多种芬兰语文本分析任务。
wav2vec2-large-xlsr-53-finnish - 基于XLSR-53的芬兰语自动语音识别模型
芬兰语模型Wav2Vec2Common Voice开源项目HuggingfaceXLSR-53语音识别Github
该模型是在wav2vec2-large-xlsr-53基础上微调的芬兰语语音识别系统。它利用Common Voice和CSS10数据集训练,支持16kHz采样率输入。无需额外语言模型,可直接用于芬兰语语音转文本。在Common Voice测试集上,词错率41.6%,字符错率8.23%。项目提供了使用指南和评估方法,适合芬兰语语音识别应用。
wav2vec2-xlsr-1b-finnish-lm-v2 - 芬兰语语音识别模型精调,提升语音转文字效果
芬兰语语音识别Github模型开源项目语言模型wav2vec2-xlsr-1bHuggingface训练数据
wav2vec2-xlsr-1b-finnish-lm-v2模型基于Facebook AI的多语言预训练模型,为芬兰语自动语音识别进行了优化,使用275.6小时的录音数据进行精调。模型在Common Voice 7.0和FLEURS ASR数据集的测试中取得了4.09%的词错误率(WER)和12.11%的WER。模型配有芬兰语KenLM语言模型用于解码,适合短语音片段处理。其在正式语境中的表现较佳,但普及日常口语和方言的能力有限。可通过训练自定义KenLM以适应特定领域语言。