#HerBERT
sbert-base-cased-pl - 波兰语言语义相似度高效模型
HuggingfaceHerBERTSHerbert模型Github开源项目句子相似性自然语言处理机器学习
sbert-base-cased-pl是SentenceBERT的改进版,利用siamese与triplet网络结构生成语义嵌入,以余弦相似度进行判断。该模型基于波兰语HerBERT,专注于语义文本相似性优化,训练数据来源于Wikipedia,并通过字节对编码进行分词,准确率达82.31%。适用于波兰语相关环境与分词器场景。
herbert-base-cased - 波兰语自然语言处理的新突破:HerBERT预训练模型
预训练语言模型模型HerBERTGithub深度学习波兰语模型Huggingface开源项目自然语言处理
HerBERT是一款专为波兰语设计的预训练语言模型,基于BERT架构并结合掩码语言建模和句子结构目标进行优化。该模型在六大波兰语语料库上训练,涵盖超过86亿个标记,采用50k词汇量的字符级字节对编码分词器。HerBERT为波兰语自然语言处理研究和应用提供了坚实基础,可广泛应用于文本分类、命名实体识别等多种任务。