#韩语模型
KR-BERT - 高效小型韩语预训练模型
KR-BERT韩语模型BERT自然语言处理深度学习Github开源项目
KR-BERT是首尔国立大学开发的韩语特定BERT模型,采用双向WordPiece分词技术,支持字符和子字符级处理。该模型在词汇量和参数规模上经过优化,在多项下游任务中表现出色,为韩语自然语言处理提供高效准确的解决方案。
polyglot-ko-1.3b - EleutherAI推出13亿参数韩语自然语言处理模型
模型Polyglot-KoGithub开源项目大规模语言模型Huggingface韩语模型自回归语言模型自然语言处理
Polyglot-Ko-1.3B是EleutherAI团队开发的韩语自回归语言模型,拥有13亿参数。该模型在863GB韩语数据上训练,在KOBEST基准测试中表现优异。与同规模模型相比,Polyglot-Ko-1.3B在多个下游任务中展现出显著优势,可应用于多种韩语自然语言处理任务。
ko-sbert-nli - 基于SBERT架构的韩语语义相似度模型实现文本向量化
文本嵌入Githubsentence-transformers开源项目自然语言处理语义搜索Huggingface韩语模型模型
该模型基于sentence-transformers框架,将韩语文本转化为768维向量。经KorNLI数据集训练,在KorSTS评估中获83.16%相关性。适用于句子编码、语义搜索和文本聚类,支持Python接口和pip安装。
KR-ELECTRA-generator - 韩语预训练模型专注提升非正式文本处理能力
Github开源项目自然语言处理模型Huggingface韩语模型KR-ELECTRA深度学习机器学习
KR-ELECTRA是首尔国立大学开发的韩语ELECTRA模型,专注提升非正式文本处理能力。该模型使用34GB平衡的书面和口语韩语数据预训练,采用30,000个基于形态素的词汇。KR-ELECTRA在多项韩语NLP任务中表现卓越,尤其在非正式文本相关任务上效果显著。模型支持TensorFlow和PyTorch框架,为韩语自然语言处理研究提供了有力工具。
roberta-base - 基于大规模韩语数据集的RoBERTa预训练语言模型
HuggingfaceRoBERTaKLUE模型Github开源项目自然语言处理韩语模型机器学习
RoBERTa-base是KLUE(Korean Language Understanding Evaluation)项目开发的韩语预训练模型,基于BertTokenizer分词器构建,支持transformers库直接调用。作为韩语语言理解评估框架的基础模型,主要应用于韩语自然语言处理任务和相关研究工作。
ko-gpt-trinity-1.2B-v0.5 - SK电信开发的1.2B参数韩语语言模型Ko-GPT-Trinity
自然语言处理GPT-3开源项目人工智能模型Github机器学习Huggingface韩语模型
Ko-GPT-Trinity 1.2B是SK电信基于GPT-3架构开发的12亿参数韩语语言模型。该模型在Ko-DAT数据集上训练了350亿个标记,主要用于韩语文本的生成、分类、搜索和摘要。在推理和语言理解方面表现优异,但对非韩语输入效果较差。模型存在一定偏见和局限性,包括高方差性和可解释性有限,使用时需注意这些特点。
llama-2-ko-7b - 韩语文本生成模型与优化的词汇扩展
Github机器学习开源项目huggingface模型Huggingface韩语模型文本生成Llama-2-Ko
Llama-2-Ko是基于Llama-2的语言模型,使用韩语语料库进行预训练,增强了文本生成功能。该模型提供从7B到70B参数的版本,尤其7B版本适配Hugging Face Transformers。Llama-2-Ko优化了变压器结构,增加了韩语词汇,有效生成高质量文本。项目由Junbum Lee领导,支持多参数与微调版本,应用广泛。