#韩语
awesome-korean-llm - 全面解析韩语开源大语言模型资源列表
LLM韩语开源Polyglot-KoLlamaGithub开源项目
本资源列表全面汇总了韩语开源大语言模型(LLM)信息。内容涵盖Polyglot-Ko、KoAlpaca、KULLM等多种韩语LLM模型,提供模型规模、开发者、基础架构等核心数据。同时按基础模型对韩语LLM进行分类,包括基于Polyglot-Ko、Llama、Llama-2等的不同类型。该列表为韩语自然语言处理研究者提供了重要参考。
KoLLaVA - 韩语多模态视觉语言助手
KoLLaVA多模态模型视觉语言助手韩语大语言模型Github开源项目
KoLLaVA是基于LLaVA框架开发的韩语多模态AI模型。通过韩语指令微调,该模型实现图像理解和多轮对话,可回答图像相关问题并进行视觉推理。项目开源了预训练和指令微调数据集、模型权重,并提供详细使用说明,为韩语多模态AI研究与应用提供了重要资源。
KoBigBird - 支持长序列处理的韩语预训练模型
KoBigBird预训练模型自然语言处理长序列处理韩语Github开源项目
KoBigBird是基于BigBird架构的韩语预训练模型,支持处理长达4096个token的序列。通过稀疏注意力机制,其计算复杂度从O(n²)降至O(n)。在短序列和长序列任务评估中,KoBigBird表现优异。项目包含使用指南、预训练方法和评估结果,为韩语自然语言处理提供支持。
bert-base-cased-Korean-sentiment - bert-base-cased韩语情感分析模型
Huggingface客户评论情感分析开源项目bert-base-multilingual-cased模型WhitePeakGithub韩语
此情感分析模型基于bert-base-multilingual-cased进行优化,专为韩语购物评论设计,准确率超过92%,用于情感分类。
wav2vec2-large-xlsr-korean - 基于wav2vec2的韩语语音识别模型实现高精度自动转写
模型Wav2Vec2XLSR开源项目韩语HuggingfaceZeroth Korean语音识别Github
wav2vec2-large-xlsr-korean是一个开源的韩语自动语音识别模型。该模型基于wav2vec2-large-xlsr架构,在Zeroth Korean数据集上训练和评估。模型展现出卓越性能,词错误率(WER)为4.74%,字符错误率(CER)为1.78%。它能够直接将音频转换为文本,为韩语语音识别应用提供了高精度的开源解决方案。
kobert-base-v1 - 为韩语自然语言处理优化的BERT模型
Huggingface模型深度学习机器学习BERTGithub韩语开源项目自然语言处理
KoBERT是SKT Brain开发的韩语BERT模型,针对韩语特性进行了优化。这一预训练模型为文本分类、命名实体识别等韩语自然语言处理任务提供了有力支持。作为开源项目,KoBERT在GitHub上提供了完整代码和文档,方便研究人员和开发者使用和研究。
KoELECTRA-small-v3-modu-ner - 基于KoELECTRA的韩语命名实体识别模型
模型韩语GithubKoELECTRA开体名识别开源项目Huggingface机器学习自然语言处理
KoELECTRA-small-v3-modu-ner是一个韩语命名实体识别模型,基于koelectra-small-v3-discriminator进行微调。该模型采用BIO标注系统,能够识别15种实体类型,涵盖人工制品、动物和文明等多个领域。在评估集上,模型达到了0.8339的F1分数和0.9628的准确率。用户可以通过Transformers pipeline轻松调用此模型,适用于多种韩语命名实体识别任务。
llama-3.2-Korean-Bllossom-3B-GGUF - 韩英双语模型llama-3.2性能增强
指令微调多语言模型商业用途韩语BllossomGithub模型开源项目Huggingface
Bllossom团队推出的这是一个全新的韩英双语语言模型,旨在增强Meta-Llama-3.2-3B的韩语能力。通过150GB高质量韩语数据的调优,该模型在不影响英语表现的同时,对韩语支持进行了强化。在LogicKor测试中表现突出,并允许多种性能优化方法。该项目在AAAI2024等会议上获得了口头报告机会,旨在进一步推动韩语语言能力的提升。
bert-base - KLUE BERT base为韩语自然语言处理提供强大支持
语言模型Huggingface模型BERTGithub韩语开源项目自然语言处理KLUE
KLUE BERT base是一个专门针对韩语自然语言处理任务的预训练模型。它基于62GB多样化韩语语料库训练,采用创新的形态素子词分词技术。在KLUE基准测试中,该模型在主题分类、语义相似度和命名实体识别等多项任务上展现出优异性能。此外,研究团队也注重解决数据偏见和隐私保护问题,为韩语NLP领域提供了重要工具。
albert-kor-base - 为韩语自然语言处理优化的Albert基础模型
transformersAlbertHuggingface模型深度学习Github韩语开源项目自然语言处理
该项目提供了一个基于70GB韩语文本数据集训练的Albert基础模型,使用42000个小写子词。模型旨在为韩语自然语言处理任务提供高效的预训练表示。研究者可通过transformers库轻松加载模型和分词器。项目还包含模型性能评估及与其他韩语语言模型的比较信息,为相关研究提供参考。
llama-3.2-Korean-Bllossom-3B - 基于Llama 3.2的韩英双语增强语言模型
语言模型模型Bllossom-3BGithubLLaMA英语开源项目Huggingface韩语
llama-3.2-Korean-Bllossom-3B是基于Llama 3.2-3B的韩英双语增强模型。通过150GB精选韩语数据的全面微调和指令调优,该模型在保持英语能力的同时显著提升了韩语表现。在LogicKor基准测试中,它创下了3B-5B规模模型的最高分。这个开源模型支持商业使用,为韩语自然语言处理任务提供了有力支持。
kobart - 优化长序列语义理解能力的韩语BART模型
模型Github预训练模型开源项目韩语Huggingfacetransformer自然语言处理KoBART
KoBART-base-v2是一款优化的韩语自然语言处理预训练模型,基于BART架构开发。通过引入聊天数据训练,该模型增强了长序列语义理解能力,在NSMC情感分析任务中准确率达90.1%。KoBART还优化了模型结构,增加bos/eos后处理器,移除token_type_ids,进一步提升性能。研究者可借助transformers库轻松应用这一先进的韩语NLP模型。
kobart-summarization - 基于BART架构的韩语新闻自动摘要模型
韩语Huggingface开源项目模型BARTNLP机器学习Github文本摘要
kobart-summarization是一个专门用于韩语新闻文本自动摘要的开源模型。该模型基于BART架构,通过Hugging Face transformers库实现,提供简洁的Python接口。它支持快速文本编码和摘要生成,适用于新闻处理、内容分析等场景。开发者可以轻松使用预训练的tokenizer和模型进行文本摘要任务。项目已在GitHub开源,并提供在线demo供用户体验。
koelectra-base-v3-discriminator - 韩语ELECTRA预训练判别器模型
分词器开源项目预训练模型模型Huggingface韩语ELECTRAGithub判别器
koelectra-base-v3-discriminator是第三代韩语ELECTRA预训练语言模型判别器,采用base规模参数配置。模型内置韩语文本处理功能,通过tokenizer实现文本标记化和ID转换,主要应用于文本分类、伪造内容检测等自然语言处理任务。项目采用Apache 2.0许可证开源发布。
EEVE-Korean-Instruct-10.8B-v1.0 - 韩语大语言模型EEVE-Korean-Instruct-10.8B采用DPO技术优化指令理解
Github开源项目模型语言模型多语言韩语HuggingfaceEEVE机器学习
EEVE-Korean-Instruct-10.8B-v1.0是一个针对韩语优化的大语言模型。该模型基于SOLAR-10.7B扩展韩语词汇表,并使用DPO技术进行指令微调。在多项基准测试中,模型平均得分达66.48分。训练数据包括韩语翻译版的SlimOrca-Dedup和ultrafeedback数据集。项目提供了API使用说明和模型评估结果,适用于需要高性能韩语语言处理的应用场景。
kobart-base-v2 - 基于BART的韩文特征提取模型
KoBARTHuggingface编码器解码器Github开源项目模型韩语特征提取语言模型
该项目利用BART模型的Text Infilling技术进行训练,生成了一种高效的韩文特征提取模型。KoBART-base利用超过40GB的多样化韩文数据进行训练,适用于特征提取任务。注意模型可能存在的偏见和局限性,避免在不当环境中使用。项目包含GitHub仓库和模型演示空间,便于用户深入了解和使用。
kobigbird-bert-base - 基于稀疏注意力的韩文BigBird预训练模型,优化长序列处理
长序列Github模型开源项目KoBigBird稀疏注意力Huggingface韩语BERT
该项目利用稀疏注意力机制,扩展BERT模型以处理更长的序列。KoBigBird模型通过从韩文BERT检查点暖启动,能够以更低的计算成本处理最长达4096的序列。推荐使用BertTokenizer进行标记化,支持更改注意力模式和参数配置,以优化不同任务的性能。