#NLP

awesome-hungarian-nlp - 匈牙利NLP资源与工具综合清单
NLP匈牙利语语料库词向量形态分析Github开源项目
该项目整理了丰富的匈牙利自然语言处理资源,包括开源工具、语言模型和数据集。涵盖分词、形态分析、词性标注等多项NLP任务,并收录预训练词嵌入和Transformer模型。此外还包含语料库、语言学资源等。内容全面,适合研究人员和开发者参考使用。
nlp-hanzi-similar - 开源汉字相似度计算工具 支持多维度比较
汉字相似度NLP开源项目自然语言处理相似算法Github
nlp-hanzi-similar是一个开源的汉字相似度计算工具,基于多个维度进行比较,包括四角编码、拼音、汉字结构、偏旁部首、笔画数和拆字。该项目支持自定义实现和词库,为汉字NLP研究提供基础支持。工具提供Java和Python版本,可应用于语言认知科学等领域研究。
suicidality - ELECTRA架构自杀倾向检测模型实现高精度文本分类
模型文本分类GithubNLPELECTRA开源项目自杀倾向检测机器学习Huggingface
该项目基于ELECTRA架构开发了自杀倾向检测AI模型,通过多样化数据集微调实现高精度文本分类。模型可区分自杀倾向和非自杀倾向文本,验证数据集性能优异。项目提供简便使用方法,强调处理敏感话题的伦理考量,并欢迎社区贡献以持续改进性能和确保负责任部署。
metricx-23-qe-xl-v2p0 - Google开发的无参考机器翻译质量评估模型
机器翻译MetricX-23Huggingface模型评估模型Github开源项目谷歌NLP
MetricX-23-QE-XL-V2P0是一款无需参考翻译的机器翻译质量评估模型。该模型由Google开发,基于mT5架构微调而成,能准确预测翻译质量得分。在WMT'23指标共享任务中表现优异,适用于评估多语言对的翻译质量。通过合成数据训练,MetricX-23-QE-XL-V2P0增强了对各种翻译缺陷的识别能力,代表了机器翻译质量评估技术的重要进展。
klue-sroberta-base-continue-learning-by-mnr - 基于KLUE数据集的韩语句子表示模型用于语义相似度分析
嵌入模型KLUE开源项目Huggingface语义相似度NLPsentence-transformersGithub
该模型是基于KLUE数据集训练的韩语句子表示工具,采用sentence-transformers框架。通过NLI和STS任务的多阶段训练,模型在语义相似度分析方面表现出色。它能将句子转换为768维向量,可用于聚类和语义搜索等应用。在STS测试集上,模型达到0.89的相关性分数,显示了较高的准确性。
all_datasets_v4_MiniLM-L6 - 大规模数据集训练的高效句向量模型用于多语言语义表示
模型句子嵌入GithubNLPFlax开源项目Huggingface语义相似度对比学习
all_datasets_v4_MiniLM-L6是一个基于MiniLM-L6预训练模型的句向量模型,通过10亿句对数据集微调而成。该模型采用对比学习方法,可生成捕捉句子语义信息的向量表示。适用于信息检索、聚类和句子相似度等任务,可通过SentenceTransformers库使用。模型在TPU上训练540k步,批量大小为1024,性能优异,应用范围广泛。
typo-detector-distilbert-en - 基于DistilBERT的英文拼写错误检测模型
模型token分类开源项目Huggingface拼写错误检测NLPGithubTransformersDistilBERT
typo-detector-distilbert-en是一个开源的英文拼写错误检测模型,基于DistilBERT架构。该模型能以98.5%的召回率和99.2%的精确度识别文本中的拼写错误。它通过Transformers库实现,便于集成到现有项目中。这个模型适用于文本编辑、内容审核等多种场景,可有效提升文本质量。
Ministral-3b-instruct-GGUF - 更高效的量化语言模型,为文本生成带来显著性能提升
开源项目NLP模型语言模型Apache 2.0Huggingfacetransformers模型量化Github
Ministral-3b-instruct-GGUF是一个基于llama.cpp的高效量化模型,专为Ministral系列的3B参数设计优化,并从Mistral-7B进行微调。它使用混合数据集,主要用于英语文本生成。通过量化技术,该模型在保持精度的同时,显著减少了存储和计算需求,理想应用于高效文本生成场景。项目遵循Apache 2.0许可协议,以确保合规使用。
colpali-v12-random-testing - 开源AI模型卡全貌与操作指南
GithubNLP开源项目transformersHuggingface训练数据模型卡评估模型
本页面介绍了transformers库中的自动生成的模型卡,概述模型开发、应用场景、偏见与风险等。指南帮助理解如何开始使用和强调应用中的注意事项,即便细节信息缺失,链接资源与建议仍有助于有效利用。
kobart-summarization - 基于BART架构的韩语新闻自动摘要模型
韩语Huggingface开源项目模型BARTNLP机器学习Github文本摘要
kobart-summarization是一个专门用于韩语新闻文本自动摘要的开源模型。该模型基于BART架构,通过Hugging Face transformers库实现,提供简洁的Python接口。它支持快速文本编码和摘要生成,适用于新闻处理、内容分析等场景。开发者可以轻松使用预训练的tokenizer和模型进行文本摘要任务。项目已在GitHub开源,并提供在线demo供用户体验。
rotten_tomatoes_t5-base_seed-1 - 变形金刚模型卡功能与应用指南
环境影响Huggingface模型卡NLP训练数据Github开源项目模型transformers
了解transformers模型卡的功能细节及使用方法。模型卡涵盖模型用途、风险及技术规格,提供实用指南以帮助理解变形金刚模型的能力与应用场景。
tamil-llama-7b-instruct-v0.1 - 改进泰米尔文本生成的高性能语言模型
机器学习Github模型开源项目NLP语言模型Huggingface文本生成Tamil LLaMA
Tamil LLaMA 7B Instruct v0.1在泰米尔语处理方面取得关键进展。作为优化后的GPT模型,它在文本生成中表现出色,并可通过微调适应特定的NLP任务。模型基于16,000个泰米尔词汇,并集成顶尖数据集,如AI2 Reasoning Challenge和HellaSwag,提供高精度的多领域能力。
NuNER-multilingual-v0.1 - 支持九种以上语言的高性能多语言实体识别系统
GithubNLP开源项目Multilingual BERTNuMindHuggingface实体识别多语言模型模型
NuNER-multilingual-v0.1作为一个多语言实体识别系统,通过对多语言BERT模型进行优化,实现了对英语、法语等9种以上语言的支持。系统基于Oscar数据集训练,具备跨领域和跨语言的实体识别能力。在性能测评中,其F1宏观指标相比基础mBERT有明显提升,单层嵌入达到0.5892,双层嵌入达到0.6231的水平。该系统可直接使用或根据具体需求进行定制化训练。
mt5-xl - 多语言文本转换模型,支持101种语言
mT5HuggingfaceNLPGithub开源项目模型预训练多语言语言模型
mT5是一个由谷歌开发的多语言文本转换模型,通过在mC4数据集上进行预训练,涵盖101种语言。尽管未经过监督训练,mT5在多语言基准测试中表现出色。所有代码和模型检查点已公开,方便研究人员和开发者进行定制和微调,提升特定自然语言处理任务的适配性。这一模型显示了使用统一文本格式处理语言任务的最新进展。
Phi-3.1-mini-4k-instruct-GGUF - Phi-3.1-mini-4k-instruct量化技术在文本生成中的应用
Phi-3.1-mini-4k-instructNLP量化模型Github开源项目数据集文件下载Huggingface
该项目通过llama.cpp进行模型量化,提供多种量化文件选项,涵盖从高质量到适合低内存设备的多种场景。项目详细介绍了如何选择量化文件,并提供了在不同硬件环境下的最佳实践,对于有技术需求的用户,项目提供了功能特性对比分析,帮助理解量化与优化策略。
Llama-2-ko-7b-Chat - Llama-2拓展到韩语文本生成的进展与优化
Github开源项目NLP模型语言模型Huggingface文本生成训练Llama 2
Llama-2-Ko-7b-Chat通过结合Llama-2预训练模型和特定韩语数据集kullm-v2,致力于提升韩语文本生成能力,实现对话支持。Taemin Kim和Juwon Kim基于Naver BoostCamp NLP-08开发并持续更新优化此项目。模型只接受和生成文本,采用先进技术以提高生成质量,为研究新语言处理能力和优化方案的研究者及开发者提供参考。
cryptobert - 预训练NLP模型用于加密货币社交媒体情感分析
加密货币HuggingfaceNLP社交媒体Github开源项目模型CryptoBERT情感分析
CryptoBERT是针对加密货币社交媒体的情感分析预训练NLP模型,基于vinai's bertweet-base模型在加密货币领域训练而成。它分析超过320万个相关帖子,并针对熊市、中性与牛市进行了情感微调,使用了200万条标记数据以实现高准确性。虽技术上可处理514个token序列,但建议使用128个token以内。此项目在比特币、以太坊等数字货币的情感分析中表现卓越。