#文本分类

mmlw-roberta-large - 增强自然语言处理适用性的多任务学习模型
文本分类开源项目聚类模型Huggingface特征提取sentence-transformers句子相似度Github
该开源项目mmlw-roberta-large通过多任务学习提高了自然语言处理性能,尤其在句子相似性、分类和检索等任务上表现突出。模型适用于多种数据集,如MTEB AllegroReviews和MTEB ArguAna-PL,实现了较高的准确率和F1值。使用了sentence-transformers和transformers技术,确保在大规模数据集上的优异表现。
roberta-base-finetuned-jd-binary-chinese - 精准中文文本分类的先进模型
文本分类开源项目预训练模型RoBERTa模型Huggingface微调数据集Github
本文介绍了5个中文RoBERTa-Base分类模型,这些模型由UER-py和TencentPretrain进行微调,基于用户评论与新闻文章的数据集实现精准分类。文章详细解释了模型的使用方法,并提供下载链接,同时概述了在腾讯云上进行的微调过程及优化参数,确保最佳性能。
instructor-xl - 基于T5架构的开源文本嵌入模型
文本相似度Huggingface开源项目模型transformersGithub模型评估文本分类自然语言处理
instructor-xl是一个基于transformer架构和T5模型的文本嵌入工具,主要应用于句子相似性计算、信息检索和文本分类任务。该模型已完成多项基准测试评估,包括自然问题回答、文本分类和语义相似度分析等。模型当前主要支持英语文本处理,可用于构建各类自然语言处理应用。
botpress_Vaganet_new_model - 高效的少样本学习技术提升多语言文本分类精度
Github模型文本分类开源项目对比学习SetFitLogistic回归Huggingface句子转换器
SetFit模型结合sentence-transformers的微调与LogisticRegression,实现88.97%的文本分类准确率,支持在多语言环境下进行34类文本分类,具备少样本学习能力,是资源有限条件下的高效选择。
phobert-base-vietnamese-sentiment - PhoBERT微调的越南语情感分析模型
phobert文本分类开源项目越南语Huggingface情感分析机器学习Github模型
该项目基于vinai/phobert-base模型微调,专门用于越南语情感分析。模型可将文本分为负面、正面或中性三类情感。使用30K电子商务评论数据集训练,适用于分析越南语句子的情感倾向。项目提供了简单的集成方法,方便在NLP应用中实现越南语情感分析功能。
clinical-assertion-negation-bert - 临床文本病症状态分类BERT模型
医疗诊断BERT临床医疗模型Github开源项目自然语言处理文本分类Huggingface
基于ClinicalBERT的预训练模型,专注于临床笔记中的病症状态分类。该模型可识别医疗记录中的病症状态,将其分为存在(PRESENT)、不存在(ABSENT)和可能存在(POSSIBLE)三类。通过在i2b2挑战赛数据集上微调,为临床文档的结构化处理提供支持。
deberta-v3-base-prompt-injection - DeBERTa-v3提示注入检测模型实现99.99%准确率
prompt injection机器学习Huggingface安全开源项目模型Github文本分类DeBERTa-v3
该提示注入检测模型基于DeBERTa-v3架构,通过多个数据集训练后可精确识别正常和注入提示。模型在评估集上实现99.99%的准确率,支持Transformers、ONNX和Langchain等框架集成,为LLM提供可靠的安全防护。开发者可通过Python接口轻松使用该模型,增强AI系统对提示注入攻击的防御能力。
distilbert-base-uncased-finetuned-sst-2-english - 基于SST-2数据集微调的DistilBERT情感分析模型达到91.3%分类准确率
开源项目文本分类SST-2机器学习DistilBERTGithubHuggingface模型模型偏见
这是一个在SST-2数据集上微调的DistilBERT情感分析模型,通过优化学习参数实现91.3%的分类准确率。模型支持英文文本的情感二分类,但在处理不同国家相关文本时存在潜在偏见。作为一个轻量级BERT变体,该模型在保持性能的同时显著降低了计算资源需求。
timely-arctic-small - 语义相似度分析模型:句子向量化工具
Snowflake/snowflake-arctic-embed-sHuggingfaceGithub文本分类相似性函数语义相似性开源项目模型数据集
基于Sentence Transformers的模型,采用Snowflake/snowflake-arctic-embed-s进行语义相似度分析。模型将句子转化为384维向量,适用于语义搜索、同义词挖掘、文本分类和聚类等领域。使用余弦相似度作为基本算法,支持最长512个token的序列,训练与评估数据集分别包含55736与1000条样本,提升精确度。更多技术细节与用法,请参考GitHub和相关文档。
ACCOUNT-OWNERSHIP - 结合对比学习和Logistic回归的高效文本分类模型
开源项目文本分类SetFitGithubHuggingface模型LogisticRegression句子转换器高效少样本学习
SetFit模型通过对比学习和Logistic回归,实现精准的文本分类,该模型微调Sentence Transformer以获取特征。无需复杂提示和大规模数据,适用于多样文本分类任务,并可在自有数据集上方便微调。
toutiao - 中文新闻分类模型,便捷文本分析工具
数据集Github模型文本分类开源项目pytorchHuggingface中文新闻分类今日头条
此中文新闻分类模型基于pytorch和今日头条数据集,支持文本分类,适用文化、娱乐、体育等多个领域。通过transformers库中text-classification方法,可实现高效中文文本处理,提升分类精度。
distilbert-base-fallacy-classification - 适用于识别14种逻辑谬误的文本分类模型
distilbert-base-fallacy-classification文本分类逻辑谬误训练数据集开源项目超参数模型HuggingfaceGithub
模型基于Logical Fallacy Dataset微调,支持识别14种逻辑谬误,如人身攻击、诉诸大众、情感诉求、以及循环论证等。通过transformers库的pipeline,简化文本分类过程,提升文本分析的准确率,助力识别常见推理谬误。
jina-embeddings-v2-base-de - 德英双语文本嵌入模型,优化跨语言相似度计算和检索
文本分类Githubsentence-transformers开源项目数据分析MTEBHuggingface模型评估模型
jina-embeddings-v2-base-de是一款针对德语和英语的双语文本嵌入模型。该模型在MTEB基准测试中表现出色,尤其在文本分类、检索和聚类任务中效果显著。模型不仅能处理德语文本,还支持德英跨语言相似度计算,适用于多语言文本检索和相似度匹配等场景。
distilbert-base-uncased-finetuned-sst-2-english-openvino - 基于DistilBERT的情感分析模型 OpenVINO优化版达91.3%准确率
开源项目情感分析文本分类DistilBERTGithubHuggingface模型模型微调OpenVINO
本项目基于DistilBERT模型,在SST-2数据集上微调后转换为OpenVINO格式,专注于文本情感分类。模型在开发集上的准确率达91.3%,并支持通过Transformers pipeline快速部署。OpenVINO优化提升了推理效率,使其更适合生产环境中的情感分析应用。项目提供了简单的使用示例,方便开发者快速集成和应用。
amd-partial-v1 - SetFit文本分类模型的高效少样本学习
对比学习开源项目文本分类SetFitGithubHuggingface模型句子转换器高效少样本学习
SetFit结合sentence-transformers/paraphrase-mpnet-base-v2,实现高效的文本分类,使用对比学习和LogisticRegression,总体准确率达96.7%。该模型经过优化学习率和损失函数,适用于多种文本分析场景。
bge-m3-zeroshot-v2.0 - BGE-M3基于零样本学习的多语言文本分类模型
HuggingfaceGithub文本分类自然语言推理开源项目zeroshot分类模型商业友好数据多语言模型
bge-m3-zeroshot-v2.0模型基于BAAI/bge-m3-retromae开发,是一款高效的零样本文本分类器。该模型支持多语言处理,可接受长达8192个tokens的输入。通过自然语言推理训练,无需微调即可执行各类分类任务。模型分为商业友好版(-c)和学术研究版,在28个分类任务中表现优异。适用于需要灵活文本分类解决方案的场景,支持GPU和CPU部署。
unbiased-toxic-roberta-onnx - 基于RoBERTa的公平评论审核模型ONNX实现
内容审核RoBERTa有害内容检测模型转换HuggingfaceGithub文本分类开源项目模型
这是一个基于RoBERTa架构的评论审核模型ONNX版本,专注于识别和分类不当言论。模型支持多维度评估,包括攻击性、不当行为、语言暴力等标签分类。通过Optimum库优化,便于系统集成,同时提供完整文档支持和活跃的开发者社区。
ko-reranker - 基于Amazon SageMaker的韩语文本重排序模型优化指南
机器学习自然语言处理HuggingfaceGithub文本分类开源项目RerankerAmazon SageMaker模型
ko-reranker是一个基于BAAI/bge-reranker-large的韩语文本重排序模型,通过直接输出相似度分数优化搜索和问答系统性能。该模型在Amazon SageMaker上使用翻译后的MS MARCO数据集进行微调,在评估指标上优于未经重排序的基线。项目提供了使用Transformers和SageMaker部署模型的指南,适用于需要提高韩语文本检索准确性的应用场景。
LLM2Vec-Sheared-LLaMA-mntp-unsup-simcse - 基于LLaMA的无监督语言模型嵌入技术
Github信息检索模型句子相似度文本分类开源项目Huggingface文本嵌入MTEB
LLM2Vec-Sheared-LLaMA-mntp-unsup-simcse 是一种基于LLaMA模型的无监督语言模型嵌入技术。该项目通过剪枝和对比学习等方法优化模型,在文本分类、信息检索、聚类等多种NLP任务中表现优异。项目进行了广泛的评估,为自然语言处理领域提供了一种高效的文本表示学习方法。
pebblo-classifier - 基于BERT的文本分类工具,优化协议文件整理
文本分类文档分类BERTGithub开源项目Pebblo ClassifierHuggingface机器学习模型
Pebblo Classifier是由DAXA.AI开发的文本分类模型,能够高效地对组织中的协议文档进行分类。该模型基于BERT技术,并从distilbert-base-uncased进行细调,支持21种文档标签分类,如董事会协议和咨询协议,简化文档整理过程。无需重新微调,用户可以通过简单代码实现快速集成。测试结果显示了模型的高精度和可靠性。
albert-base-v1 - 共享层架构的轻量级语言模型
掩码语言建模ALBERT自然语言处理Huggingface预训练模型Github文本分类开源项目模型
ALBERT Base v1是一个采用层共享架构的自然语言处理模型。通过12个重复层的设计,在保持11M小体积的同时实现了强大的语言理解能力。该模型在文本分类、问答等任务中表现优异,适用于需要理解完整句子语境的应用场景。其创新的架构设计既降低了内存占用,又保持了良好的处理性能。
Conan-embedding-v1 - 中文文本处理的开源深度学习工具
检索性能语义相似度Huggingface句子转换器conan-embeddingGithub文本分类开源项目模型
Conan-embedding-v1是一个开源项目,采用sentence-transformers库,支持多种中文自然语言处理任务如STS、分类、重排序、检索和聚类。通过在AFQMC、ATEC和AmazonReviewsClassification等数据集上的测试,该项目展示了其在复杂中文语境中的有效性。其分析与性能指标对比提供了开发者和研究人员一种提升自然语言处理效率和准确性的方法。
distilbert-base-uncased-go-emotions-student - 面向GoEmotions数据集的高效情感分类模型
开源项目文本分类Github模型Huggingface零样本分类模型蒸馏GoEmotions语言模型
该模型运用未标注GoEmotions数据集,利用零样本学习技术进行精炼。尽管其性能可能略逊于完全监督下的模型,但它展示了如何将复杂的自然语言推理模型简化为高效的模型,以便在未标注数据上进行分类器训练。
deberta-v3-large-zeroshot-v1 - 强大高效的零样本文本分类能力
模型训练零样本分类模型Github开源项目DeBERTa-v3自然语言推理文本分类Huggingface
模型适用于零样本分类,通过将文本分类任务转换为'真假'判定任务达到自然语言推理效果。使用Hugging Face pipeline实现,较现有模型表现优异。基于27项任务和310类文本进行训练,专注'Entailment'与'Not_Entailment'的二分类,且在多种文本分类场景中表现灵活。模型为开源,受到MIT许可证保护。
BioLinkBERT-base - 结合文献和引用关系的生物医学预训练模型
生物医学跨文档任务文本分类开源项目模型HuggingfaceBioLinkBERT特征提取Github
BioLinkBERT-base模型利用PubMed文献和引用信息进行预训练,在多项生物医学NLP基准测试中达到了出色表现。它在知识密集型及跨文档任务中尤为有效,并可用于问题回答、序列分类和特征提取的微调应用。
bert-base-arabic-finetuned-emotion - bert-base-arabic 模型在情感识别中的应用与优化
Transformers阿拉伯文本bert-base-arabic-finetuned-emotion模型Github开源项目情感检测文本分类Huggingface
本项目展示了一种基于bert-base-arabic的微调情感检测模型,在emotone_ar数据集上实现了74%的准确率和F1分数。该模型通过Transformer技术增强了情感分析能力,适用于阿拉伯语文本处理。用户可以在Hugging Face平台找到此预训练模型,并应用于其自然语言处理任务。
roberta-base-finetuned-dianping-chinese - 中文RoBERTa模型用于多领域文本情感和主题分类
TencentPretrain文本分类RoBERTa模型Github开源项目UER-py模型微调Huggingface
该项目包含利用UER-py和TencentPretrain微调的中文RoBERTa-Base模型,用于用户评论和新闻数据的情感及主题分类。模型可通过HuggingFace获取,适用于多种文本分类任务,具备高度的分类精准度。
langdetect - 语言检测工具,支持现代和中世纪多种语言
Github文本分类XLM-RoBERTa开源项目跨语言学习模型Huggingface语言检测中世纪语言
langdetect是一个基于XLM-RoBERTa的语言检测模型,支持包括现代和中世纪在内的41种语言。该模型经过微调,专用于文本序列的分类任务,测试集准确率高达99.59%。利用Monasterium和Wikipedia数据集进行训练,确保其在多语言文本分类中的高效表现。该模型适合各种科研和应用场景,满足多语言识别的需求。