#文本分类

answer-classification-setfit-v2-binary - SetFit少样本学习文本分类模型，适用于多领域

文本分类少样本学习Github开源项目SetFit对比学习Huggingface句子转换器模型

项目运用了SetFit框架，实现在BAAI/bge-base-en-v1.5基础上的少样本学习文本分类，结合对比学习和Logistic Regression算法，提升了文本分类的精准度。模型适用于广泛领域，支持长至512个token的文本分类，易于通过SetFit库安装使用，设计理念基于“无提示高效少样本学习”，在小数据集上实现可靠分类表现，提供了一项潜力巨大的深度学习工具。

fasttext-zh-vectors - fastText库：支持中文文本分类与词向量学习

Github模型文本分类开源项目fastText词向量Huggingface训练数据语言识别

fastText是开源且易于使用的库，可在标准硬件上快速进行文本表示学习和分类。此库支持157种语言，并包含预训练模型，适用于文本分类与语言识别，且能在多核CPU上快速训练、并适合移动设备应用。

jailbreak-classifier - 提示分类工具，增强系统安全与内容审核

Jailbreak Classifier安全机器学习Huggingface规范化Github文本分类开源项目模型

项目基于BERT模型微调，专用于识别破解与无害提示信息。利用jailbreak-classification数据集进行训练，可应用于安全和内容审核场景，提升系统安全性与审核能力，是一个多平台适用的解决方案。

deberta-v3-base-zeroshot-v2.0 - DeBERTa V3零样本分类模型，适用于多场景

Huggingfacezero-shot-classificationGithub文本分类训练数据自然语言推理开源项目模型模型评估

DeBERTa V3模型在Hugging Face管道中实现零样本分类，满足商业环境的许可证要求。无需训练数据即可高效分类，支持GPU和CPU应用，适用于多个领域。通过合成及商用友好的数据进行训练，模型在多文本分类任务中表现优异。

gibberish-text-detector - AutoNLP训练的多分类模型实现精准检测无意义文本

模型Github开源项目Huggingface机器学习AutoNLP自然语言处理模型评估文本分类

gibberish-text-detector是基于AutoNLP训练的多分类模型，专注于无意义文本检测。模型在验证集上达到97.36%的准确率和F1分数，性能卓越。开发者可通过CURL或Python API便捷使用，实现高效的文本质量评估。该工具不仅识别无意义文本，还有助于优化内容质量，提升整体用户体验。

t5-base-tag-generation - T5模型微调实现自动文章标签生成

模型Github开源项目Huggingface标签生成机器学习t5-base自然语言处理文本分类

t5-base-tag-generation是基于T5模型微调的文本生成工具，专门用于从文章内容自动生成标签。该模型利用190k Medium文章数据集训练，采用1000个标签的分类体系进行数据清洗和标签增强。它将多标签分类转化为文本生成任务，可为各类文本高效生成相关标签，提升内容分类和检索效率。模型在50000篇文章上训练一个epoch，展现出良好的标签生成能力。

xiaobu-embedding-v2 - 中文语义嵌入模型适用于广泛NLP任务

模型开源项目Huggingface信息检索语义相似度GithubMTEB句子嵌入文本分类

xiaobu-embedding-v2是一款中文语义嵌入模型，在多项自然语言处理任务中表现出色。该模型在文本相似度、分类、聚类、重排序和检索等方面均有良好表现，尤其在MTEB基准测试中成绩突出。这个模型可应用于问答系统、搜索优化和情感分析等多种实际场景。

distilroberta-base-climate-detector - 基于DistilRoBERTa的气候相关文本检测模型

气候检测Github文本分类模型模型微调开源项目Huggingface机器学习ClimateBERT

distilroberta-base-climate-detector是一个专注于气候相关文本检测的自然语言处理模型。它基于DistilRoBERTa架构，在气候检测数据集上进行了微调，能够高效识别气候相关段落。该模型易于集成到Transformers库的文本分类管道中，为气候变化研究和环境分析提供了实用的工具。

stella-base-en-v2 - 多任务英语文本嵌入模型用于自然语言处理

特征提取Huggingface模型信息检索Github开源项目sentence-transformers文本分类句子相似度

stella-base-en-v2是一个英语文本嵌入模型，在MTEB基准测试的多个自然语言处理任务中展现出优异性能。这些任务包括文本分类、检索、聚类和语义相似度等。该模型适用于信息检索、问答系统和文本分析等多种应用场景。其特点是在多样化任务中保持较高准确率，提供了一个多功能的文本处理解决方案。

specter2_aug2023refresh_base - 基于引用关系的科学文献嵌入模型

模型SPECTER2文本分类Github科学文献嵌入开源项目Huggingface机器学习自然语言处理

SPECTER2是一种先进的科学文献嵌入模型系列，专门用于生成特定任务的嵌入表示。该模型利用超过600万对科学论文引用关系进行训练，能够处理论文标题、摘要以及短文本查询，为下游应用生成高效的嵌入。在SciRepEval和MDCR等权威基准测试中，SPECTER2展现出卓越性能，成为科学文献表示学习领域的重要工具。

DeBERTa-v3-large-mnli-fever-anli-ling-wanli - 多数据集微调的自然语言推理模型实现零样本分类和NLI任务

模型模型训练零样本分类DeBERTa-v3-large开源项目Huggingface自然语言推理Github文本分类

DeBERTa-v3-large-mnli-fever-anli-ling-wanli模型在多个自然语言推理数据集上进行了微调。该模型在ANLI基准测试中表现优异，是Hugging Face Hub上性能领先的NLI模型。它支持零样本分类，并在MultiNLI、ANLI、LingNLI和WANLI等数据集上达到了先进水平。这个基于Microsoft DeBERTa-v3-large的模型整合了多项创新技术，为自然语言理解任务提供了有效解决方案。

e5-base - 多语言句子嵌入模型用于文本理解和检索任务

e5-baseSentence TransformersHuggingface模型Github语义相似度MTEB开源项目文本分类

e5-base是一个句子嵌入模型，用于多语言文本理解和检索任务。该模型在MTEB基准测试中表现优秀，涵盖分类、检索、聚类和语义相似度等任务。e5-base支持多种语言，适用于问答系统、文档检索和语义搜索等应用场景。这个模型为自然语言处理应用提供了有效的工具。

DeBERTa-v3-xsmall-mnli-fever-anli-ling-binary - 基于DeBERTa-v3的高性能自然语言推理模型

零样本分类DeBERTa自然语言推理模型文本分类Github开源项目Huggingface机器学习

DeBERTa-v3-xsmall-mnli-fever-anli-ling-binary是一个专为零样本分类优化的自然语言推理模型。该模型基于DeBERTa-v3-xsmall架构，通过78万多个假设-前提对进行训练，在多个NLI数据集上展现出优异性能，最高准确率达92.5%。模型不仅推理速度快，还易于使用Hugging Face Transformers库部署，适用于需要高效文本分类的各种应用场景。

suicidality - ELECTRA架构自杀倾向检测模型实现高精度文本分类

模型文本分类GithubNLPELECTRA开源项目自杀倾向检测机器学习Huggingface

该项目基于ELECTRA架构开发了自杀倾向检测AI模型，通过多样化数据集微调实现高精度文本分类。模型可区分自杀倾向和非自杀倾向文本，验证数据集性能优异。项目提供简便使用方法，强调处理敏感话题的伦理考量，并欢迎社区贡献以持续改进性能和确保负责任部署。

distilbert-base-uncased-mnli - DistilBERT零样本文本分类模型在MNLI数据集上的应用

Huggingface零样本分类模型机器学习GithubDistilBERT开源项目文本分类自然语言推理

DistilBERT零样本文本分类模型在MNLI数据集上微调，适用于多种英语文本分类任务。模型在MNLI和MNLI-mm评估中均达82.0%准确率，展现出优秀性能。虽然使用简便，但需注意潜在偏见问题。模型由Typeform团队开发，在AWS EC2 P3实例上训练。该模型为自然语言处理领域提供了有力工具，同时也引发了对AI公平性的思考。

deberta-small-long-nli - DeBERTa-v3微调长文本自然语言推理模型

DeBERTa-v3-small自然语言推理Huggingface多任务学习模型Github开源项目文本分类零样本分类

这是一个基于DeBERTa-v3-small在250多个NLP任务上微调的长文本自然语言推理模型。支持1680个token的上下文长度,在多项NLI基准测试中表现优异。可用于零样本分类、自然语言推理及下游任务微调。在逻辑推理、概率推理和长文本NLI等任务上性能出色,是一个功能强大的NLP工具。

ner-english-ontonotes-large - Flair框架的大规模英语命名实体识别模型支持18种实体类型

模型文本分类命名实体识别GithubFlair开源项目Huggingface机器学习自然语言处理

ner-english-ontonotes-large是Flair框架中的大规模英语命名实体识别模型。该模型可识别18种实体类型，包括人名、地点和组织等，在Ontonotes数据集上F1分数达90.93%。模型基于文档级XLM-R嵌入和FLERT技术，通过简洁的Python代码即可调用。这一工具为各类自然语言处理任务提供了精准的命名实体识别功能。

all-MiniLM-L6-v2-onnx - 高效文本嵌入和相似度搜索的ONNX解决方案

FastEmbed模型文本分类相似度搜索GithubONNXsentence-transformersHuggingface开源项目

all-MiniLM-L6-v2模型的ONNX版本是一个用于文本分类和相似度搜索的工具。该模型与Qdrant兼容，支持IDF修饰符，并可通过FastEmbed库进行推理。它能生成文本嵌入向量，适用于多种自然语言处理任务，尤其在需要进行文本相似度比较的场景中表现优异。使用该模型可以简化文本处理流程，提高相关应用的效率。

xlm-roberta-large-xnli - XLM-RoBERTa基于XNLI的多语言零样本文本分类模型

零样本分类模型自然语言推理多语言文本分类XLM-RoBERTaGithubHuggingface开源项目

xlm-roberta-large-xnli是一个基于XLM-RoBERTa大型模型微调的多语言自然语言推理模型。该模型支持15种语言的零样本文本分类,包括英语、法语和西班牙语等。经过XNLI数据集训练后,模型可用于跨语言文本分类任务。它提供简单的pipeline接口,便于进行多语言零样本分类。此模型适用于需要在多种语言中进行文本分类的应用场景,尤其适合非英语语言的分类任务。

roberta-spam - RoBERTa垃圾短信检测系统提升组织安全防护能力

模型文本分类GithubRoBERTa机器学习垃圾信息检测开源项目Huggingface数据集

这个项目基于RoBERTa模型构建了一套垃圾短信检测系统。该系统能够精准识别和过滤垃圾信息，为组织安全增添一道防线，有助于规避财务风险、法律隐患和声誉受损。系统在准确率、精确度和召回率等指标上表现优异，可作为组织强化信息安全的有力工具。

rubert-tiny-sentiment-balanced - 高效分析俄语短文本情感的专业工具

模型文本分类情感分析俄语GithubRuBERT开源项目Huggingface自然语言处理

rubert-tiny-sentiment-balanced是一个针对俄语短文本情感分类的微调模型。它将输入文本分为负面、中性和正面三类。该模型在多个平衡的俄语数据集上训练，提供了情感标签、分数和概率分布输出。模型在不同领域的测试集上展现了良好的性能，F1分数从0.50到0.98不等。用户可以通过简单的Python代码集成此模型，用于俄语文本的情感分析任务。

GovernanceBERT-governance - GovernanceBERT模型提升ESG公司治理文本分类精度

Huggingface模型ESGGithubGovernanceBERT公司治理开源项目自然语言处理文本分类

GovernanceBERT-governance是针对ESG领域公司治理文本优化的语言模型。它在GovernanceBERT-base基础上，通过2000条公司治理数据集微调，提升了治理相关文本的识别和分类能力。此模型适用于ESG分析、报告解读等任务，为ESG研究和实践提供了有力的自然语言处理工具。

MiniLM-L12-H384-uncased_Nvidia-Aegis-AI-Safety - 基于MiniLM的多标签文本分类模型实现AI内容安全检测

AI安全MiniLMHuggingface模型深度学习Github开源项目自然语言处理文本分类

本模型基于MiniLM-L12-H384-uncased在Nvidia Aegis AI安全数据集上微调，可识别14类有害内容。在测试集上达到95.15%的准确率和66.83%的精确度。模型能够检测包括受管制物质、犯罪计划、欺诈、非法武器等多种有害内容，为AI系统的内容安全审核提供支持。

ro-sentiment - 基于RoBERT的罗马尼亚语情感分析模型

模型文本分类情感分析罗马尼亚语RoBERT-baseGithub开源项目Huggingface机器学习

ro-sentiment是一个基于RoBERT-base微调的罗马尼亚语情感分类模型。该模型在多个数据集上表现优异，准确率和F1值均达到0.85左右。主要用于产品评论和电影评论的双极性情感分析，可识别积极和消极情感。模型通过大规模罗马尼亚语语料训练，具有良好的泛化能力，为罗马尼亚语自然语言处理研究提供了有价值的工具。

bert-base-german-cased - 德语BERT预训练模型为自然语言处理任务提供基础

模型Github预训练模型开源项目HuggingfaceGerman BERT自然语言处理深度学习文本分类

bert-base-german-cased是一个德语BERT预训练模型，由deepset团队开发。该模型在德语维基百科、法律文本和新闻文章等大规模语料上进行训练。在命名实体识别和情感分析等多项任务中表现优异，为德语自然语言处理提供了坚实基础。模型保留原文大小写信息，有助于更准确地处理德语文本特征。

distilroberta-base-offensive-hateful-speech-text-multiclassification - 基于DistilRoBERTa的多分类攻击性和仇恨言论检测模型

模型预训练模型开源项目Huggingfacedistilroberta-base仇恨言论检测文本分类Github多分类

这是一个基于DistilRoBERTa-base的预训练模型，专门用于多分类攻击性和仇恨言论检测。该模型在原创数据集上进行微调，准确率达到94.50%。项目提供了Hugging Face上的数据集和演示空间，以及GitHub上的训练notebook。这为研究人员和开发者提供了一个高效工具，用于识别和分类在线有害内容。

koelectra-base-v3-generalized-sentiment-analysis - 基于ELECTRA的韩语情感分析模型实现商品评论智能分类

模型情感分析Github开源项目Huggingfacekoelectratransformers自然语言处理文本分类

这是一个基于ELECTRA的韩语情感分析模型，专门用于分析商品评论的情感倾向。模型采用Transformers库实现，可轻松集成到各种应用中。它能准确识别正面和负面评论，并提供置信度分数。该模型提供简单易用的API，方便开发人员快速部署情感分析功能，有助于企业更深入地理解客户反馈。

distilbert-base-uncased-emotion - DistilBERT情感分析模型：小巧快速且准确

Huggingface情感分析模型GithubDistilBERT开源项目自然语言处理文本分类Hugging Face

这是一个基于DistilBERT的情感分析模型，体积比BERT小40%，速度更快，同时保持93.8%的准确率。模型可将文本分类为6种情感，每秒处理398.69个样本，性能优于BERT、RoBERTa和ALBERT同类模型。该模型采用情感数据集微调，通过简单pipeline即可快速部署使用。

twitter-xlm-roberta-base-sentiment-finetunned - XLM-RoBERTa微调的多语言Twitter情感分析模型

模型模型微调多语言模型XLM-Roberta开源项目Huggingface情感分类Github文本分类

该模型是Citizen Lab团队基于XLM-RoBERTa架构微调的多语言Twitter情感分类器。支持英语、荷兰语、法语等10种语言，可准确识别文本的正面、负面和中性情感。模型在F1分数和准确率方面表现出色，使用简单，适用于多种社交媒体情感分析场景。

bert-tiny-finetuned-sms-spam-detection - BERT-Tiny模型实现高精度SMS垃圾信息检测

垃圾短信检测Huggingface模型数据集BERTGithub开源项目自然语言处理文本分类

该项目基于BERT-Tiny模型，针对SMS垃圾信息检测任务进行了微调。模型在验证集上实现了98%的准确率，展现了优秀的性能。作为一个轻量级解决方案，它特别适用于资源受限的环境，如移动设备上的实时垃圾短信过滤。

bge-base-en-v1.5-onnx-Q - BAAI/bge-base-en-v1.5的量化ONNX版本用于文本嵌入和相似度搜索

Huggingface模型相似度搜索BAAI/bge-base-en-v1.5FastEmbed嵌入模型Github开源项目文本分类

该项目提供了BAAI/bge-base-en-v1.5模型的量化ONNX版本，专注于文本嵌入和相似度搜索。通过FastEmbed库，用户可以轻松生成文本嵌入并进行相似度计算。量化后的模型在保持原有性能的基础上，显著提升了推理速度和资源效率，适用于需要高效文本处理的各种应用场景。

deberta-v3-base-prompt-injection-v2 - DeBERTa-v3微调模型实现高精度提示注入检测

语言模型Huggingface模型prompt injectionGithub开源项目LLM安全文本分类DeBERTa-v3-base

deberta-v3-base-prompt-injection-v2是一个基于DeBERTa-v3-base微调的模型，专注于检测和分类英语提示注入攻击。模型在后训练数据集上达到95.25%的准确率，可有效分类输入是否存在注入。该模型由Protect AI开发，利用多个公开数据集训练而成，旨在提升语言模型应用的安全性。需注意的是，模型不适用于越狱攻击检测和非英语提示处理。

bert-turkish-text-classification - BERT土耳其语文本分类模型支持7大类别

模型文本分类TurkishBERTGithub开源项目Huggingface机器学习自然语言处理

BERT土耳其语文本分类模型通过微调Turkish BERT预训练模型而来，利用TTc4900数据集训练出支持7个类别的分类能力。涵盖世界、经济、文化等领域，开发者可借助Transformers库快速部署，实现土耳其语文本的高效分类。

NoInstruct-small-Embedding-v0 - 小型嵌入模型在MTEB基准测试中展现卓越性能

模型文本分类嵌入模型相似度计算Githubsentence-transformersHuggingface开源项目信息检索

NoInstruct-small-Embedding-v0是一个小型嵌入模型，在MTEB基准测试中展现出优秀性能。该模型在文本相似度、分类和检索任务上表现突出，特别是在亚马逊评论分类中。基于sentence-transformers库开发，支持特征提取、句子相似度计算等多种NLP任务。在多个数据集上的出色表现体现了其在实际应用中的潜力。

albert-base-v2-emotion - ALBERT架构情感分析模型：Twitter数据集微调与性能评估

模型情感分析Github开源项目AlbertHuggingface机器学习自然语言处理文本分类

albert-base-v2-emotion是一个基于ALBERT架构的情感分析模型，在Twitter情感数据集上进行了微调。该模型在准确率和F1分数方面分别达到93.6%和93.65，展现了优秀的性能。模型训练采用HuggingFace Trainer，使用2e-5学习率、64批量大小和8轮训练。与同类模型相比，albert-base-v2-emotion在性能和处理速度间取得了平衡。开发者可以通过简洁的Python代码集成此模型，轻松实现文本情感分类功能。

bias_identificaiton45 - 基于RoBERTa的10类偏见识别模型

Huggingface模型机器学习PriyaPatel/Bias_identificationGithub开源项目偏见识别文本分类RoBERTa

该偏见识别模型基于RoBERTa架构，通过微调实现对10种偏见类型的分类。涵盖范围包括种族、性别、年龄等多个维度，在测试集上准确率达98.32%。模型可应用于自然语言处理研究，特别是偏见分析领域。支持通过Hugging Face transformers库快速部署使用。

相关文章

Article Cover

LLaMA模型在文本分类任务中的应用与实践

Article Cover

情感分析:解读文本中的情绪密码

Article Cover

fastText: 高效的文本表示和分类库

Article Cover

Floret: 结合fastText和Bloom嵌入的紧凑全覆盖向量

Article Cover

外交安全培训中心(FASTC)：美国外交人员安全培训的新标杆

Article Cover

Practical-NLP-Code: 构建实用自然语言处理系统的综合指南

Article Cover

Fast-BERT: 加速BERT模型推理的高效解决方案

Article Cover

深入探讨TextClassificationBenchmark:文本分类的全面评测框架

Article Cover

Classifier: 强大的分类器模块

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号