#文本分类
answer-classification-setfit-v2-binary - SetFit少样本学习文本分类模型,适用于多领域
文本分类少样本学习Github开源项目SetFit对比学习Huggingface句子转换器模型
项目运用了SetFit框架,实现在BAAI/bge-base-en-v1.5基础上的少样本学习文本分类,结合对比学习和Logistic Regression算法,提升了文本分类的精准度。模型适用于广泛领域,支持长至512个token的文本分类,易于通过SetFit库安装使用,设计理念基于“无提示高效少样本学习”,在小数据集上实现可靠分类表现,提供了一项潜力巨大的深度学习工具。
fasttext-zh-vectors - fastText库:支持中文文本分类与词向量学习
Github模型文本分类开源项目fastText词向量Huggingface训练数据语言识别
fastText是开源且易于使用的库,可在标准硬件上快速进行文本表示学习和分类。此库支持157种语言,并包含预训练模型,适用于文本分类与语言识别,且能在多核CPU上快速训练、并适合移动设备应用。
jailbreak-classifier - 提示分类工具,增强系统安全与内容审核
Jailbreak Classifier安全机器学习Huggingface规范化Github文本分类开源项目模型
项目基于BERT模型微调,专用于识别破解与无害提示信息。利用jailbreak-classification数据集进行训练,可应用于安全和内容审核场景,提升系统安全性与审核能力,是一个多平台适用的解决方案。
deberta-v3-base-zeroshot-v2.0 - DeBERTa V3零样本分类模型,适用于多场景
Huggingfacezero-shot-classificationGithub文本分类训练数据自然语言推理开源项目模型模型评估
DeBERTa V3模型在Hugging Face管道中实现零样本分类,满足商业环境的许可证要求。无需训练数据即可高效分类,支持GPU和CPU应用,适用于多个领域。通过合成及商用友好的数据进行训练,模型在多文本分类任务中表现优异。
gibberish-text-detector - AutoNLP训练的多分类模型实现精准检测无意义文本
模型Github开源项目Huggingface机器学习AutoNLP自然语言处理模型评估文本分类
gibberish-text-detector是基于AutoNLP训练的多分类模型,专注于无意义文本检测。模型在验证集上达到97.36%的准确率和F1分数,性能卓越。开发者可通过CURL或Python API便捷使用,实现高效的文本质量评估。该工具不仅识别无意义文本,还有助于优化内容质量,提升整体用户体验。
t5-base-tag-generation - T5模型微调实现自动文章标签生成
模型Github开源项目Huggingface标签生成机器学习t5-base自然语言处理文本分类
t5-base-tag-generation是基于T5模型微调的文本生成工具,专门用于从文章内容自动生成标签。该模型利用190k Medium文章数据集训练,采用1000个标签的分类体系进行数据清洗和标签增强。它将多标签分类转化为文本生成任务,可为各类文本高效生成相关标签,提升内容分类和检索效率。模型在50000篇文章上训练一个epoch,展现出良好的标签生成能力。
xiaobu-embedding-v2 - 中文语义嵌入模型适用于广泛NLP任务
模型开源项目Huggingface信息检索语义相似度GithubMTEB句子嵌入文本分类
xiaobu-embedding-v2是一款中文语义嵌入模型,在多项自然语言处理任务中表现出色。该模型在文本相似度、分类、聚类、重排序和检索等方面均有良好表现,尤其在MTEB基准测试中成绩突出。这个模型可应用于问答系统、搜索优化和情感分析等多种实际场景。
distilroberta-base-climate-detector - 基于DistilRoBERTa的气候相关文本检测模型
气候检测Github文本分类模型模型微调开源项目Huggingface机器学习ClimateBERT
distilroberta-base-climate-detector是一个专注于气候相关文本检测的自然语言处理模型。它基于DistilRoBERTa架构,在气候检测数据集上进行了微调,能够高效识别气候相关段落。该模型易于集成到Transformers库的文本分类管道中,为气候变化研究和环境分析提供了实用的工具。
stella-base-en-v2 - 多任务英语文本嵌入模型用于自然语言处理
特征提取Huggingface模型信息检索Github开源项目sentence-transformers文本分类句子相似度
stella-base-en-v2是一个英语文本嵌入模型,在MTEB基准测试的多个自然语言处理任务中展现出优异性能。这些任务包括文本分类、检索、聚类和语义相似度等。该模型适用于信息检索、问答系统和文本分析等多种应用场景。其特点是在多样化任务中保持较高准确率,提供了一个多功能的文本处理解决方案。
specter2_aug2023refresh_base - 基于引用关系的科学文献嵌入模型
模型SPECTER2文本分类Github科学文献嵌入开源项目Huggingface机器学习自然语言处理
SPECTER2是一种先进的科学文献嵌入模型系列,专门用于生成特定任务的嵌入表示。该模型利用超过600万对科学论文引用关系进行训练,能够处理论文标题、摘要以及短文本查询,为下游应用生成高效的嵌入。在SciRepEval和MDCR等权威基准测试中,SPECTER2展现出卓越性能,成为科学文献表示学习领域的重要工具。
DeBERTa-v3-large-mnli-fever-anli-ling-wanli - 多数据集微调的自然语言推理模型 实现零样本分类和NLI任务
模型模型训练零样本分类DeBERTa-v3-large开源项目Huggingface自然语言推理Github文本分类
DeBERTa-v3-large-mnli-fever-anli-ling-wanli模型在多个自然语言推理数据集上进行了微调。该模型在ANLI基准测试中表现优异,是Hugging Face Hub上性能领先的NLI模型。它支持零样本分类,并在MultiNLI、ANLI、LingNLI和WANLI等数据集上达到了先进水平。这个基于Microsoft DeBERTa-v3-large的模型整合了多项创新技术,为自然语言理解任务提供了有效解决方案。
e5-base - 多语言句子嵌入模型用于文本理解和检索任务
e5-baseSentence TransformersHuggingface模型Github语义相似度MTEB开源项目文本分类
e5-base是一个句子嵌入模型,用于多语言文本理解和检索任务。该模型在MTEB基准测试中表现优秀,涵盖分类、检索、聚类和语义相似度等任务。e5-base支持多种语言,适用于问答系统、文档检索和语义搜索等应用场景。这个模型为自然语言处理应用提供了有效的工具。
DeBERTa-v3-xsmall-mnli-fever-anli-ling-binary - 基于DeBERTa-v3的高性能自然语言推理模型
零样本分类DeBERTa自然语言推理模型文本分类Github开源项目Huggingface机器学习
DeBERTa-v3-xsmall-mnli-fever-anli-ling-binary是一个专为零样本分类优化的自然语言推理模型。该模型基于DeBERTa-v3-xsmall架构,通过78万多个假设-前提对进行训练,在多个NLI数据集上展现出优异性能,最高准确率达92.5%。模型不仅推理速度快,还易于使用Hugging Face Transformers库部署,适用于需要高效文本分类的各种应用场景。
suicidality - ELECTRA架构自杀倾向检测模型实现高精度文本分类
模型文本分类GithubNLPELECTRA开源项目自杀倾向检测机器学习Huggingface
该项目基于ELECTRA架构开发了自杀倾向检测AI模型,通过多样化数据集微调实现高精度文本分类。模型可区分自杀倾向和非自杀倾向文本,验证数据集性能优异。项目提供简便使用方法,强调处理敏感话题的伦理考量,并欢迎社区贡献以持续改进性能和确保负责任部署。
distilbert-base-uncased-mnli - DistilBERT零样本文本分类模型在MNLI数据集上的应用
Huggingface零样本分类模型机器学习GithubDistilBERT开源项目文本分类自然语言推理
DistilBERT零样本文本分类模型在MNLI数据集上微调,适用于多种英语文本分类任务。模型在MNLI和MNLI-mm评估中均达82.0%准确率,展现出优秀性能。虽然使用简便,但需注意潜在偏见问题。模型由Typeform团队开发,在AWS EC2 P3实例上训练。该模型为自然语言处理领域提供了有力工具,同时也引发了对AI公平性的思考。
deberta-small-long-nli - DeBERTa-v3微调长文本自然语言推理模型
DeBERTa-v3-small自然语言推理Huggingface多任务学习模型Github开源项目文本分类零样本分类
这是一个基于DeBERTa-v3-small在250多个NLP任务上微调的长文本自然语言推理模型。支持1680个token的上下文长度,在多项NLI基准测试中表现优异。可用于零样本分类、自然语言推理及下游任务微调。在逻辑推理、概率推理和长文本NLI等任务上性能出色,是一个功能强大的NLP工具。
ner-english-ontonotes-large - Flair框架的大规模英语命名实体识别模型支持18种实体类型
模型文本分类命名实体识别GithubFlair开源项目Huggingface机器学习自然语言处理
ner-english-ontonotes-large是Flair框架中的大规模英语命名实体识别模型。该模型可识别18种实体类型,包括人名、地点和组织等,在Ontonotes数据集上F1分数达90.93%。模型基于文档级XLM-R嵌入和FLERT技术,通过简洁的Python代码即可调用。这一工具为各类自然语言处理任务提供了精准的命名实体识别功能。
all-MiniLM-L6-v2-onnx - 高效文本嵌入和相似度搜索的ONNX解决方案
FastEmbed模型文本分类相似度搜索GithubONNXsentence-transformersHuggingface开源项目
all-MiniLM-L6-v2模型的ONNX版本是一个用于文本分类和相似度搜索的工具。该模型与Qdrant兼容,支持IDF修饰符,并可通过FastEmbed库进行推理。它能生成文本嵌入向量,适用于多种自然语言处理任务,尤其在需要进行文本相似度比较的场景中表现优异。使用该模型可以简化文本处理流程,提高相关应用的效率。
xlm-roberta-large-xnli - XLM-RoBERTa基于XNLI的多语言零样本文本分类模型
零样本分类模型自然语言推理多语言文本分类XLM-RoBERTaGithubHuggingface开源项目
xlm-roberta-large-xnli是一个基于XLM-RoBERTa大型模型微调的多语言自然语言推理模型。该模型支持15种语言的零样本文本分类,包括英语、法语和西班牙语等。经过XNLI数据集训练后,模型可用于跨语言文本分类任务。它提供简单的pipeline接口,便于进行多语言零样本分类。此模型适用于需要在多种语言中进行文本分类的应用场景,尤其适合非英语语言的分类任务。
roberta-spam - RoBERTa垃圾短信检测系统提升组织安全防护能力
模型文本分类GithubRoBERTa机器学习垃圾信息检测开源项目Huggingface数据集
这个项目基于RoBERTa模型构建了一套垃圾短信检测系统。该系统能够精准识别和过滤垃圾信息,为组织安全增添一道防线,有助于规避财务风险、法律隐患和声誉受损。系统在准确率、精确度和召回率等指标上表现优异,可作为组织强化信息安全的有力工具。
rubert-tiny-sentiment-balanced - 高效分析俄语短文本情感的专业工具
模型文本分类情感分析俄语GithubRuBERT开源项目Huggingface自然语言处理
rubert-tiny-sentiment-balanced是一个针对俄语短文本情感分类的微调模型。它将输入文本分为负面、中性和正面三类。该模型在多个平衡的俄语数据集上训练,提供了情感标签、分数和概率分布输出。模型在不同领域的测试集上展现了良好的性能,F1分数从0.50到0.98不等。用户可以通过简单的Python代码集成此模型,用于俄语文本的情感分析任务。
GovernanceBERT-governance - GovernanceBERT模型提升ESG公司治理文本分类精度
Huggingface模型ESGGithubGovernanceBERT公司治理开源项目自然语言处理文本分类
GovernanceBERT-governance是针对ESG领域公司治理文本优化的语言模型。它在GovernanceBERT-base基础上,通过2000条公司治理数据集微调,提升了治理相关文本的识别和分类能力。此模型适用于ESG分析、报告解读等任务,为ESG研究和实践提供了有力的自然语言处理工具。
MiniLM-L12-H384-uncased_Nvidia-Aegis-AI-Safety - 基于MiniLM的多标签文本分类模型实现AI内容安全检测
AI安全MiniLMHuggingface模型深度学习Github开源项目自然语言处理文本分类
本模型基于MiniLM-L12-H384-uncased在Nvidia Aegis AI安全数据集上微调,可识别14类有害内容。在测试集上达到95.15%的准确率和66.83%的精确度。模型能够检测包括受管制物质、犯罪计划、欺诈、非法武器等多种有害内容,为AI系统的内容安全审核提供支持。
ro-sentiment - 基于RoBERT的罗马尼亚语情感分析模型
模型文本分类情感分析罗马尼亚语RoBERT-baseGithub开源项目Huggingface机器学习
ro-sentiment是一个基于RoBERT-base微调的罗马尼亚语情感分类模型。该模型在多个数据集上表现优异,准确率和F1值均达到0.85左右。主要用于产品评论和电影评论的双极性情感分析,可识别积极和消极情感。模型通过大规模罗马尼亚语语料训练,具有良好的泛化能力,为罗马尼亚语自然语言处理研究提供了有价值的工具。
bert-base-german-cased - 德语BERT预训练模型 为自然语言处理任务提供基础
模型Github预训练模型开源项目HuggingfaceGerman BERT自然语言处理深度学习文本分类
bert-base-german-cased是一个德语BERT预训练模型,由deepset团队开发。该模型在德语维基百科、法律文本和新闻文章等大规模语料上进行训练。在命名实体识别和情感分析等多项任务中表现优异,为德语自然语言处理提供了坚实基础。模型保留原文大小写信息,有助于更准确地处理德语文本特征。
distilroberta-base-offensive-hateful-speech-text-multiclassification - 基于DistilRoBERTa的多分类攻击性和仇恨言论检测模型
模型预训练模型开源项目Huggingfacedistilroberta-base仇恨言论检测文本分类Github多分类
这是一个基于DistilRoBERTa-base的预训练模型,专门用于多分类攻击性和仇恨言论检测。该模型在原创数据集上进行微调,准确率达到94.50%。项目提供了Hugging Face上的数据集和演示空间,以及GitHub上的训练notebook。这为研究人员和开发者提供了一个高效工具,用于识别和分类在线有害内容。
koelectra-base-v3-generalized-sentiment-analysis - 基于ELECTRA的韩语情感分析模型实现商品评论智能分类
模型情感分析Github开源项目Huggingfacekoelectratransformers自然语言处理文本分类
这是一个基于ELECTRA的韩语情感分析模型,专门用于分析商品评论的情感倾向。模型采用Transformers库实现,可轻松集成到各种应用中。它能准确识别正面和负面评论,并提供置信度分数。该模型提供简单易用的API,方便开发人员快速部署情感分析功能,有助于企业更深入地理解客户反馈。
distilbert-base-uncased-emotion - DistilBERT情感分析模型:小巧快速且准确
Huggingface情感分析模型GithubDistilBERT开源项目自然语言处理文本分类Hugging Face
这是一个基于DistilBERT的情感分析模型,体积比BERT小40%,速度更快,同时保持93.8%的准确率。模型可将文本分类为6种情感,每秒处理398.69个样本,性能优于BERT、RoBERTa和ALBERT同类模型。该模型采用情感数据集微调,通过简单pipeline即可快速部署使用。
twitter-xlm-roberta-base-sentiment-finetunned - XLM-RoBERTa微调的多语言Twitter情感分析模型
模型模型微调多语言模型XLM-Roberta开源项目Huggingface情感分类Github文本分类
该模型是Citizen Lab团队基于XLM-RoBERTa架构微调的多语言Twitter情感分类器。支持英语、荷兰语、法语等10种语言,可准确识别文本的正面、负面和中性情感。模型在F1分数和准确率方面表现出色,使用简单,适用于多种社交媒体情感分析场景。
bert-tiny-finetuned-sms-spam-detection - BERT-Tiny模型实现高精度SMS垃圾信息检测
垃圾短信检测Huggingface模型数据集BERTGithub开源项目自然语言处理文本分类
该项目基于BERT-Tiny模型,针对SMS垃圾信息检测任务进行了微调。模型在验证集上实现了98%的准确率,展现了优秀的性能。作为一个轻量级解决方案,它特别适用于资源受限的环境,如移动设备上的实时垃圾短信过滤。
bge-base-en-v1.5-onnx-Q - BAAI/bge-base-en-v1.5的量化ONNX版本用于文本嵌入和相似度搜索
Huggingface模型相似度搜索BAAI/bge-base-en-v1.5FastEmbed嵌入模型Github开源项目文本分类
该项目提供了BAAI/bge-base-en-v1.5模型的量化ONNX版本,专注于文本嵌入和相似度搜索。通过FastEmbed库,用户可以轻松生成文本嵌入并进行相似度计算。量化后的模型在保持原有性能的基础上,显著提升了推理速度和资源效率,适用于需要高效文本处理的各种应用场景。
deberta-v3-base-prompt-injection-v2 - DeBERTa-v3微调模型实现高精度提示注入检测
语言模型Huggingface模型prompt injectionGithub开源项目LLM安全文本分类DeBERTa-v3-base
deberta-v3-base-prompt-injection-v2是一个基于DeBERTa-v3-base微调的模型,专注于检测和分类英语提示注入攻击。模型在后训练数据集上达到95.25%的准确率,可有效分类输入是否存在注入。该模型由Protect AI开发,利用多个公开数据集训练而成,旨在提升语言模型应用的安全性。需注意的是,模型不适用于越狱攻击检测和非英语提示处理。
bert-turkish-text-classification - BERT土耳其语文本分类模型支持7大类别
模型文本分类TurkishBERTGithub开源项目Huggingface机器学习自然语言处理
BERT土耳其语文本分类模型通过微调Turkish BERT预训练模型而来,利用TTc4900数据集训练出支持7个类别的分类能力。涵盖世界、经济、文化等领域,开发者可借助Transformers库快速部署,实现土耳其语文本的高效分类。
NoInstruct-small-Embedding-v0 - 小型嵌入模型在MTEB基准测试中展现卓越性能
模型文本分类嵌入模型相似度计算Githubsentence-transformersHuggingface开源项目信息检索
NoInstruct-small-Embedding-v0是一个小型嵌入模型,在MTEB基准测试中展现出优秀性能。该模型在文本相似度、分类和检索任务上表现突出,特别是在亚马逊评论分类中。基于sentence-transformers库开发,支持特征提取、句子相似度计算等多种NLP任务。在多个数据集上的出色表现体现了其在实际应用中的潜力。
albert-base-v2-emotion - ALBERT架构情感分析模型:Twitter数据集微调与性能评估
模型情感分析Github开源项目AlbertHuggingface机器学习自然语言处理文本分类
albert-base-v2-emotion是一个基于ALBERT架构的情感分析模型,在Twitter情感数据集上进行了微调。该模型在准确率和F1分数方面分别达到93.6%和93.65,展现了优秀的性能。模型训练采用HuggingFace Trainer,使用2e-5学习率、64批量大小和8轮训练。与同类模型相比,albert-base-v2-emotion在性能和处理速度间取得了平衡。开发者可以通过简洁的Python代码集成此模型,轻松实现文本情感分类功能。
bias_identificaiton45 - 基于RoBERTa的10类偏见识别模型
Huggingface模型机器学习PriyaPatel/Bias_identificationGithub开源项目偏见识别文本分类RoBERTa
该偏见识别模型基于RoBERTa架构,通过微调实现对10种偏见类型的分类。涵盖范围包括种族、性别、年龄等多个维度,在测试集上准确率达98.32%。模型可应用于自然语言处理研究,特别是偏见分析领域。支持通过Hugging Face transformers库快速部署使用。
相关文章
LLaMA模型在文本分类任务中的应用与实践
3 个月前
情感分析:解读文本中的情绪密码
3 个月前
fastText: 高效的文本表示和分类库
3 个月前
Floret: 结合fastText和Bloom嵌入的紧凑全覆盖向量
3 个月前
外交安全培训中心(FASTC):美国外交人员安全培训的新标杆
3 个月前
Practical-NLP-Code: 构建实用自然语言处理系统的综合指南
3 个月前
Fast-BERT: 加速BERT模型推理的高效解决方案
3 个月前
深入探讨TextClassificationBenchmark:文本分类的全面评测框架
3 个月前
Classifier: 强大的分类器模块
3 个月前