#文本分类

deberta-v3-large-zeroshot-v2.0 - DeBERTa-v3-large基于自然语言推理的零样本分类模型
模型Github零样本分类开源项目Huggingface自然语言推理商业友好DeBERTa文本分类
deberta-v3-large-zeroshot-v2.0是基于DeBERTa-v3-large的零样本分类模型,通过自然语言推理任务训练。无需训练数据即可执行多种文本分类任务,适用于GPU和CPU。在28个分类任务上表现优异,支持灵活的假设模板。模型提供高效通用的分类能力,适用于商业和学术场景,是一个强大的零样本分类工具。
rubert-base-cased-russian-sentiment - 基于RuBERT的俄语短文本情感分析模型
模型情感分析多类分类开源项目HuggingfaceGithub俄语RuBERT文本分类
这是一个基于RuBERT的俄语情感分析模型,专门用于短文本的多类别情感分类。模型支持中性、积极和消极三种情感标签,可通过Python代码轻松调用。它在多个俄语数据集上进行了微调,涵盖新闻、评论和社交媒体文本。该模型为需要进行俄语文本情感分析的开发者和研究人员提供了一个实用的工具。
beto-contextualized-hate-speech - BETO基于情境的西班牙语仇恨言论多标签分类模型
BETO多标签分类模型西班牙语开源项目Huggingface仇恨言论检测Github文本分类
这个基于BETO的模型为西班牙语仇恨言论检测提供了创新解决方案。它不仅能识别针对8个不同群体的仇恨言论,还能检测暴力煽动。通过综合分析评论内容和背景信息,模型实现了更准确的多标签分类。研究人员和内容审核者可以利用此工具,快速获取详细的仇恨言论分析结果,有助于更好地理解和应对在线仇恨言论问题。
bleurt-tiny-512 - 用于评估文本生成质量的轻量级模型
模型文本分类BLEURTBERT自然语言生成Github开源项目Huggingface机器学习
BLEURT-tiny-512是Google Research开发的轻量级文本评估模型,基于BERT架构。该模型经WMT Metrics共享任务数据训练,主要用于评估自然语言生成质量。它可应用于文本分类,在生成文本评估方面表现优异。BLEURT-tiny-512为需要准确衡量文本生成输出的场景提供了有效工具,但用户应注意模型可能存在的偏见和局限性。
politicalBiasBERT - BERT微调模型实现政治倾向文本自动分类
Huggingface模型机器学习BERTGithub开源项目自然语言处理政治偏见文本分类
politicalBiasBERT是一个基于BERT模型微调的政治倾向分析工具。该模型通过大量政治文本训练,能够自动将输入文本分类为左派、中立或右派。研究人员和开发者可使用简单的Python代码调用此模型,快速分析文本的政治倾向。这一工具为政治文本分析和舆情研究提供了有力支持。
fasttext-en-vectors - 多语言词向量学习和文本分类开源库
模型文本分类词向量GithubfastText开源项目Huggingface机器学习自然语言处理
fastText是一个开源轻量级库,专注于词向量学习和文本分类。它支持157种语言,可在普通硬件上快速训练,并提供预训练模型。fastText适用于文本分类、语言识别等任务,从实验到生产均可使用。该库简单易用,能在短时间内处理海量文本,是自然语言处理领域的高效工具。
quora-roberta-base - 基于RoBERTa的Quora问题重复识别跨编码器
跨编码器Huggingface模型Github问题检测重复问题Quora开源项目文本分类
该跨编码器模型基于RoBERTa-base架构,专为识别Quora平台上的重复问题而设计。通过SentenceTransformers框架训练,模型能为问题对预测0-1范围内的相似度分数。虽然在Quora重复问题数据集上表现出色,但仅适用于检测语义相近的问题,不适合评估一般性相似度。模型集成简便,几行代码即可在项目中实现。
distilbert-base-multilingual-cased-sentiment - 多语种情感分析模型的高效文本分类能力
机器学习Github模型文本分类distilbert-base-multilingual-cased-sentiment开源项目Huggingface情感分析Amazon评论
本项目基于distilbert-base-multilingual-cased模型进行微调,在amazon_reviews_multi数据集上实现了优异的文本分类效果,准确率和F1值均为0.7648。模型通过优化训练参数和分布式数据处理,实现高效运行,适合多语言情感分析应用场景,可用于全球市场的用户评价分析。
Skywork-Reward-Llama-3.1-8B - 开源奖励模型的紧凑数据集设计
文本分类开源项目模型算法HuggingfaceSkywork Reward数据集Github
Skywork-Reward-Llama-3.1-8B通过80K优质偏好对数据集,展示了无需改变算法或架构即可实现高效奖励建模的潜力,在数学、编码和安全领域中表现出色,且在RewardBench排行榜中占据领先地位。
amd-power-dialer-v1 - 少样本高效文本分类模型概览
文本分类少样本学习Github开源项目SetFit对比学习Huggingface句子转换器模型
了解利用SetFit和Sentence Transformer进行少样本高效文本分类的方式,该模型微调Sentence Transformer并用其特征进行分类头训练。用户可通过简单安装与代码示例快捷进行推理,显著优化文本分类任务。
bge-large-en-v1.5-onnx - bge-large-en-v1.5模型的ONNX转化用于文本相似性和分类
模型推理文本分类开源项目ONNXBAAI模型Huggingface句子相似度Github
项目bge-large-en-v1.5的ONNX版本,适用于文本分类和相似性搜索。使用FastEmbed工具进行推理,可实现灵活高效的文本嵌入,具备快速计算与高准确性,适合大规模文本数据分析场景。
camembert-L4 - 精简版法语BERT模型,支持文本分类和语义搜索
Huggingface特征提取开源项目模型CamemBERT-L4Github语义搜索语言模型文本分类
CamemBERT-L4是CamemBERT模型的精简版本,通过裁剪顶部层次来提高性能。适合在文本分类、抽取式问答、语义搜索等领域进行微调,用于决策的完整句子任务,而非文本生成。支持掩码语言建模(MLM)与文本特征提取,模型参数和大小均有减少,提升了处理效率,同时保持其重要功能。
roberta-base_topic_classification_nyt_news - 基于roberta-base的高性能新闻主题分类模型
roberta-base开源项目模型性能文本分类GithubHuggingface模型新闻训练数据
该文本分类模型基于roberta-base,并针对New York Times新闻数据集进行了微调。模型在测试集上的分类准确率为0.91,可准确识别体育、艺术文化、商业和健康等多个新闻主题。通过结合关键超参数和Adam优化器,模型在精确性和召回率上表现优异。用户可以在Hugging Face平台轻松应用此模型,用于高效的新闻语义分析。
VulBERTa-MLP-D2A - 基于深度学习的源代码漏洞检测模型
Huggingface模型漏洞检测深度学习Github源代码预训练开源项目文本分类VulBERTa
VulBERTa-MLP-D2A是一个基于RoBERTa架构的深度学习模型,用于检测源代码中的安全漏洞。该模型通过对开源C/C++项目代码进行预训练,学习代码语法和语义的深层表示。在多个数据集的评估中,VulBERTa-MLP-D2A在漏洞检测任务上表现出色,达到了领先水平。模型设计简洁,训练成本较低,为代码安全分析提供了高效可靠的解决方案。
deberta-v3-base-zeroshot-v1.1-all-33 - DeBERTa-v3通用零样本分类模型支持387种文本分类场景
文本分类自然语言推理机器学习GithubHuggingface零样本分类开源项目模型DeBERTa-v3
DeBERTa-v3基础模型通过自然语言推理技术实现通用文本分类。经过387个分类任务训练后,可直接应用于情感分析、主题识别、内容审核等场景,平均准确率84%。采用pipeline接口,无需针对新任务重新训练即可使用。
xlm-roberta-base-language-detection-onnx - 基于XLM-RoBERTa的多语言文本识别系统
多语言模型开源项目XLM-RoBERTa模型文本分类GithubONNX转换语言检测Huggingface
这是一个将xlm-roberta-base转换为ONNX格式的语言检测模型,支持阿拉伯语、中文、英语等20种语言识别。模型通过序列分类技术实现语言检测,并结合Optimum库确保高效运行,适合多语言文本分析场景。
Splade_PP_en_v1 - ONNX稀疏向量模型助力高性能文本检索
ONNX文本分类Github相似度搜索HuggingfaceSplade开源项目模型稀疏向量编码
Splade_PP_en_v1是一个文本分类和相似度搜索模型的ONNX实现版本。模型基于FastEmbed框架运行,可将输入文本转换为稀疏向量表示,适用于文本检索和相似度计算。项目支持Python API接口调用,可进行批量文本处理,采用Apache-2.0开源许可证。
distilbart-mnli-github-issues - 利用零样本分类优化GitHub问题分类
GitHub issues classifier转换器BART-large-mnli零样本分类模型Github开源项目文本分类Huggingface
本项目使用零样本分类技术,通过distilbart-mnli模型有效分类GitHub问题,辅以BART-large-mnli教师模型指导,识别特性请求、错误等问题类型,预测一致性达94.82%。该NLP解决方案提升分类准确度,支持自定义训练,适合客户服务和技术支持。项目还提供详细的训练数据与模型选择说明,为用户提供清晰的指导和实际应用案例。
jina-reranker-v1-tiny-en - 快速文本重排序解决方案,支持最长8192个token处理
reranker模型GithubALiBi知识蒸馏文本分类Jina AIHuggingface开源项目
jina-reranker-v1-tiny-en在JinaBERT模型基础上通过知识蒸馏技术实现高效文本重排序,支持最长8192个token的处理,适用于高速度需求场景,并确保结果的准确性。提供多种接入方式,包括Jina AI Reranker API、sentence-transformers库及transformers.js等。该模型表现优异,确保搜索结果的相关性和准确性。
twitter-roberta-large-hate-latest - 增强的多类别仇恨言论检测模型
RoBERTa仇恨言论检测推特Github模型文本分类开源项目HuggingfaceSuperTweetEval
此RoBERTa-large模型基于154M推文数据进行训练,并在SuperTweetEval数据集上进行微调,以实现仇恨言论的多类别分类检测。模型能够准确识别多种仇恨类型,包括性别、种族和宗教等,为社交媒体内容管理提供支持。
twitter-roberta-base-offensive - 基于roBERTa的推特攻击性语言识别模型
推特数据开源项目模型情感分析文本分类GithubroBERTa自然语言处理Huggingface
这是一个基于roBERTa-base的模型,通过5800万条推文训练并使用TweetEval基准进行微调,专门用于识别攻击性语言。该模型能对文本进行预处理和分类,区分攻击性和非攻击性内容。它采用了自然语言处理技术,可作为社交媒体平台的内容审核工具。模型支持Python环境下的使用,能够输出文本的攻击性概率评分。
distilbert-imdb - IMDB电影评论情感分析模型实现92.8%准确率
文本分类模型准确率模型微调IMDB数据集GithubDistilBERTHuggingface开源项目
该文本分类模型通过在IMDB数据集上对distilbert-base-uncased进行微调而来,主要用于电影评论情感分析。模型基于Transformers 4.15.0和PyTorch 1.10.0开发,使用Adam优化器和线性学习率调度器,经过单轮训练在评估集上达到92.8%的准确率。
gte-large-onnx - ONNX格式文本向量模型实现快速分类与相似度搜索
ONNX文本分类Github相似度搜索Huggingface模型推理文本嵌入开源项目模型
gte-large-onnx是thenlper/gte-large模型的ONNX移植版本,用于文本分类和相似度搜索任务。该模型与FastEmbed框架集成,支持通过API调用生成文本嵌入向量,实现批量文本处理。基于Apache-2.0许可证开源,可用于构建文本相似度检索和文档分类等应用
roberta-base-suicide-prediction-phr - RoBERTa自然语言处理模型实现文本自杀倾向识别
预测模型开源项目深度学习roberta-base模型文本分类自杀倾向GithubHuggingface
该模型通过对Reddit社交平台的文本数据进行分析训练,利用RoBERTa自然语言处理技术识别文本中的自杀倾向。测试结果显示模型具有96.5%的准确率、96.6%的召回率和96.4%的精确率。项目采用严格的文本清洗和预处理流程,可应用于心理健康监测领域的自动化分析。
bert-base-uncased-mrpc - BERT文本语义对比模型在MRPC数据集实现86%准确率
BERT开源项目模型文本分类机器学习Github语义分析自然语言处理Huggingface
BERT-base-uncased经MRPC数据集微调后的文本语义分析模型,通过双向掩码语言建模实现句子对的语义等价性判断。模型在验证集达到86.03%准确率和90.42% F1分数,具备大小写不敏感特性,可广泛应用于文本语义理解任务。
finbert-fls - 智能金融文本分析工具助力投资决策高效优化
文本分类Forward-looking statement金融分析GithubFinBERTHuggingface开源项目模型预测分析
FinBERT-FLS是一个基于BERT的金融文本分析模型,专门用于识别和分类财务报告中的前瞻性陈述。该模型在罗素3000指数公司年报的3500个人工标注句子上进行微调,可准确区分具体、非具体和非前瞻性陈述。这一工具有助于投资者高效分析公司管理层对未来的预期,从而提升金融分析质量。
bert-toxic-comment-classification - BERT模型在毒性评论分类中的应用与实现
文本分类机器学习GithubBERT毒性评论分类Huggingface模型训练开源项目模型
该项目基于BERT模型,通过fine-tuning实现毒性评论的智能分类。模型在1500行测试数据上达到0.95 AUC,采用Kaggle竞赛数据集训练。项目提供简洁的Python接口,便于开发者快速集成文本毒性检测功能。适用于构建在线社区、内容平台的评论审核系统。
bge-reranker-v2-minicpm-layerwise - 分层文本排序器支持多语言并可调节计算层数实现高效推理
BAAIFlagEmbeddingHuggingface模型训练开源项目多语言处理模型文本分类Github
bge-reranker-v2-minicpm-layerwise是一个基于MiniCPM-2B-dpo-bf16的多语言文本排序器模型。它支持中英双语及多语言场景,可灵活选择8-40层进行计算,平衡推理速度和性能。模型在文本相关性评分和信息检索任务中表现优异,适用于大规模文本数据处理。通过FlagEmbedding框架可实现简便调用和部署,并支持FP16/BF16加速。
twitter-roberta-base-dec2021-tweet-topic-multi-all - 基于RoBERTa的多标签推文主题分类模型
多标签分类文本分类开源项目机器学习模型Github模型自然语言处理HuggingfaceTwitter RoBERTa
这是一个基于twitter-roberta-base-dec2021的微调模型,专注于多标签推文主题分类。模型在tweet_topic_multi数据集上训练,在test_2021测试集上实现76.48%的微平均F1分数。它能有效识别社交媒体文本中的多个主题,为内容分析提供了可靠的自然语言处理工具。
deberta-v3-xsmall-zeroshot-v1.1-all-33 - 面向边缘设备的轻量级零样本文本分类模型
Huggingface开源项目模型文本分类DeBERTaGithub模型微调自然语言处理零样本分类
DeBERTa-v3-xsmall的零样本文本分类衍生模型,主干参数2200万,词汇参数1.28亿,总大小142MB。针对边缘设备场景优化,支持浏览器端部署。模型在情感分析、主题分类等33个数据集评估中表现稳定,多数任务准确率达80%以上,适合资源受限场景下的快速文本分类应用。
tiny-bert-sst2-distilled - 轻量级BERT文本情感分类模型
BERT开源项目模型文本分类模型训练机器学习Github数据集微调Huggingface
tiny-bert-sst2-distilled模型通过对BERT基础版本进行蒸馏优化,专注于文本情感分类任务。该模型在SST-2评估集上达到83.26%的准确率,保持了不错的性能表现。模型架构采用2层transformer结构,隐藏层维度为128,具有轻量化特点,适合在计算资源有限的环境中部署使用。
distilroberta-base-rejection-v1 - DistilRoBERTa模型用于检测LLM输出拒绝响应 准确率98.87%
ProtectAI文本分类开源项目distilroberta-base模型Huggingface拒绝检测GithubLLM
这是一个基于DistilRoBERTa的微调模型,用于检测大型语言模型(LLM)输出中的拒绝响应。模型将输入分为正常输出和拒绝检测两类,评估准确率达98.87%。采用Apache 2.0许可证,支持Transformers和ONNX运行时,易于集成。适用于内容审核和安全防护,可识别LLM对不当内容的拒绝响应。
distilroberta-bias - 基于DistilROBERTA架构实现的文本偏见智能识别
文本分类偏见检测维基百科Github开源项目DistilROBERTA自然语言处理Huggingface模型
模型采用distilroberta-base作为基础架构,通过wikirev-bias数据集进行微调。它能够准确区分文本是否包含偏见,将其分类为中性或偏见性内容。该模型在内容审核和文本分析领域具有广泛应用前景。
MiniLMv2-agentflow-v2-onnx - MiniLMv2-ONNX模型帮助文本分类和LLM事件识别
文本分类LLM代理Github开源项目OptimumHuggingfaceONNXMiniLMv2模型
本项目介绍了一款量化文本分类模型,能高效识别对话流程中的常见LLM事件,如道歉、误解和功能受限。该模型基于MiniLMv2-L6-H384开发,运用ONNX提高推理效率及精度,适合高级LLM分析,支持在CPU设备上部署,通过轻量级方案优化性能表现。
cross-encoder-russian-msmarco - 高效的俄文跨编码器模型用于信息检索
GithubDiTy/cross-encoder-russian-msmarco开源项目DeepPavlov/rubert-base-casedHuggingface信息检索模型句子嵌入文本分类
此开源模型基于DeepPavlov/rubert-base-cased,并经过MS-MARCO数据集优化,专用于俄语信息检索,支持高效的查询和段落相关性排序。通过安装sentence-transformers可直接使用,也可通过HuggingFace Transformers扩展文本分类功能,适合需处理俄语复杂文本的用户。
russian_toxicity_classifier - 基于BERT的俄语有毒评论识别模型
文本分类开源项目BERT自然语言处理模型Huggingface毒性评论检测俄语Github
russian_toxicity_classifier是一个基于BERT的俄语有毒评论分类模型,通过微调Conversational RuBERT训练而成。该模型使用2ch.hk和ok.ru的合并数据集,在测试集上实现97%的准确率。它可轻松集成到Python项目中,用于识别和分类俄语文本的毒性。这一开源工具为研究人员和开发者提供了有效应对在线交流中有毒内容的解决方案。