roberta-base_topic_classification_nyt_news 项目介绍
项目背景
roberta-base_topic_classification_nyt_news 是一个基于 RoBERTa 的文本分类模型,它专门用于对新闻文本进行主题分类。这个模型经过微调,使用了纽约时报(New York Times)的新闻数据集,该数据集包含了自2000年至今共256,000篇新闻文章的标题。这个数据集可以在 Kaggle 上找到。
主要功能
模型的主要功能是对输入的新闻文本进行主题分类,它根据内容将文本分为以下主题之一:
- 体育
- 艺术、文化和娱乐
- 商务与金融
- 健康与保健
- 生活方式与时尚
- 科学与技术
- 政治
- 犯罪
模型性能
在测试集中,roberta-base_topic_classification_nyt_news 模型在51200个测试样本中取得了出色的结果,准确率、F1值、精准率和召回率均达到了0.91。这意味着模型在识别不同主题的新闻标题时具有很高的精度和稳定性。
性能指标总结
- 准确率:0.91
- F1值:0.91
- 精准率:0.91
- 召回率:0.91
训练过程
该模型使用的训练参数包括:
- 学习率:5e-05
- 训练批次大小:8
- 评估批次大小:8
- 随机种子:42
- 优化器:Adam(参数 betas=(0.9,0.999),epsilon=1e-08)
- 学习率调度器类型:线性
- 学习率调度器预热步骤:500
- 训练周期:5个
在五个训练周期中,模型的损失逐步下降,同时准确率和其他性能指标逐渐提升,最终在第五个周期达到了最优的表现。
分类表现详情
对于每个类别,模型的表现如下:
- 体育:精准率0.97,召回率0.98,F1值0.97
- 艺术、文化和娱乐:精准率0.94,召回率0.95,F1值0.94
- 商务与金融:精准率0.85,召回率0.84,F1值0.84
- 健康与保健:精准率0.90,召回率0.93,F1值0.91
- 生活方式与时尚:精准率0.95,召回率0.95,F1值0.95
- 科学与技术:精准率0.89,召回率0.83,F1值0.86
- 政治:精准率0.93,召回率0.88,F1值0.90
- 犯罪:精准率0.85,召回率0.93,F1值0.89
使用指南
要使用该模型,可以通过Hugging Face的Transformers库进行加载和推理。
from transformers import AutoTokenizer, AutoModelForSequenceClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("dstefa/roberta-base_topic_classification_nyt_news")
model = AutoModelForSequenceClassification.from_pretrained("dstefa/roberta-base_topic_classification_nyt_news")
pipe = pipeline("text-classification", model=model, tokenizer=tokenizer)
text = "Kederis proclaims innocence Olympic champion Kostas Kederis today left hospital ahead of his date with IOC inquisitors claiming his innocence and vowing."
pipe(text)
上述代码将文本输入模型后,返回的结果会是预测的主题标签,及其置信度评分。例如,给出示例文本后,输出结果为“体育”主题,并具有高置信度评分。
技术依赖
- Transformers 版本:4.32.1
- PyTorch 版本:2.1.0+cu121
- Datasets 版本:2.12.0
- Tokenizers 版本:0.13.2
通过这些信息,希望能帮助更好地理解和使用 roberta-base_topic_classification_nyt_news 模型进行文本分类任务。