Project Icon

roberta-base_topic_classification_nyt_news

基于roberta-base的高性能新闻主题分类模型

该文本分类模型基于roberta-base,并针对New York Times新闻数据集进行了微调。模型在测试集上的分类准确率为0.91,可准确识别体育、艺术文化、商业和健康等多个新闻主题。通过结合关键超参数和Adam优化器,模型在精确性和召回率上表现优异。用户可以在Hugging Face平台轻松应用此模型,用于高效的新闻语义分析。

roberta-base_topic_classification_nyt_news 项目介绍

项目背景

roberta-base_topic_classification_nyt_news 是一个基于 RoBERTa 的文本分类模型,它专门用于对新闻文本进行主题分类。这个模型经过微调,使用了纽约时报(New York Times)的新闻数据集,该数据集包含了自2000年至今共256,000篇新闻文章的标题。这个数据集可以在 Kaggle 上找到。

主要功能

模型的主要功能是对输入的新闻文本进行主题分类,它根据内容将文本分为以下主题之一:

  • 体育
  • 艺术、文化和娱乐
  • 商务与金融
  • 健康与保健
  • 生活方式与时尚
  • 科学与技术
  • 政治
  • 犯罪

模型性能

在测试集中,roberta-base_topic_classification_nyt_news 模型在51200个测试样本中取得了出色的结果,准确率、F1值、精准率和召回率均达到了0.91。这意味着模型在识别不同主题的新闻标题时具有很高的精度和稳定性。

性能指标总结

  • 准确率:0.91
  • F1值:0.91
  • 精准率:0.91
  • 召回率:0.91

训练过程

该模型使用的训练参数包括:

  • 学习率:5e-05
  • 训练批次大小:8
  • 评估批次大小:8
  • 随机种子:42
  • 优化器:Adam(参数 betas=(0.9,0.999),epsilon=1e-08)
  • 学习率调度器类型:线性
  • 学习率调度器预热步骤:500
  • 训练周期:5个

在五个训练周期中,模型的损失逐步下降,同时准确率和其他性能指标逐渐提升,最终在第五个周期达到了最优的表现。

分类表现详情

对于每个类别,模型的表现如下:

  • 体育:精准率0.97,召回率0.98,F1值0.97
  • 艺术、文化和娱乐:精准率0.94,召回率0.95,F1值0.94
  • 商务与金融:精准率0.85,召回率0.84,F1值0.84
  • 健康与保健:精准率0.90,召回率0.93,F1值0.91
  • 生活方式与时尚:精准率0.95,召回率0.95,F1值0.95
  • 科学与技术:精准率0.89,召回率0.83,F1值0.86
  • 政治:精准率0.93,召回率0.88,F1值0.90
  • 犯罪:精准率0.85,召回率0.93,F1值0.89

使用指南

要使用该模型,可以通过Hugging Face的Transformers库进行加载和推理。

from transformers import AutoTokenizer, AutoModelForSequenceClassification
from transformers import pipeline

tokenizer = AutoTokenizer.from_pretrained("dstefa/roberta-base_topic_classification_nyt_news")
model = AutoModelForSequenceClassification.from_pretrained("dstefa/roberta-base_topic_classification_nyt_news")
pipe = pipeline("text-classification", model=model, tokenizer=tokenizer)

text = "Kederis proclaims innocence Olympic champion Kostas Kederis today left hospital ahead of his date with IOC inquisitors claiming his innocence and vowing."
pipe(text)

上述代码将文本输入模型后,返回的结果会是预测的主题标签,及其置信度评分。例如,给出示例文本后,输出结果为“体育”主题,并具有高置信度评分。

技术依赖

  • Transformers 版本:4.32.1
  • PyTorch 版本:2.1.0+cu121
  • Datasets 版本:2.12.0
  • Tokenizers 版本:0.13.2

通过这些信息,希望能帮助更好地理解和使用 roberta-base_topic_classification_nyt_news 模型进行文本分类任务。

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能,包括文生视频、动态画面和形象生成等,帮助用户快速上手,创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台,用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品,帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型,为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能,满足事务性工作的高频需求,帮助撰稿人节省精力,提高效率,优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号