项目介绍:tweet-topic-21-multi
tweet-topic-21-multi项目是一个基于TimeLMs语言模型的项目,这个语言模型在2018年1月至2021年12月期间的大约1.24亿条推文上进行了训练,然后进一步在一个包含11,267条推文的语料库上进行微调,以实现多标签主题分类。该模型适用于英文文本分析。
项目背景
该项目的开发基于一个时间序列的语言模型(TimeLMs),这种模型特别适用于需要处理随时间变化的语言数据。tweet-topic-21-multi项目的目标是实现推文的多标签主题分类,也就是说,它能够从给定的推文中识别出多个可能的主题标签。
适用领域
tweet-topic-21-multi模型主要用于对社交媒体上推文的分类,以识别其讨论的主题。这些主题包括了艺术与文化、商业与创业、名流与流行文化、饮食、游戏、科技等等,总共有19个不同的主题标签。这些标签使得该模型可以在不同行业中应用,比如市场研究、社交媒体分析以及新闻聚合等领域。
项目亮点
- 多标签分类:模型能够处理多标签问题,即一条推文可能会同时属于多个主题。
- 机器学习方法:使用进行了微调的深度学习模型来提升分类效果。
- 广泛的适用性:通过了解推文内容,这个模型在各种商业与社会问题的检测和分析上都具有潜在应用。
项目技术细节
项目采用了基于Hugging Face Transformers库的技术栈,具体步骤如下:
- 使用预先训练好的TimeLMs模型进行句子编码。
- 通过tokenizer对输入文本进行编码处理,将其转换成模型可以理解的格式。
- 使用模型进行预测,根据输出的分数对每个主题进行打分。
- 应用sigmoid激活函数(expit)将输出的分数转换为概率值,根据设定的阈值判断推文是否属于某个特定主题。
以下是Python代码示例,展示如何实现推文内容的主题分类:
from transformers import AutoModelForSequenceClassification, TFAutoModelForSequenceClassification
from transformers import AutoTokenizer
import numpy as np
from scipy.special import expit
MODEL = f"cardiffnlp/tweet-topic-21-multi"
tokenizer = AutoTokenizer.from_pretrained(MODEL)
# PT
model = AutoModelForSequenceClassification.from_pretrained(MODEL)
class_mapping = model.config.id2label
text = "It is great to see athletes promoting awareness for climate change."
tokens = tokenizer(text, return_tensors='pt')
output = model(**tokens)
scores = output[0][0].detach().numpy()
scores = expit(scores)
predictions = (scores >= 0.5) * 1
# 映射至具体主题
for i in range(len(predictions)):
if predictions[i]:
print(class_mapping[i])
输出的结果显示,这条推文被识别为与“新闻与社会关注”和“体育”有关。这说明项目在实际应用中能够精确预测出推文的主题。
引用说明
如果在研究中使用了此模型,请引用参考论文:
@inproceedings{antypas-etal-2022-twitter,
title = "{T}witter Topic Classification",
author = "Antypas, Dimosthenis and
Ushio, Asahi and
Camacho-Collados, Jose and
Silva, Vitor and
Neves, Leonardo and
Barbieri, Francesco",
booktitle = "Proceedings of the 29th International Conference on Computational Linguistics",
month = oct,
year = "2022",
address = "Gyeongju, Republic of Korea",
publisher = "International Committee on Computational Linguistics",
url = "https://aclanthology.org/2022.coling-1.299",
pages = "3386--3400"
}
tweet-topic-21-multi项目对于深入理解社交媒体中的主题讨论提供了强有力的支持,也为后续研究和应用带来了诸多可能性。