LUAR-CRUD 项目介绍
LUAR-CRUD 是一个基于 LUAR 模型的项目,致力于通过分析 Reddit 平台上用户的评论,学习并表现出作者的风格特征。该项目依托于一个庞大的 Reddit 数据集,选择了2015年1月到2019年10月期间发布的评论,对至少发布了100条评论的作者进行样本训练,覆盖了500万用户的评论数据。
项目背景
LUAR,即“学习通用作者表示”,是一个旨在从大量文本数据中提取并学习作者特征的模型。这个项目使用了先进的机器学习和自然语言处理技术,以提炼出作者在文本中的风格和声调,这对于文本归属、作者分析等领域有着重要的应用前景。
使用方法
LUAR-CRUD 项目提供了一套易于使用的代码接口,使得用户可以方便地在自己的项目中集成该模型。下面是一个简单的使用示例:
from transformers import AutoModel, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("rrivera1849/LUAR-CRUD")
model = AutoModel.from_pretrained("rrivera1849/LUAR-CRUD")
batch_size = 3
episode_length = 16
text = [
["Foo"] * episode_length,
["Bar"] * episode_length,
["Zoo"] * episode_length,
]
text = [j for i in text for j in i]
tokenized_text = tokenizer(
text,
max_length=32,
padding="max_length",
truncation=True,
return_tensors="pt"
)
tokenized_text["input_ids"] = tokenized_text["input_ids"].reshape(batch_size, episode_length, -1)
tokenized_text["attention_mask"] = tokenized_text["attention_mask"].reshape(batch_size, episode_length, -1)
out = model(**tokenized_text)
# 可以获取Transformer的注意力机制:
out, attentions = model(**tokenized_text, output_attentions=True)
在以上代码中,用户可以将一系列文本输入模型,LUAR-CRUD 将输出表示这些文本的特征向量。这种向量可以进一步用于分析文本的作者风格,识别作者身份等。
作者与引用
该项目及其相关研究论文由 Rafael A. Rivera Soto、Olivia Miano、Juanita Ordonez、Barry Chen、Aleem Khan、Marcus Bishop 和 Nicholas Andrews 等多位作者参与撰写。相关论文已在 2021 年的 EMNLP 会议上发表,具体论文信息可以在这里查阅。
如果您在项目中使用了这个模型,请引用如下参考:
@inproceedings{uar-emnlp2021,
author = {Rafael A. Rivera Soto and Olivia Miano and Juanita Ordonez and Barry Chen and Aleem Khan and Marcus Bishop and Nicholas Andrews},
title = {Learning Universal Authorship Representations},
booktitle = {EMNLP},
year = {2021},
}
许可
LUAR-CRUD 项目在 Apache License 2.0 协议下发布,所有新贡献也必须遵循该协议。这意味着该项目可以自由使用和改进,并且具有高开放性和兼容性,适合于多种开发和研究需求。