LUAR-CRUD - 分析Reddit评论作者风格的表征工具

LUAR-CRUD 项目介绍

LUAR-CRUD 是一个基于 LUAR 模型的项目，致力于通过分析 Reddit 平台上用户的评论，学习并表现出作者的风格特征。该项目依托于一个庞大的 Reddit 数据集，选择了2015年1月到2019年10月期间发布的评论，对至少发布了100条评论的作者进行样本训练，覆盖了500万用户的评论数据。

项目背景

LUAR，即“学习通用作者表示”，是一个旨在从大量文本数据中提取并学习作者特征的模型。这个项目使用了先进的机器学习和自然语言处理技术，以提炼出作者在文本中的风格和声调，这对于文本归属、作者分析等领域有着重要的应用前景。

使用方法

LUAR-CRUD 项目提供了一套易于使用的代码接口，使得用户可以方便地在自己的项目中集成该模型。下面是一个简单的使用示例：

from transformers import AutoModel, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("rrivera1849/LUAR-CRUD")
model = AutoModel.from_pretrained("rrivera1849/LUAR-CRUD")

batch_size = 3
episode_length = 16
text = [
    ["Foo"] * episode_length,
    ["Bar"] * episode_length,
    ["Zoo"] * episode_length,
]
text = [j for i in text for j in i]
tokenized_text = tokenizer(
    text, 
    max_length=32,
    padding="max_length", 
    truncation=True,
    return_tensors="pt"
)
tokenized_text["input_ids"] = tokenized_text["input_ids"].reshape(batch_size, episode_length, -1)
tokenized_text["attention_mask"] = tokenized_text["attention_mask"].reshape(batch_size, episode_length, -1)

out = model(**tokenized_text)
# 可以获取Transformer的注意力机制：
out, attentions = model(**tokenized_text, output_attentions=True)

在以上代码中，用户可以将一系列文本输入模型，LUAR-CRUD 将输出表示这些文本的特征向量。这种向量可以进一步用于分析文本的作者风格，识别作者身份等。

作者与引用

该项目及其相关研究论文由 Rafael A. Rivera Soto、Olivia Miano、Juanita Ordonez、Barry Chen、Aleem Khan、Marcus Bishop 和 Nicholas Andrews 等多位作者参与撰写。相关论文已在 2021 年的 EMNLP 会议上发表，具体论文信息可以在这里查阅。

如果您在项目中使用了这个模型，请引用如下参考：

@inproceedings{uar-emnlp2021,
  author    = {Rafael A. Rivera Soto and Olivia Miano and Juanita Ordonez and Barry Chen and Aleem Khan and Marcus Bishop and Nicholas Andrews},
  title     = {Learning Universal Authorship Representations},
  booktitle = {EMNLP},
  year      = {2021},
}

许可

LUAR-CRUD 项目在 Apache License 2.0 协议下发布，所有新贡献也必须遵循该协议。这意味着该项目可以自由使用和改进，并且具有高开放性和兼容性，适合于多种开发和研究需求。