项目介绍:phobert-base-vi-sentiment-analysis
项目背景
phobert-base-vi-sentiment-analysis项目旨在为越南语文本提供情感分析支持。情感分析是一种自然语言处理技术,能够自动识别文本中的情感倾向,例如“积极”、“消极”或“中性”。该项目的目标是帮助用户更好地理解和解读越南语文本中的情感内容。
模型描述
该模型能够分析并识别输入文本的情感类别。它可以输出三种情感标签:“积极”、“消极”和“中性”。例如,对以下几句话进行情感分析:
-
天气不太好,又下雨又冷。
- 消极: 0.9596341252326965
- 积极: 0.010115462355315685
- 中性: 0.030250443145632744
-
今天上班很愉快,吃得也很好。
- 消极: 0.002220266032963991
- 积极: 0.9917450547218323
- 中性: 0.006034655496478081
-
很普通,没有什么特别的。
- 消极: 0.03198615834116936
- 积极: 0.05307402461767197
- 中性: 0.9149397611618042
基础模型
本项目基于VinAI的PhoBert-Base模型进行开发。PhoBert-Base是一个专用于越南语自然语言处理的预训练模型,提供了优秀的语言理解能力。
训练数据
该模型使用由linhlpv收集并稍作修改的数据进行训练。数据集来自Kaggle平台,包含31436条产品评价内容,能够提供丰富的训练数据以提升模型的准确性。
模型变体
当前尚无模型变体。
预期使用与局限
该项目的具体使用场景和限制条件尚未明确,但其开放源码的特性使得用户可以根据自己的需求灵活使用该模型。
许可证
该项目是一个开源库,用户可以自由使用它用于任何目的。作者鼓励用户在使用时注明来源,但这并不是强制要求。
使用方法
用户可以通过以下Python代码示例来应用phobert-base-vi-sentiment-analysis模型进行文本情感分析:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
import os
def clear():
os.system('clear')
checkpoint = "mr4/phobert-base-vi-sentiment-analysis"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForSequenceClassification.from_pretrained(checkpoint)
clear()
print("Ngày hôm nay của bạn thế nào?")
val = input("")
raw_inputs = [val]
inputs = tokenizer(raw_inputs, padding=True, truncation=True, return_tensors="pt")
outputs = model(**inputs)
predictions = torch.nn.functional.softmax(outputs.logits, dim=-1)
clear()
print(">>>>>>>>>>>>>>>>>>>>>>>>>>")
for i, prediction in enumerate(predictions):
print(raw_inputs[i])
for j, value in enumerate(prediction):
print(" " + model.config.id2label[j] + ": " + str(value.item()))
print("<<<<<<<<<<<<<<<<<<<<<<<<<<")
联系方式
如有任何疑问或需进一步了解该项目,请通过以下电子邮箱联系:zZz4everzZz@live.co.uk。