Shifterator: 一个强大的文本比较与可视化工具

Shifterator简介

Shifterator是一个开源的Python库,专门用于创建词移图(word shift graphs)。词移图是一种垂直条形图,可以直观地展示两个文本之间的差异,包括哪些词语贡献了这种差异,以及它们是如何贡献的。这种可视化方法使得文本比较、情感分析和熵分析等任务变得更加直观和可解释。

主要特点

可解释性强: Shifterator生成的词移图能够清晰地展示哪些词语在两个文本间的差异中起主要作用,让分析结果更加透明和易懂。
多种比较指标: 该库支持多种文本比较指标,包括相对频率、Shannon熵、Tsallis熵、Kullback-Leibler散度和Jensen-Shannon散度等。
情感分析支持: Shifterator可以与任何基于词典的情感分析方法结合使用,解析加权平均值的组成部分。
数据诊断: 帮助研究者在早期阶段发现数据中的异常和测量误差。
可视化输出: 生成高质量、发布级别的词移图,为文本比较提供详细的可视化摘要。

安装与使用

Shifterator可以通过pip轻松安装:

pip install shifterator

使用Shifterator创建词移图的基本流程如下:

准备两个文本的词频数据
选择合适的比较指标(如熵、divergence等)
使用Shifterator的相应函数计算词移
绘制词移图并进行解释

例如,使用熵比较两个文本:

import shifterator

# 准备词频数据
text1_freqs = {"word1": 10, "word2": 20, ...}
text2_freqs = {"word1": 15, "word2": 18, ...}

# 计算熵shift
entropy_shift = shifterator.entropy_shift(text1_freqs, text2_freqs)

# 绘制词移图
entropy_shift.get_shift_graphs()

Entropy Shift Graph