tomotopy - 最优性能的Python主题模型库

项目介绍

什么是 tomotopy？

Tomotopy 是一个基于 Python 的主题建模工具库，作为 Tomoto（一个基于 Gibbs 采样的主题建模工具库）的扩展而开发。Tomotopy 使用 C++ 编写，并利用现代 CPU 的向量化特性来最大化运算速度。它支持多种主要的主题模型，包括：

潜在狄利克雷分配 (tomotopy.LDAModel)
带标签的 LDA (tomotopy.LLDAModel)
部分标签的 LDA (tomotopy.PLDAModel)
监督型 LDA (tomotopy.SLDAModel)
狄利克雷多项式回归 (tomotopy.DMRModel)
广义狄利克雷多项式回归 (tomotopy.GDMRModel)
层次狄利克雷过程 (tomotopy.HDPModel)
层次LDA (tomotopy.HLDAModel)
多粒度LDA (tomotopy.MGLDAModel)
柏青哥分配 (tomotopy.PAModel)
层次柏青哥分配 (tomotopy.HPAModel)
关联主题模型 (tomotopy.CTModel)
动态主题模型 (tomotopy.DTModel)
基于伪文档的主题模型 (tomotopy.PTModel)

开始使用

Tomotopy 可以通过 pip 轻松安装，支持的操作系统和 Python 版本包括：

Linux (x86-64) + Python >= 3.6
macOS >= 10.13 + Python >= 3.6
Windows 7 或更高版本 (x86, x86-64) + Python >= 3.6
其他操作系统需要从源代码编译（需要支持 c++14 的编译器）

安装完成后，用户可以通过导入该库开始使用。例如，一个简单的 LDA 训练示例代码如下：

import tomotopy as tp

mdl = tp.LDAModel(k=20)
for line in open('sample.txt'):
    mdl.add_doc(line.strip().split())

for i in range(0, 100, 10):
    mdl.train(10)
    print('Iteration: {}\tLog-likelihood: {}'.format(i, mdl.ll_per_word))

for k in range(mdl.k):
    print('Top 10 words of topic #{}'.format(k))
    print(mdl.get_topic_words(k, top_n=10))

mdl.summary()

性能表现

Tomotopy 使用折叠的 Gibbs 采样方法来推断主题分布和词分布。虽然 Gibbs 采样通常比变分贝叶斯收敛得慢，但每次迭代的计算速度更快。此外，Tomotopy 还可以利用多核 CPU 和 SIMD 指令集来加速计算。测试表明，即使在迭代次数明显更多的情况下，Tomotopy 的整体运行时间仍比 gensim 快 5 到 10 倍。

模型保存与加载

Tomotopy 允许通过 save 和 load 方法保存和重新加载模型。例如：

import tomotopy as tp

mdl = tp.HDPModel()
for line in open('sample.txt'):
    mdl.add_doc(line.strip().split())

mdl.train(100)
mdl.save('sample_hdp_model.bin')

mdl = tp.HDPModel.load('sample_hdp_model.bin')
for k in range(mdl.k):
    if not mdl.is_live_topic(k): continue
    print('Top 10 words of topic #{}'.format(k))
    print(mdl.get_topic_words(k, top_n=10))

互动式模型查看器

自 v0.13.0 版本开始，Tomotopy 导入了交互式模型查看器功能，可以运行如下代码进行访问：

import tomotopy as tp
model = tp.LDAModel(...)
# ... 一些训练代码 ...
tp.viewer.open_viewer(model, host="localhost", port=9999)

使用主题模型进行推断

对于未见过的文档，可以使用已训练模型推断其主题分布：

mdl = tp.LDAModel(k=20)
# 添加训练文档
mdl.train(100)
doc_inst = mdl.make_doc(unseen_doc)
topic_dist, ll = mdl.infer(doc_inst)
print("Unseen Doc's Topic Distribution: ", topic_dist)

版本历史

自最初发布以来，Tomotopy 不断发展，不仅增加了新功能和模型支持，还修复了诸多问题。最新版本为 v0.13.0，改进了主题模型查看器功能，优化了模型加载和保存的速度。Tomotopy 被授权在 MIT 许可证下使用和分发。

示例与文档

用户可以在 GitHub 仓库找到更多示例代码和数据文件。Tomotopy 的详细文档说明了每个函数和方法的使用方法，为开发者提供了极大的便利性。整体而言，Tomotopy 是一个功能强大且表现优异的主题建模工具库，适合有相关需求的研究人员和开发者使用。