lt-wikidata-comp-en项目介绍
项目概述
lt-wikidata-comp-en项目是基于LinkTransformer模型的应用,该模型以简化和加快记录链接(实体匹配)为目标。此工具能够执行聚类、去重、链接和聚合等任务。虽然其主要功能集中于输入数据的相似性测量,但它也可以用于更广泛的语句相似度任务。
LinkTransformer模型本质上是一个句子转换器模型,它将句子或段落映射到768维的稠密向量空间。这种映射支持模型在多个应用场景中如聚类或语义搜索中使用。
使用领域
-
公司别名匹配:通过WikiData数据集中的公司别名对模型进行训练,模型可以用于解决公司名称书写不同的情况下的匹配问题。
-
句子相似度任务:支持各种需要测量语句相似度的应用,例如聚类和语义搜索。
-
数据去重与聚合:提供对数据集去重和结合细分类别(如商品)与粗分类别(如HS编码)的解决方案。
模型训练
此模型在LinkTransformer框架下使用来自WikiData的数据集进行训练,训练历时100个周期。使用SupCon loss来优化模型表现,具体的训练参数配置可以在项目的LT_training_config.json文件中找到。
模型使用
要方便地使用模型,可以安装LinkTransformer工具包。以下是一个简单的使用示例:
import linktransformer as lt
import pandas as pd
## 加载需要链接的两个数据框,这里以不同书写的公司名称为例
df1 = pd.read_csv("data/df1.csv")
df2 = pd.read_csv("data/df2.csv")
## 在关键列合并两个数据框
df_merged = lt.merge(df1, df2, on="CompanyName", how="inner")
## 完成后,合并的数据框中将包含一个“score”列,显示两个公司名称之间的相似度分数
评估
项目提供了一些数据集支持评估,可以使用LinkTransformer的推理函数评估模型效能。未来会有更多的数据集在Huggingface和官网上线。
论文引用
若使用此项目中的技术,建议引用相关论文:
@misc{arora2023linktransformer,
title={LinkTransformer: A Unified Package for Record Linkage with Transformer Language Models},
author={Abhishek Arora and Melissa Dell},
year={2023},
eprint={2309.00789},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
总体来说,lt-wikidata-comp-en项目通过句子转换模型和高效的算法设计,为解决各种相似性测量任务提供了简单而强大的工具。