Project Icon

simalign

基于嵌入的多语言词对齐工具无需平行训练数据

SimAlign是一种创新的词对齐工具,利用静态和上下文嵌入技术实现高质量对齐,无需平行训练数据。该工具支持ArgMax、IterMax和Match等多种对齐算法,覆盖104种语言。相较于传统统计模型,SimAlign在多个语言对的对齐任务中表现优异。工具基于Python开发,安装和使用便捷,并提供在线演示平台。SimAlign可应用于机器翻译、多语言模型训练等跨语言自然语言处理任务中。

SimAlign: 基于相似度的词对齐器


对齐示例

SimAlign 是一个高质量的词对齐工具,它使用静态和上下文嵌入,无需平行训练数据

下表显示了它与流行的统计对齐模型的对比:

英-捷英-德英-波英-法英-印英-罗
fast-align.78.71.46.84.38.68
eflomal.85.77.63.93.52.72
mBERT-Argmax.87.81.67.94.55.65

显示的是 F1 值,为子词和词级别的最大值。更多详情请参阅论文

安装和使用

已在 Python 3.7、Transformers 3.1.0、Torch 1.5.0 环境下测试。Networkx 2.4 是可选的(仅用于匹配算法)。 完整依赖列表请参见 setup.py。 有关 transformers 的安装,请参阅他们的仓库

下载仓库使用,或者通过 PyPi 安装

pip install simalign

或直接通过 pip 从 GitHub 安装

pip install --upgrade git+https://github.com/cisnlp/simalign.git#egg=simalign

使用我们代码的示例:

from simalign import SentenceAligner

# 创建我们模型的实例。
# 可以在构造函数中指定嵌入模型和所有对齐设置。
myaligner = SentenceAligner(model="bert", token_type="bpe", matching_methods="mai")

# 源语句和目标语句应该被分词成单词。
src_sentence = ["This", "is", "a", "test", "."]
trg_sentence = ["Das", "ist", "ein", "Test", "."]

# 输出是一个包含不同匹配方法的字典。
# 每种方法都有一个列表,表示对齐单词的索引对(对齐从零开始索引)。
alignments = myaligner.get_word_aligns(src_sentence, trg_sentence)

for matching_method in alignments:
    print(matching_method, ":", alignments[matching_method])

# 预期输出:
# mwmf (Match): [(0, 0), (1, 1), (2, 2), (3, 3), (4, 4)]
# inter (ArgMax): [(0, 0), (1, 1), (2, 2), (3, 3), (4, 4)]
# itermax (IterMax): [(0, 0), (1, 1), (2, 2), (3, 3), (4, 4)]

更多使用我们代码的示例,请参见 scripts/align_example.py

演示

在线演示可在此处获得。

黄金标准

论文中使用的黄金标准链接如下:

语言对引用类型链接
英-捷Marecek et al. 2008黄金对齐http://ufal.mff.cuni.cz/czech-english-manual-word-alignment
英-德基于 EuroParl黄金对齐www-i6.informatik.rwth-aachen.de/goldAlignment/
英-波Tvakoli et al. 2014黄金对齐http://eceold.ut.ac.ir/en/node/940
英-法WPT2003, Och et al. 2000,黄金对齐http://web.eecs.umich.edu/~mihalcea/wpt/
英-印WPT2005黄金对齐http://web.eecs.umich.edu/~mihalcea/wpt05/
英-罗WPT2005 Mihalcea et al. 2003黄金对齐http://web.eecs.umich.edu/~mihalcea/wpt05/

评估脚本

使用 scripts/calc_align_score.py 评估输出的对齐结果。

黄金对齐文件应与 SimAlign 输出格式相同。 黄金标准中的确定对齐边用 '-' 连接源和目标索引,可能的边用 'p' 连接索引。 有关英-德的样本平行句子及其黄金对齐,请参见 samples

出版物

如果您使用此代码,请引用

@inproceedings{jalili-sabet-etal-2020-simalign,
    title = "{S}im{A}lign: High Quality Word Alignments without Parallel Training Data using Static and Contextualized Embeddings",
    author = {Jalili Sabet, Masoud  and
      Dufter, Philipp  and
      Yvon, Fran{\c{c}}ois  and
      Sch{\"u}tze, Hinrich},
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.findings-emnlp.147",
    pages = "1627--1643",
}

反馈

非常欢迎反馈和贡献!请联系 @masoudjs 或 @pdufter。

常见问题

我需要平行数据来训练系统吗?

不需要,无需平行训练数据。

可以对齐哪些语言?

这取决于使用的底层预训练多语言模型。例如,如果使用 mBERT,它涵盖了 104 种语言,如此处所列。

运行这个需要 GPU 吗?

每次对齐只需要在预训练语言模型中进行一次前向传播。虽然在 GPU 上确实更快,但在 CPU 上运行也很好。在一块 GPU(GeForce GTX 1080 Ti)上,对齐 500 个平行句子大约需要 15-20 秒。

许可证

版权所有 (C) 2020,Masoud Jalili Sabet,Philipp Dufter

完整的许可证可在 LICENSE 中找到。

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计 是一个多功能的在线设计和创意平台,提供广泛的设计工具和资源,以满足不同用户的需求。从专业的图形设计师到普通用户,无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑,稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合,帮助用户轻松实现创意设计。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号