圣经语料库
一个从圣经翻译创建的多语言平行语料库。
在这里,您可以找到一个从圣经翻译创建的多语言平行语料库。这是一项努力,旨在创建一个包含尽可能多语言的平行语料库,可用于多种自然语言处理任务。通过使用书卷、章节和经文索引,该语料库在(几乎)句子级别上对齐。(在某些情况下,一种语言的两节经文在另一种语言中被翻译为一节。)
继马里兰大学的Philip Resnik和Mari Broman Olsen的类似努力之后,我使用语料编码标准将每种语言的文本编码为XML文件。有关语料库创建的更多详细信息,请参阅以下论文:
- 《一个大规模平行语料库:100种语言的圣经》,Christos Christodoulopoulos和Mark Steedman,《语言资源与评估》,49 (2)
来自歌德大学文本技术实验室的Armin Hoenen创建了四种语言(中文、日语、泰语、越南语)的分词版本。它们包含在这个集合中,但也可以在这里找到。
如果您想快速生成每本圣经的原始文本版本,可以使用以下Python代码片段(将lang
替换为XML文件的名称):
import xml.etree.ElementTree as ET
lang = 'English'
root = ET.fromstring(open(lang + '.xml').read())
with open(lang + '.txt', 'w', encoding='utf-8') as out:
for n in root.iter('seg'):
out.write(n.text.strip() + '\n')
或者针对特定书卷:
book_id = 'b.GEN'
with open(lang + '-' + book_id + '.txt', 'w', encoding='utf-8') as out:
for n in root.findall('.//div[@id="'+book_id+'"]/*seg'):
out.write(n.text.strip() + '\n')
点击此链接获取用于读取/处理语料库的工具集合。