项目介绍:Awesome Simultaneous Translation
项目概述
Awesome Simultaneous Translation 是一个专注于同时翻译研究的资源库,汇集了各种工具包、数据集以及相关的学术论文列表。该项目持续更新,致力于为研究人员提供有价值的参考和帮助。
工具包
- Fairseq:这是一个序列建模工具包,涵盖机器翻译、语音翻译和同时翻译(包括文本到文本和语音到文本两种形式)。
- SimulEval:这是一个通用的评价框架,用于对文本和语音翻译进行同时翻译的评估。
数据集
该项目包含几类常用的数据集,以便于各种翻译研究的进行:
文本到文本翻译数据集
- IWSLT15 英语-越南语:包含13.3万对句子对。
- WMT15 德语-英语:包含450万对句子对。
- WMT14 英语-法语:包含3630万对句子对。
语音到文本翻译数据集
- MuST-C:一个多语种语音到文本翻译语料库,包含8种语言对。
语音到语音翻译数据集
- CVSS:一个大规模的多语种到英语的语音到语音翻译语料库。
同步翻译数据集
- BSTC 中文-英语:包含68小时的语料。
- NAIST-SIC 英语-日语:包含22小时的语料。
教程与演讲
项目中还收录了有关同时翻译的教学资源和演讲。例如:
- PACLIC 2016的演讲《The Challenge of Simultaneous Speech Translation》。
- EMNLP 2020的教程《Simultaneous Translation》。
- AMTA 2020的演讲《Simultaneous Speech Translation in Google Translate》。
论文列表
项目中还整理了一系列关于同时翻译的学术研究论文,按发表年份和不同类别进行分类,供研究人员查阅。
工作坊
项目也收录了多个与同时翻译相关的学术会议和工作坊的研究成果。例如:
- IWSLT 2020, 2021, 2022等多年的同时翻译工作坊。
- AutoSimTrans系列的自动同步翻译工作坊。
此项目旨在为同时翻译领域的研究者提供一个综合信息的资源平台,支持不同层次的研究和开发工作。
如果您对该项目有任何建议或需求,可以随时通过项目联系信息与维护者联系。希望这庞大而丰富的信息库能够促进同时翻译技术的发展和应用。