项目介绍:text2sql-data
text2sql-data 项目是一个数据和代码库,旨在帮助开发和评估将自然语言句子转换为 SQL 语句的系统。这个项目是《改进文本到 SQL 的评估方法》研究的一部分,并在 2018 年的 ACL 会议上进行了发表,由多位学者共同完成。
项目的主要内容
text2sql-data 项目为多个领域提供了以下关键资源:
- 带有注解变量的自然语言句子
- 对应的 SQL 查询
- 数据库模式
- 数据库
这些数据集是对之前数据集的改进,并包括一个新的数据集。项目中提供了不同版本的数据,最新的版本是第 4 版,包含之前版本中的修复数据以及新增的数据资源,如 Spider 和 WikiSQL。
数据集版本说明
- 版本 1:用作 2018 年 ACL 论文的数据
- 版本 2:修复了问题中变量错误定义的数据
- 版本 3:修复数据并新增了 Spider 和 WikiSQL 数据
- 版本 4:进一步的数据修复
关于引用
如果在您的工作中使用了 text2sql-data 项目的数据,建议引用他们的 ACL 论文以及相应的原始数据源,并注明所用数据版本。项目提供了详细的引用格式示例,方便研究人员在自己的论文中正确地引述相关工作。
贡献与维护
项目团队在修复数据集错误方面做了大量的工作,但数据集仍可能存在不足之处。如果用户发现了错误,欢迎通过提交修复请求来改善数据集。项目采用了一种维持系统间对比清晰又能持续改进数据的方法,即在开发分支中合并修复,随后才少量更新主分支。
相关支持
text2sql-data 项目的部分工作获得了 IBM 公司的支持,但项目中的观点和结论完全由作者负责,不代表 IBM 的官方立场。
这个项目为希望在 SQL 生成领域进行研究和开发的研究人员和开发人员提供了一个重要的资源,与此同时,也邀请社区参与到数据的持续改进中来,为技术的发展做出贡献。