[NeurIPS 2023 数据集与基准测试轨道] ChemLLMBench ⚛
《大型语言模型在化学领域能做什么?八项任务的综合基准测试》官方代码仓库。https://arxiv.org/abs/2305.18365
🆕 新闻
- [2023年12月] 我们更新了所有使用的测试数据集,并在每个任务的文件夹中添加了我们使用的提示(以日志格式)。更多详情请查看data/文件夹!
- [2023年9月] 我们的论文已被NeurIPS 2023数据集与基准测试轨道录用!
- [2023年9月] 我们发布了论文的第二版(v2),增加了额外的大型语言模型**(GPT-4、GPT-3.5、Davinci-003、LLama2、Galactica)实验;更多基准测试,以及对SELFIES**和标签解释的更多研究!
- [2023年5月] 我们发布了论文的第一版(v1)!很高兴能分享我们在化学领域大型语言模型方面的研究和见解!
💡 任务概览
📌 提示
以下是我们在论文中使用的提示。尝试您自己设计的提示非常简单!只需在每个任务的Jupyter代码中更改提示,然后我们就可以看到结果和性能。
零样本提示
上下文学习提示
📊 数据集
部分任务的数据集已上传到此代码仓库。 由于大小限制,请按照链接下载这些数据集。下载后,请将这些数据集移至相应文件夹,然后您就可以运行每个任务的Jupyter代码。
数据集 | 链接 | 参考 |
---|---|---|
USPTO_Mixed | 下载 | https://github.com/MolecularAI/Chemformer |
USPTO-50k | 下载 | https://github.com/MolecularAI/Chemformer |
ChEBI-20 | 下载 | https://github.com/blender-nlp/MolT5 |
Suzuki-miyaura | 下载 | https://github.com/seokhokang/reaction_yield_nn |
Butchward-Hariwig | 下载 | https://github.com/seokhokang/reaction_yield_nn |
BBBP,BACE,HIV,Tox21,Clintox | 下载 | https://github.com/hwwang55/MolR |
PubChem | 下载 | https://github.com/ChemFoundationModels/ChemLLMBench/blob/main/data/name_prediction/llm_test.csv |
🤗 引用我们
@misc{guo2023gpt,
title={What indeed can GPT models do in chemistry? A comprehensive benchmark on eight tasks},
author={Taicheng Guo and Kehan Guo and Bozhao Nan and Zhenwen Liang and Zhichun Guo and Nitesh V. Chawla and Olaf Wiest and Xiangliang Zhang},
year={2023},
eprint={2305.18365},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
🤗 联系我们
Taicheng Guo: tguo2@nd.edu
Xiangliang Zhang: xzhang33@nd.edu