:earth_americas: 我们的进展:
- 量子力学:19443个配体,经过筛选和优化
- 分子动力学:16972个模拟的蛋白质-配体结构,每个10 ns
- 人工智能:pytorch数据加载器,3个用于MD和QM的基准模型以及结合亲和力预测
:electron: 愿景:
我们是一个药物发现社区项目 :hugs:
- 实现配体分子的最高可能精度
- 在合理的时间尺度内表示系统动力学
- 创新的人工智能模型用于药物发现预测
让我们一起突破100+ ns的MD,30000+蛋白质-配体结构,以及一个全新的药物发现人工智能模型世界。
:purple_heart: 社区
想要亲身体验使用人工智能进行药物发现吗?
查看我们的Hugging Face spaces以运行和可视化适应性模型,并进行QM属性预测。
📌 简介
在这个仓库中,我们展示如何下载和应用Misato数据库进行人工智能建模。您可以访问不同蛋白质-配体结构的计算属性,并在基于Pytorch的数据加载器中使用它们进行训练。我们在仓库中提供了数据集的一个小样本。
您可以从Zenodo免费下载完整的MISATO数据集,使用以下链接:
- MD (133 GiB)
- QM (0.3 GiB)
- 电子密度 (6 GiB)
- MD重启和拓扑文件 (55 GiB)
wget -O data/MD/h5_files/MD.hdf5 https://zenodo.org/record/7711953/files/MD.hdf5
wget -O data/QM/h5_files/QM.hdf5 https://zenodo.org/record/7711953/files/QM.hdf5
从src/getting_started.ipynb笔记本开始,以:
- 了解我们数据集的结构以及如何访问每个分子的属性。
- 加载每个数据集的PyTorch数据加载器。
- 加载每个数据集的PyTorch lightning数据模块。
🚀 快速开始
我们建议从DockerHub拉取我们的MISATO镜像或创建您自己的镜像(参见docker/)。这些镜像使用cuda版本11.8。我们建议在您自己的系统上安装至少11.8版本的CUDA,以确保驱动程序正常工作。
# 克隆项目
git clone https://github.com/t7morgen/misato-dataset.git
cd misato-dataset
对于singularity,使用:
# 获取容器镜像
singularity pull docker://sab148/misato-dataset
singularity shell misato.sif
对于docker,使用:
sudo docker pull sab148/misato-dataset:latest
bash docker/run_bash_in_container.sh
项目结构
├── data <- 项目数据
│ ├──MD
│ │ ├── h5_files <- 数据集存储
│ │ └── splits <- 训练、验证、测试集划分
│ └──QM
│ │ ├── h5_files <- 数据集存储
│ │ └── splits <- 训练、验证、测试集划分
│
├── src <- 源代码
│ ├── data
│ │ ├── components <- 数据集和转换
│ │ ├── md_datamodule.py <- MD Lightning数据模块
│ │ ├── qm_datamodule.py <- QM Lightning数据模块
│ │ │
│ │ └── processing <- 预处理、推理和转换脚本
│ │ ├──...
│ ├── getting_started.ipynb <- 笔记本:如何加载数据并与之交互
│ └── inference.ipynb <- 笔记本:如何运行推理
│
├── docker <- Dockerfile和执行脚本
└── README.md
使用您自己的conda环境进行安装
如果您想使用conda进行自己的安装,请创建一个新的misato环境。
为了安装pytorch geometric,我们建议在conda内使用pip进行安装,并遵循官方安装说明:pytorch-geometric/install
根据您的CUDA版本,安装说明可能会有所不同。我们展示了CUDA 11.8的示例。
conda create --name misato python=3
conda activate misato
conda install -c anaconda pandas pip h5py
pip3 install torch --index-url https://download.pytorch.org/whl/cu118 --no-cache
pip install joblib matplotlib
pip install pyg_lib torch_scatter torch_sparse torch_cluster torch_spline_conv -f https://data.pyg.org/whl/torch-2.0.0+cu118.html
pip install pytorch-lightning==1.8.3
pip install torch-geometric
pip install ipykernel==5.5.5 ipywidgets==7.6.3 nglview==2.7.7
conda install -c conda-forge nb_conda_kernels
要运行MD推理,您必须安装ambertools。我们建议在单独的conda环境中安装它。
conda create --name ambertools python=3
conda activate ambertools
conda install -c conda-forge ambertools nb_conda_kernels
pip install h5py jupyter ipykernel==5.5.5 ipywidgets==7.6.3 nglview==2.7.7
引用
如果您觉得这项工作有用,请考虑引用这篇文章。
@article{siebenmorgen2024misato,
title={MISATO: machine learning dataset of protein--ligand complexes for structure-based drug discovery},
author={Siebenmorgen, Till and Menezes, Filipe and Benassou, Sabrina and Merdivan, Erinc and Didi, Kieran and Mour{\~a}o, Andr{\'e} Santos Dias and Kitel, Rados{\l}aw and Li{\`o}, Pietro and Kesselheim, Stefan and Piraud, Marie and others},
journal={Nature Computational Science},
pages={1--12},
year={2024},
publisher={Nature Publishing Group US New York}
}