#SMILES
guacamol_baselines
GuacaMol Baselines项目为化学生成任务评估提供多种基准模型实现。包含随机采样、ChEMBL最佳选择、SMILES和图遗传算法、图蒙特卡洛树搜索以及SMILES LSTM变体等方法。项目配备预训练模型、数据集脚本和Docker容器,便于研究人员部署和比较各类生成模型。
smilesDrawer
SmilesDrawer是一款基于SMILES的轻量级分子结构绘制工具,无需服务器、图片或模板即可运行。该工具支持绘制分子、反应和结构高亮,提供学习资源和样式自定义选项。SmilesDrawer可集成到多个前端框架中,如Svelte。它具有可配置的颜色主题,支持复杂环系的实验性绘制,并可通过CDN或npm方便安装。这一工具为化学信息学研究提供了实用的分子可视化解决方案。
DECIMER-Image_Transformer
DECIMER-Image_Transformer项目结合EfficientNet V2和Transformer模型,开发了用于化学结构图像识别的先进深度学习方法。该项目优化了数据处理流程,采用TPU加速训练,提高了SMILES预测效率。这一创新为化学文献的自动化分析和结构识别提供了新的研究方向,推动了化学信息学领域的发展。
ChemBERTa-zinc-base-v1
ChemBERTa-zinc-base-v1是一个专注于化学分子结构分析的深度学习模型。通过对大规模分子数据的训练,该模型能够进行分子结构预测,并支持毒性、溶解度、药物相似性等化学特性分析。模型创新地将自然语言处理技术应用于化学领域,为研究人员提供了一个高效的分子结构分析工具。
MoLFormer-XL-both-10pct
MoLFormer是一个在ZINC和PubChem数据集上训练的化学语言模型,通过处理11亿分子的SMILES表示实现分子特征学习。模型采用线性注意力机制与旋转位置编码,在MoleculeNet的11个基准任务中展现优异性能。该模型可应用于分子相似度分析、特征提取及分子性质预测,适用于200原子以下的小分子研究。