Project Icon

topaz

冷冻电镜图像颗粒检测和去噪的神经网络工具

Topaz是一个用于冷冻电镜图像分析的开源工具。它使用卷积神经网络进行颗粒检测,并提供显微图和断层图去噪功能。Topaz的处理流程包括图像预处理、模型训练、分割和颗粒提取。该工具支持GPU加速,可通过多种方式安装。Topaz为冷冻电镜数据处理提供了全面的解决方案,助力结构生物学研究。

Python 包 文档状态 Anaconda-Server 徽章 Anaconda-Server 徽章

Topaz

一个使用卷积神经网络从正样本和未标记样本中训练,用于冷冻电子显微镜图像中进行粒子检测的流程。Topaz还包括使用深度去噪模型对显微图和断层图进行去噪的方法。

请查看我们的讨论部分,获取使用Topaz的一般帮助、建议和技巧。您也可以在这里找到我们的文档网站。

v0.2.5 新功能

  • 添加了Relion集成脚本
  • Topaz extract现在可以将粒子坐标写入每个输入显微图的一个文件中
  • 在3D去噪后添加了高斯滤波选项
  • 添加了Topaz工作坊的信息
  • 更新了Topaz图形用户界面
  • 修复了各种bug

v0.2.4 新功能

  • 添加了使用__topaz denoise3d__进行3D去噪的功能和两个预训练的3D去噪模型
  • 为多线程命令添加了设置线程数的参数
  • 更新了Topaz图形用户界面
  • 修复了各种bug

v0.2.3 新功能

  • 改进了预训练的去噪模型
  • Topaz现在包含预训练的粒子拾取模型
  • 更新了教程
  • 更新了图形用户界面以包含去噪命令
  • 去噪论文预印本可在这里查看

v0.2.2 新功能

  • Topaz论文已发表,可在这里查看
  • 修复了bug并更新了图形用户界面

v0.2.0 新功能

  • Topaz现在支持最新版本的pytorch (>= 1.0.0)。如果您为旧版本的topaz安装了pytorch,需要进行升级。详情请参见安装说明。
  • 添加了__topaz denoise__命令,用于使用神经网络对显微图进行去噪。
  • 改进了图形用户界面的可用性。

先决条件

  • 支持CUDA的Nvidia GPU,用于GPU加速。

  • 基本的Unix/Linux知识。

安装

(推荐)点击这里使用Anaconda安装

如果您没有Anaconda Python发行版,请按照他们网站上的说明进行安装

我们强烈建议将Topaz安装到单独的conda环境中。要为Topaz创建一个conda环境:

conda create -n topaz python=3.6 # 如果您喜欢Python 2,可以使用2.7
source activate topaz # 这会切换到topaz conda环境,如果anaconda版本 >= 4.4且配置正确,可以使用'conda activate topaz'
# source deactivate # 返回到基础conda环境

有关conda环境的更多信息可以在这里找到。

安装Topaz

要安装预编译的Topaz包及其依赖项(包括pytorch):

conda install topaz -c tbepler -c pytorch

这会从官方渠道安装pytorch。要为特定CUDA版本安装pytorch,您需要添加'cudatoolkit=X.X'包。例如,要为CUDA 9.0安装pytorch:

conda install cudatoolkit=9.0 -c pytorch

或者将其合并为一个命令:

conda install topaz cudatoolkit=9.0 -c tbepler -c pytorch

有关pytorch安装的其他说明,请参见这里

就是这样!Topaz现在已经安装在您的anaconda环境中了。

点击这里使用Pip安装

我们强烈建议将Topaz安装到_虚拟环境_中。请参见virtualenv的安装说明用户指南

安装Topaz

要为Python 3.X安装Topaz

pip3 install topaz-em

为Python 2.7安装

pip install topaz-em

有关pytorch安装的其他说明,包括如何为特定CUDA版本安装pytorch,请参见这里

就是这样!Topaz现在已通过pip安装完成。

点击这里使用Docker安装

您是否已安装Docker?如果没有,请点击这里

Linux/MacOS    (命令行)

下载并安装Docker 1.21或更高版本,适用于LinuxMacOS

考虑使用Docker的"便捷脚本"进行安装(在您操作系统的Docker安装网页上搜索)。

根据您的Docker引擎说明启动docker,通常是 docker start

注意: 您必须具有sudo或root权限才能安装Docker。如果您不希望以sudo/root身份运行Docker,则需要按照以下说明配置用户组:https://docs.docker.com/install/linux/linux-postinstall/

Windows    (图形界面和命令行)

下载并安装适用于Windows的Docker Toolbox

启动Kitematic。

如果在首次启动时Kitematic显示红色错误,建议您使用VirtualBox运行,请照做。

注意: 适用于MacOS的Docker Toolbox尚未经过测试。

Docker是什么?

这个教程解释了为什么Docker很有用。


提供了一个Dockerfile来构建具有CUDA支持的镜像。从github仓库构建:

docker build -t topaz https://github.com/tbepler/topaz.git

或下载源代码并从源目录构建

git clone https://github.com/tbepler/topaz
cd topaz
docker build -t topaz .

点击这里使用Singularity安装

Topaz的预构建Singularity镜像可在此处获取,并可通过以下命令安装:

singularity pull shub://nysbc/topaz

然后,您可以在singularity镜像中运行topaz(需适当更改路径):

singularity exec --nv -B /mounted_path:/mounted_path /path/to/singularity/container/topaz_latest.sif /usr/local/conda/bin/topaz

点击此处从源代码安装

建议:将Topaz安装到Python虚拟环境中 关于如何设置虚拟环境,请参见https://conda.io/docs/user-guide/tasks/manage-environments.htmlhttps://virtualenv.pypa.io/en/stable/。

安装依赖项

已在Python 3.6和2.7版本上测试

  • pytorch (>= 1.0.0)
  • torchvision
  • pillow (>= 6.2.0)
  • numpy (>= 1.11)
  • pandas (>= 0.20.3)
  • scipy (>= 0.19.1)
  • scikit-learn (>= 0.19.0)

使用conda可轻松安装依赖项

conda install numpy pandas scikit-learn
conda install -c pytorch pytorch torchvision

有关为您的CUDA版本安装pytorch的更多信息,请参见https://pytorch.org/get-started/locally/

下载源代码

git clone https://github.com/tbepler/topaz

安装Topaz

进入源代码目录

cd topaz

默认情况下,这将是最新版本的topaz源代码。要安装特定的旧版本,请检出该提交。例如,对于Topaz的v0.1.0版本:

git checkout v0.1.0

请注意,较旧的Topaz版本可能有不同的依赖项。请参阅特定Topaz版本的README。

将Topaz安装到您的Python路径中,包括topaz命令行界面

pip install .

要进行开发安装,请使用

pip install -e .

Topaz也可通过SBGrid获得。

教程

教程以Jupyter笔记本的形式呈现。请按照此处的说明安装Jupyter。

  1. 快速入门指南
  2. 完整演练
  3. 交叉验证
  4. 电镜图像去噪

教程数据可以从这里下载。

要在您自己的系统上运行教程步骤,您需要安装Jupyter和用于可视化的matplotlib

使用Anaconda可以通过以下方式完成:

conda install jupyter matplotlib

如果您使用anaconda安装了Topaz,请确保这些包安装在您的Topaz环境中。

用户指南

点击此处查看Topaz管道及其命令的描述

命令行界面的结构是一个单一的入口命令(topaz),不同的步骤被定义为子命令。下面提供了一个一般使用指南,简要说明了颗粒拾取管道中最重要的子命令。

要查看所有子命令的列表及其简要描述,请运行topaz --help

图像预处理

降采样(topaz downsample)

建议在模型训练和预测之前对图像进行降采样和归一化。

降采样脚本使用离散傅里叶变换来降低图像的空间分辨率。可以这样使用:

topaz downsample --scale={降采样因子} --output={输出图像路径} {输入图像路径} 
用法: topaz downsample [-h] [-s SCALE] [-o OUTPUT] [-v] file

位置参数:
  file

可选参数:
  -h, --help            显示此帮助消息并退出
  -s SCALE, --scale SCALE
                        降采样因子(默认: 4)
  -o OUTPUT, --output OUTPUT
                        输出文件
  -v, --verbose         打印信息

归一化(topaz normalize)

然后可以使用normalize脚本对图像进行归一化。此脚本拟合一个两分量高斯混合模型,并为每个图像添加一个额外的缩放乘数,以捕获碳膜像素并考虑曝光差异。然后通过将每个图像除以其缩放因子,再减去主要高斯混合分量的均值并除以其标准差来调整像素值。可以这样使用:

topaz normalize --destdir={存放归一化图像的目录} [图像文件列表]
用法: topaz normalize [-h] [-s SAMPLE] [--niters NITERS] [--seed SEED]
                       [-o DESTDIR] [-v]
                       files [files ...]

位置参数:
  files

可选参数:
  -h, --help            显示此帮助消息并退出
  -s SAMPLE, --sample SAMPLE
                        模型拟合的像素采样因子(默认: 100)
  --niters NITERS       模型拟合运行的迭代次数(默认: 200)
  --seed SEED           模型初始化的随机种子(默认: 1)
  -o DESTDIR, --destdir DESTDIR
                        输出目录
  -v, --verbose         详细输出

单步预处理(topaz preprocess)

可以使用preprocess脚本在一个步骤中完成降采样和归一化。

topaz preprocess --scale={降采样因子} --destdir={存放处理后图像的目录} [图像文件列表]
用法: topaz preprocess [-h] [-s SCALE] [-t NUM_WORKERS]
                        [--pixel-sampling PIXEL_SAMPLING] [--niters NITERS]
                        [--seed SEED] -o DESTDIR [-v]
                        files [files ...]

位置参数:
  files

可选参数:
  -h, --help            显示此帮助消息并退出
  -s SCALE, --scale SCALE
                        图像降采样的重缩放因子(默认: 4)
  -t NUM_WORKERS, --num-workers NUM_WORKERS
                        用于并行图像降采样的进程数(默认: 0)
  --pixel-sampling PIXEL_SAMPLING
                        模型拟合的像素采样因子(默认: 100)
  --niters NITERS       模型拟合运行的迭代次数(默认: 200)
  --seed SEED           模型初始化的随机种子(默认: 1)
  -o DESTDIR, --destdir DESTDIR
                        输出目录
  -v, --verbose         详细输出

模型训练

文件格式

训练脚本需要一个列出图像文件路径的文件和另一个列出颗粒坐标的文件。坐标从图像左上角开始索引。这些文件应该是制表符分隔的,带有以下标题:

图像文件列表

image_name	path
...

颗粒坐标

image_name	x_coord	y_coord
...

使用标记的颗粒训练区域分类器(topaz train)

使用topaz train命令训练模型。有关完整的训练参数列表,请参见

topaz train --help

分割和颗粒提取

图像分割(topaz segment,可选)

可以使用训练好的模型通过 topaz segment 命令对图像进行分割。

用法: topaz segment [-h] [-m MODEL] [-o DESTDIR] [-d DEVICE] [-v]
                     paths [paths ...]

位置参数:
  paths                 待处理图像文件的路径

可选参数:
  -h, --help            显示此帮助信息并退出
  -m MODEL, --model MODEL
                        训练好的分类器路径
  -o DESTDIR, --destdir DESTDIR
                        输出目录
  -d DEVICE, --device DEVICE
                        使用哪个设备,<0 对应 CPU(默认:如果可用则使用 GPU)
  -v, --verbose         详细模式

粒子提取(topaz extract)

可以直接从保存的分割图像中提取预测的粒子坐标(见上文),或者使用 topaz extract 命令通过训练好的模型在一个步骤中完成图像分割和粒子提取。

用法: topaz extract [-h] [-m MODEL] [-r RADIUS] [-t THRESHOLD]
                     [--assignment-radius ASSIGNMENT_RADIUS]
                     [--min-radius MIN_RADIUS] [--max-radius MAX_RADIUS]
                     [--step-radius STEP_RADIUS] [--num-workers NUM_WORKERS]
                     [--targets TARGETS] [--only-validate] [-d DEVICE]
                     [-o OUTPUT]
                     paths [paths ...]

位置参数:
  paths                 待处理图像文件的路径

可选参数:
  -h, --help            显示此帮助信息并退出
  -m MODEL, --model MODEL
                        训练好的子图像分类器路径,如果没有提供模型,输入图像必须已经分割
  -r RADIUS, --radius RADIUS
                        提取区域的半径
  -t THRESHOLD, --threshold THRESHOLD
                        终止区域提取的分数分位数阈值(默认:0.5)
  --assignment-radius ASSIGNMENT_RADIUS
                        预测和标记目标之间允许匹配的最大距离(默认:与提取半径相同)
  --min-radius MIN_RADIUS
                        调整半径参数时的最小区域提取半径(默认:5)
  --max-radius MAX_RADIUS
                        调整半径参数时的最大区域提取半径(默认:100)
  --step-radius STEP_RADIUS
                        搜索最佳半径参数时的网格大小(默认:5)
  --num-workers NUM_WORKERS
                        用于并行提取的进程数,0 表示使用主进程(默认:0)
  --targets TARGETS     指定粒子坐标的文件路径。用于找到使 AUPRC 最大化的提取半径
  --only-validate       仅计算验证指标的标志。不报告完整的预测列表
  -d DEVICE, --device DEVICE
                        使用哪个设备,<0 对应 CPU
  -o OUTPUT, --output OUTPUT
                        输出文件路径

该脚本使用非极大值抑制算法贪婪地选择粒子坐标,并从候选列表中移除附近的坐标。这个过程涉及两个额外的参数:

  • radius:被选中坐标周围该参数范围内的坐标会从候选列表中移除
  • threshold:指定停止提取的分数分位数阈值

给定一组已知的粒子坐标,可以通过寻找使平均精度分数最大化的半径来自动调整半径参数。在这种情况下,预测的坐标必须分配给目标坐标,这需要一个额外的距离阈值(--assignment-radius)。

选择最终粒子列表阈值(topaz precision_recall_curve)

使用 Topaz 提取的粒子仍然具有相关的分数,应通过选择高于某个分数阈值的粒子来确定最终的粒子列表。topaz precision_recall_curve 命令可以通过报告预测粒子坐标列表和已知目标坐标列表的精确率-召回率曲线来辅助这一过程。然后可以在一组保留的显微图上选择阈值来优化 F1 分数或特定的召回率/精确率水平。

用法: topaz precision_recall_curve [-h] [--predicted PREDICTED]
                                    [--targets TARGETS] -r ASSIGNMENT_RADIUS

可选参数:
  -h, --help            显示此帮助信息并退出
  --predicted PREDICTED
                        包含预测粒子坐标及其分数的文件路径
  --targets TARGETS     指定目标粒子坐标的文件路径
  -r ASSIGNMENT_RADIUS, --assignment-radius ASSIGNMENT_RADIUS
                        预测和标记目标之间允许匹配的最大距离

模型架构

目前,有几种可用于区域分类器的模型架构:

  • resnet8 [感受野 = 71]
  • conv127 [感受野 = 127]
  • conv63 [感受野 = 63]
  • conv31 [感受野 = 31]

ResNet8 在性能和感受野大小之间提供了良好的平衡。当需要较少复杂的模型时,Conv63 和 Conv31 可能是更好的选择。

基础层的单元数可以通过 --units 标志设置。ResNet8 在图像处理过程中进行步进时总是将单元数翻倍。Conv31、Conv63 和 Conv127 默认不这样做,但可以使用 --unit-scaling 标志来设置步进时单元数的乘法因子。

可以更改 conv* 模型的池化方案。默认不进行任何池化,但可以通过指定 "--pooling=max" 或 "--pooling=avg" 来使用最大池化或平均池化。

要查看架构的详细布局,请使用 --describe 标志。

训练方法

PN 方法选项将每个未标记为正(y=1)的坐标都视为负(y=0),然后优化标准分类目标: $$ \piE_{y=1}[L(g(x),1)] + (1-\pi)E_{y=0}[L(g(x),0)] $$ 其中 $\pi$ 是权衡正例和负例的参数,$L$ 是错误分类成本函数,$g(x)$ 是模型输出。

GE-binomial 方法选项将未标记为正(y=1)的坐标视为未标记(y=?),然后优化包含通用期望准则的目标,该准则旨在与小批量 SGD 配合良好。

GE-KL 方法选项将未标记为正(y=1)的坐标视为未标记(y=?),然后优化目标: $$ E_{y=1}[L(g(x),1)] + \lambdaKL(\pi, E_{y=?}[g(x)]) $$ 其中 $\lambda$ 是松弛参数(--slack 标志),指定对未标记数据上分类器期望与 $\pi$ 之间的 KL 散度的权重。

PU 方法使用 Kiryo 等人(2017)提出的目标函数。

半径

这设置了每个粒子坐标周围多少像素被视为正例,作为一种数据增强形式。这些坐标遵循一种分布,这种分布是在标记数据时选择哪个像素作为粒子中心的结果。应选择半径足够大,以覆盖可能被选择的像素的合理区域,但不要大到标记粒子外部的像素为正例。

Topaz GUI 中也内置了用户指南。

集成

Topaz 还与 RELION、CryoSPARC、Scipion 和 Appion 集成。您可以在以下位置找到信息和教程:

RELION:https://github.com/tbepler/topaz/tree/master/relion_run_topaz CryoSPARC:https://guide.cryosparc.com/processing-data/all-job-types-in-cryosparc/deep-picking/deep-picking

Scipion:https://github.com/scipion-em/scipion-em-topaz

参考文献

Topaz

Bepler, T., Morin, A., Rapp, M., Brasch, J., Shapiro, L., Noble, A.J., Berger, B. 冷冻电子显微镜图像中用于颗粒拾取的正-未标记卷积神经网络。自然方法 16, 1153–1160 (2019)。https://doi.org/10.1038/s41592-019-0575-8

Bibtex

@Article{Bepler2019,
author={Bepler, Tristan
and Morin, Andrew
and Rapp, Micah
and Brasch, Julia
and Shapiro, Lawrence
and Noble, Alex J.
and Berger, Bonnie},
title={Positive-unlabeled convolutional neural networks for particle picking in cryo-electron micrographs},
journal={Nature Methods},
year={2019},
issn={1548-7105},
doi={10.1038/s41592-019-0575-8},
url={https://doi.org/10.1038/s41592-019-0575-8}
}

Topaz-Denoise

Bepler, T., Kelley, K., Noble, A.J., Berger, B. Topaz-Denoise:用于冷冻电镜和冷冻电子断层扫描的通用深度去噪模型。自然通讯 11, 5208 (2020)。https://doi.org/10.1038/s41467-020-18952-1

Bibtex

@Article{Bepler2020_topazdenoise,
author={Bepler, Tristan
and Kelley, Kotaro
and Noble, Alex J.
and Berger, Bonnie},
title={Topaz-Denoise: general deep denoising models for cryoEM and cryoET},
journal={Nature Communications},
year={2020},
issn={2041-1723},
doi={10.1038/s41467-020-18952-1},
url={https://doi.org/10.1038/s41467-020-18952-1}
}

作者

Tristan Bepler

Alex J. Noble

Topaz 研讨会

如需申请学术或非学术用途的 Topaz 研讨会,请发送请求至:

<alexjnoble [at] gmail [dot] com><tbepler [at] gmail [dot] com>

许可证

Topaz 是根据 GNU 通用公共许可证第3版 发布的开源软件。

错误和建议

请将错误报告、具体功能请求和改进建议作为 Github 问题 提交。

对于一般帮助、问题、建议、提示以及安装/设置方面的协助,请查看我们新的 讨论 板块。

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能,包括文生视频、动态画面和形象生成等,帮助用户快速上手,创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台,用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品,帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型,为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能,满足事务性工作的高频需求,帮助撰稿人节省精力,提高效率,优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号