DNABERT

DNABERT 项目介绍

DNABERT 是一个用于 DNA 语言的预训练双向编码器表示变换器模型，旨在为基因组分析提供强大的工具。在生物信息学领域，DNA 可以被视为一种独特的语言，而 DNABERT 则通过预训练模型来理解和处理这种语言。以下是对该项目的详细介绍。

项目背景

DNABERT 项目由几个关键要素组成，包括源代码、使用示例、预训练模型、微调模型和可视化工具。这些资源共同构建了一个强大的平台，用户可以针对自己的研究需求进行基因组分析。

项目特点

DNABERT 的训练分为通用预训练和任务特定细化两个阶段。预训练模型已经在该存储库中发布，扩展自 Hugging Face 的 BERT 模型，并适配到 DNA 场景中。

更新信息

DNABERT 项目推出了第二代版本 DNABERT-2，它在多物种基因组上进行训练，具有更高的效率和更简便的使用方法。同时，发布了一项全面的基因组理解评估 (GUE) 基准，包含 28 个数据集和 7 项任务。

环境配置

要运行 DNABERT，需要使用 Anaconda 软件创建一个 Python 虚拟环境，确保至少有一块符合条件的 NVIDIA GPU。推荐使用 CUDA 10.0 以及相应的驱动版本来支持分布式训练。

创建和激活虚拟环境

conda create -n dnabert python=3.6
conda activate dnabert

安装必要包

conda install pytorch torchvision cudatoolkit=10.0 -c pytorch
git clone https://github.com/jerryji1993/DNABERT
cd DNABERT
python3 -m pip install --editable .
cd examples
python3 -m pip install -r requirements.txt

模型预训练

对预训练 DNABERT 的用户，需要按照特定格式处理数据，并可使用提供的 seq2kmer 函数转换序列。

模型训练示例

cd examples

export KMER=6
export TRAIN_FILE=sample_data/pre/6_3k.txt
export TEST_FILE=sample_data/pre/6_3k.txt
export SOURCE=PATH_TO_DNABERT_REPO
export OUTPUT_PATH=output$KMER

python run_pretrain.py \
    --output_dir $OUTPUT_PATH \
    --do_train \
    --train_data_file=$TRAIN_FILE \
    ...

模型微调

对于有微调需求的用户，需要下载并利用已有的预训练模型进行微调，从而适应特定任务。

微调示例

cd examples

export KMER=6
export MODEL_PATH=PATH_TO_THE_PRETRAINED_MODEL
export DATA_PATH=sample_data/ft/$KMER
export OUTPUT_PATH=./ft/$KMER

python run_finetune.py \
    --model_type dna \
    --tokenizer_name=dna$KMER \
    --model_name_or_path $MODEL_PATH \
    ...