GenePT <img src="https://yellow-cdn.veclightyear.com/ab5030c0/c9433269-d0df-4659-a765-97dacb818e70.png" align="right" width="150px"/>

新闻

2024年3月：我们上传了新的GenePT嵌入，包括1. 额外的蛋白质信息和2. 更新的文本嵌入模型，可在获取。

GenePT是什么？

GenePT是一个单细胞基础模型（即在广泛数据上训练的模型，使其能够应用于各种下游任务），利用ChatGPT嵌入来解决基因级和细胞级生物学任务。这个项目受到最近使用大规模基因表达数据（例如，数千万个细胞）开发单细胞生物学基础模型的重大进展的启发。

现有模型间接从基因表达谱中学习基因和细胞功能，通常需要大量数据整理和资源密集型训练。相比之下，GenePT提供了一种互补方法，使用NCBI的单个基因文本描述结合GPT-3.5生成基因嵌入。GenePT然后通过两种方式产生单细胞嵌入：(i) 通过平均基因嵌入，按每个基因的表达水平加权；或 (ii) 为每个细胞创建一个句子嵌入，使用按表达水平排序的基因名称。

无需数据集整理和额外预训练，GenePT高效且用户友好。在许多用于评估近期单细胞基础模型的下游任务中——如分类基因属性和细胞类型——GenePT达到了与现有单细胞基础模型相当，甚至更优的性能。GenePT证明，使用大型语言模型对文献的嵌入是开发生物学基础模型的一种直接有效的方法。

如何使用GenePT？

用于生成GenePT数据和复现论文分析的脚本可在仓库中找到（每个脚本的详细信息见下面的分析文件breakdown部分）。

我们还提供以下随时可用的数据集，可能对更广泛的应用有用：

从每个基因的NCBI页面提取的摘要文本。
对应基因摘要的预计算OpenAI嵌入（text-embedding-ada-002和text-embedding-3-large）。

这些数据存放在。

教程和使用

我们提供示例笔记本来运行以下分析：

基因级预测任务
基因-基因相互作用分析
细胞级生物数据注释
批次效应去除（心肌细胞数据集；主动脉数据集）

如果您需要当前未包含的教程，请提交问题。

引用

如果您在分析中使用了GenePT，请引用我们的论文：

Chen YT, Zou J. (2023+) GenePT: A Simple But Effective Foundation Model for Genes and Cells Built From ChatGPT. bioRxiv预印本：https://www.biorxiv.org/content/10.1101/2023.10.16.562533v2。

分析文件breakdown：

request_ncbi_text_for_genes.ipynb 提供下载NCBI基因摘要页面的示例代码。
gene_embeddings_examples.ipynb 提供使用GPT-3.5嵌入对步骤1中提取的描述进行嵌入的示例代码。注意，这需要有效注册OpenAI API（参见https://openai.com/blog/openai-api 的说明和定价详情）。
gene_level_task_table_1.ipynb 复现论文表1中GenePT嵌入的基因级任务。
gene_level_task_figure_2.ipynb 提供论文图2中描述的基因级任务所需的数据和输出。
aorta_data_analysis.ipynb 提供不到20行代码创建基础模型细胞嵌入的示例代码，并演示批次效应去除 + 生物学保留（论文图4结果）。

GenePT使用的数据集

对于基因级任务，我们使用以下数据集：
- Geneformer提供表1中报告的基因级任务数据集（https://huggingface.co/datasets/ctheodoris/Genecorpus-30M/tree/main/example_input_files/gene_classification）
- 基因-基因相互作用网络数据集是作为Gene2vec论文的一部分收集的，可在https://github.com/jingcheng-du/Gene2vec/tree/master/predictionData 获取。
对于细胞级任务，我们使用以下数据集：
- hPancreas、Myeloid和Multiple Sclerosis（由Cui等人（2023+）处理和分发）
  - Multiple Sclerosis (M.S.) 数据集：链接。
  - Myeloid (Mye.) 数据集：链接。
  - hPancreas数据集：链接。
- 心肌细胞数据集：
  - 原始数据可以在这里下载。
  - 我们为细胞级分析创建了原始数据集的10%随机子集，可在此Google Drive文件夹获取。
- 主动脉数据集：
  - 原始数据已存放在此，我们使用了作者在GitHub上提供的额外细胞类型注释。
  - 我们创建了原始数据集的20%随机子集（链接）。
初始基因列表从vocab.json（由scGPT作者提供）和token_dictionary.pkl整理而来。

参考文献：

Chaffin, M. et al. Single-nucleus profiling of human dilated and hypertrophic cardiomyopathy. Nature 608, 174–180 (2022).
Chen YT, Zou J. (2023+) GenePT: A Simple But Hard-to-Beat Foundation Model for Genes and Cells Built From ChatGPT. bioRxiv预印本：https://www.biorxiv.org/content/10.1101/2023.10.16.562533v1。
Cui, H., et al. (2023). scGPT: Towards building a foundation model for single-cell multi-omics using generative AI. bioRxiv, 2023-04.
Li, Y. et al. Single-cell transcriptome analysis reveals dynamic cell populations and differential gene expression patterns in control and aneurysmal human aortic tissue. Circulation 142, 1374–1388 (2020).