#基因组学

snakePipes:灵活、可扩展的表观基因组分析工具

2024年09月05日
Cover of snakePipes:灵活、可扩展的表观基因组分析工具

GENA-LM: 一个用于长DNA序列的开源基础模型家族

2024年09月05日
Cover of GENA-LM: 一个用于长DNA序列的开源基础模型家族

DNA-Diffusion: 使用扩散概率模型生成调控DNA序列

2024年09月05日
Cover of DNA-Diffusion: 使用扩散概率模型生成调控DNA序列

DeepVariant:基于深度学习的高精度变异检测工具

2024年09月04日
Cover of DeepVariant:基于深度学习的高精度变异检测工具
相关项目
Project Cover

deepvariant

DeepVariant是一种基于深度学习的变异检测工具,主要用于二倍体生物的生殖系变异检测。该工具通过生成堆积图像张量,并利用卷积神经网络进行分类,最终输出VCF或gVCF文件。DeepVariant支持包括Illumina、PacBio HiFi和Oxford Nanopore在内的多种测序技术。它操作简便、经济高效,适用于Docker、本地硬件及云端环境。DeepTrio是其扩展工具,支持三人组变异检测。项目具有高准确率、灵活性,能处理多种测序方式及非人类物种的数据。

Project Cover

awesome-public-datasets

Awesome Public Datasets汇集了农业、生物学、计算机科学等多个领域的高质量公共数据集。该项目源于上海交通大学OMNILab,现隶属于BaiYuLan开放AI社区。它为研究人员和数据科学家提供了便捷获取开放数据资源的途径,支持各类分析和研究工作。资源列表涵盖广泛,质量可靠,是数据科学工作的重要参考。

Project Cover

DNA-Diffusion

DNA-Diffusion项目利用扩散概率模型生成调控DNA序列。该项目开发基于文本提示的模型,生成特定细胞类型或上下文相关的DNA序列。这些序列具有特定调控特性,如细胞特异性染色质状态、基因表达水平调控或转录因子结合位点。该研究旨在深化对正常发育和疾病中DNA调控序列特性的理解。

Project Cover

GENA_LM

GENA-LM是专为长DNA序列设计的开源基础模型家族。它采用BPE分词方法,支持最长36k bp的输入序列,并基于最新T2T人类基因组进行预训练。该项目提供多种预训练模型,包括BERT和BigBird架构,可用于启动子预测和剪接位点识别等多种下游任务。GENA-LM为基因组学研究提供了新的分析工具,促进了DNA序列分析技术的进步。

Project Cover

gos

gos是基于Gosling JSON规范的基因组可视化Python库。它提供简化接口,用于创建交互式基因组可视化。支持热图、条形图和线图等多种可视化编码方法。gos采用自动生成的Python API,确保与Gosling规范一致。这个库为基因组数据的探索和展示提供了灵活的工具。

Project Cover

snakepipes

snakePipes提供多种NGS数据分析工作流程,包括DNA测序、ChIP-seq、RNA-seq等,支持等位基因特异性分析,并能轻松扩展到大规模数据集。这个基于Snakemake构建的框架旨在简化分析流程,提供灵活配置选项。通过Conda环境管理,snakePipes简化了安装过程,并为用户提供详细文档指导使用。该开源项目持续更新,旨在为生物信息学研究提供可靠、高效的分析工具,欢迎社区参与改进。

Project Cover

nucleotide-transformer-v2-500m-multi-species

nucleotide-transformer-v2-500m-multi-species是一个基于850个多物种基因组预训练的5亿参数Transformer模型。该模型利用多样化物种的DNA序列信息,通过掩码语言建模训练,可用于分子表型预测等任务。它采用6-mer标记化方法,结合旋转位置编码和门控线性单元,在900B个标记上训练而成。这一基础模型为基因组学研究提供了有力工具,可应用于多种下游分析。

Project Cover

evo-1-8k-base

Evo是一个基于生物的基础模型,通过StripedHyena架构支持长序列建模与设计。Evo拥有7亿参数,可在单核苷酸和字节级别进行建模,并在计算和内存使用上实现接近线性的扩展。Evo-1-8k-base模型适用于8,192上下文长度的分子层面微调,是Evo家族中的第一款产品。此模型不仅支持高效的自动回归生成,还能快速处理长上下文训练和微调,在自然语言和生物序列的大规模数据处理中展示出色的扩展性。作为开源科学的组成部分,该项目提供15个阶段的中间预训练检查点以供研究使用。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号