#生物信息学

DnaFeaturesViewer - 功能强大的DNA序列特征可视化Python库
DNA Features Viewer生物信息学可视化工具基因组Python库Github开源项目
DnaFeaturesViewer是一款功能强大的DNA序列特征可视化Python库。它能自动生成清晰简洁的图表,即使是复杂的重叠特征和长标签序列也能完美展示。该库兼容Matplotlib和Biopython,支持多种图像输出格式。DnaFeaturesViewer可从GenBank或GFF文件读取特征,绘制核苷酸序列和氨基酸翻译,并支持多行多页绘图。它为DNA序列分析和生物学研究提供了直观高效的可视化工具。
protpardelle - 开源全原子蛋白质生成模型
protpardelle蛋白质生成模型深度学习结构预测生物信息学Github开源项目
Protpardelle是一个开源的全原子蛋白质生成模型项目,提供预训练模型、推理和训练代码。支持条件和无条件蛋白质设计,可通过HuggingFace网页应用或PyMOL插件使用。项目包含环境配置、示例命令和数据集获取方法,适合研究人员和开发者使用与贡献。
alphafold3-pytorch - 基于PyTorch的蛋白质结构预测模型开源实现
AlphaFold 3Pytorch蛋白质结构预测机器学习生物信息学Github开源项目
这是AlphaFold 3的PyTorch开源实现项目。它包含完整的模型架构、训练和推理流程,以及详细的数据准备指南。项目支持原子级和分子级的输入处理,提供PDB数据集筛选和聚类脚本。丰富的文档和示例代码有助于用户理解和使用AlphaFold 3模型。该实现为蛋白质结构预测研究提供了有价值的开源工具。
ProLIF - 生物分子相互作用指纹分析工具
蛋白质配体相互作用指纹生物信息学GithubProLIF分子动力学开源项目
ProLIF是一个用于生成生物分子复合物相互作用指纹的开源工具。它可分析分子动力学轨迹、对接模拟和实验结构数据,支持配体、蛋白质、DNA和RNA等多种分子类型。该工具提供详细文档和教程,适用于生物信息学和药物设计领域的复杂相互作用研究。ProLIF由MDAnalysis和RDKit等库提供技术支持,是这一领域的重要资源。
biocypher - 生命科学知识图谱构建和管理工具
BioCypher知识图谱生物信息学数据集成开源软件Github开源项目
BioCypher是一款专为生命科学领域设计的知识图谱工具,旨在简化创建和维护过程。它提供了灵活的数据存储、集成和推理功能,支持复杂数据的探索和分析。BioCypher可应用于人工智能研究,并具有用户友好的界面。该工具提供全面的文档和教程,帮助研究人员轻松构建和管理知识图谱。作为开源项目,BioCypher不断发展,为生物医学研究提供有力支持。
alphafold - 突破性的蛋白质结构预测AI系统
AlphaFold蛋白质结构预测深度学习生物信息学DockerGithub开源项目
AlphaFold是DeepMind开发的人工智能系统,可高精度预测蛋白质三维结构。系统支持单体和多聚体蛋白预测,并提供TM-score和对齐误差等评估指标。AlphaFold结合深度学习和基因数据库,在CASP14竞赛中获得重大突破。其开源代码和预训练模型为研究人员提供了强大的蛋白质结构分析工具,有助于推动生物学和医学研究进展。
genome-spy - 基于WebGL的基因组数据可视化工具包 支持多样本分析与交互
GenomeSpy基因组可视化数据可视化WebGL生物信息学Github开源项目
GenomeSpy是一款基因组数据可视化工具包,采用Vega-Lite风格的语法和WebGL渲染技术。它能处理数千个患者样本,提供分面、过滤、排序和分组功能。此外,GenomeSpy具备交互式界面,支持会话管理、URL哈希和书签,方便研究人员分析复杂的基因组数据。
ComplexHeatmap - R语言复杂热图包 实现多维数据可视化与灵活注释
ComplexHeatmap热图可视化生物信息学R语言包数据分析Github开源项目
ComplexHeatmap是一个用于创建复杂热图的R软件包,提供灵活的多热图排列和多样化注释功能。该工具可视化不同数据集间的关联并揭示潜在模式,支持单热图、带注释热图、热图列表和行注释等功能。ComplexHeatmap适用于展示基因组数据、甲基化谱和单细胞RNA测序等复杂数据,并能创建增强型OncoPrint、UpSet图和3D热图。其高度定制性使其成为生物信息学和数据科学领域的强大可视化工具。
DNABERT_2 - 多物种基因组理解基础模型
DNABERT-2基因组深度学习人工智能生物信息学Github开源项目
DNABERT-2是一个针对多物种基因组理解的高效基础模型。该模型在28个GUE基准任务中表现优异,采用BPE替代k-mer标记化,ALiBi代替位置嵌入,并整合多项技术提升效率。DNABERT-2为基因组分析提供了强大工具,可用于序列分类、元素识别和功能预测等多种任务。
ColabFold - 基于Google Colab的蛋白质结构预测工具
ColabFold蛋白质折叠AlphaFold结构预测生物信息学Github开源项目
ColabFold是一个基于Google Colab的开源项目,整合了AlphaFold2和RoseTTAFold等先进工具,为蛋白质结构预测提供便捷解决方案。该项目支持单体和复合物预测,采用MMseqs2进行快速序列搜索,并可选用模板。ColabFold具有用户友好的界面,持续更新以提供最新的预测技术,是研究人员进行蛋白质结构分析的有力工具。
chromap - 开源工具实现染色质分析数据的快速对齐和预处理
Chromap基因组比对高通量测序生物信息学染色质分析Github开源项目
Chromap是一款开源的染色质分析数据处理工具,专门用于高通量测序数据的快速对齐和预处理。它可处理ChIP-seq、ATAC-seq、scATAC-seq和Hi-C等多种数据类型,具备测序接头修剪、基因组比对和重复序列去除等功能。Chromap在保持高准确度的同时,将处理速度提升了10-20倍。该工具提供多种预设参数以适应不同实验类型,并支持BED、SAM和pairs等多种输出格式。
pyfaidx - Python模块实现FASTA文件快速索引和操作
pyfaidxFASTA文件处理生物信息学Python模块序列索引Github开源项目
pyfaidx是一个Python模块,实现了高效的FASTA文件索引和操作功能。该模块提供纯Python类,兼容samtools faidx,支持快速随机访问大型FASTA文件中的任意子序列,同时最小化内存使用。pyfaidx的API兼容pygr seqdb模块,并提供命令行工具进行复杂的FASTA文件处理。该模块支持Python 3.7+版本,可通过PyPI安装。
fastp - 快速全面的 FastQ 数据预处理工具
fastpFastQ处理测序数据预处理生物信息学质量控制Github开源项目
fastp 是一款用于 FastQ 数据快速预处理的开源工具。它采用 C++ 编写并支持多线程,提供高效的质量控制、读段过滤、接头修剪和碱基校正等功能。fastp 可处理单端、双端及长读长数据,并生成详细的质量报告。其特点是处理速度快、功能全面且使用简便,适用于各类 FastQ 数据的预处理需求。
foldcomp - 高效压缩和索引大规模蛋白质结构数据集的开源工具
Foldcomp蛋白质结构压缩生物信息学数据存储氨基酸编码Github开源项目
Foldcomp是一个开源的蛋白质结构压缩和索引工具。通过编码主链和侧链的扭转角,它将每个氨基酸残基压缩至13字节,大幅降低存储需求。Foldcomp支持单链PDB文件压缩,提供命令行和Python API接口,可进行压缩、解压缩、序列提取等操作。此外,Foldcomp还提供了多个预构建的大规模蛋白质结构数据库,如AlphaFoldDB和ESMAtlas,便于研究人员使用。
pyani - 基于平均核苷酸同一性的微生物基因组分类工具
pyani微生物基因组平均核苷酸相似度生物信息学分类学Github开源项目
pyani是一个开源的Python工具,用于微生物全基因组分类。该工具基于平均核苷酸同一性(ANI)分析,支持多种ANI计算方法,具有并行处理能力,并提供可视化选项。pyani可应用于微生物基因组学研究和食品安全诊断等领域,为研究人员提供准确分类和比较微生物基因组的支持。
lightdock - 基于萤火虫群优化算法的多功能蛋白质对接框架
LightDock蛋白质对接GSO算法生物信息学分子模拟Github开源项目
LightDock是一款基于萤火虫群优化算法的蛋白质对接框架,支持蛋白质-蛋白质、蛋白质-肽段和蛋白质-DNA的对接。该框架具有高度灵活性,允许用户自定义评分函数,支持局部无梯度最小化,并能限制模拟以聚焦特定相互作用区域。LightDock还支持受体和配体的残基限制,为分子对接研究提供了多功能且强大的工具。
containers - 生物信息学软件容器化解决方案
BioContainers生物信息学容器技术Docker开源项目Github
BioContainers是一个开源项目,为生物信息学软件提供容器化解决方案。该项目建立了容器规范和镜像库,简化了生物信息学工具的构建、部署和使用过程。除了提供现成容器,BioContainers还制定了容器创建指南,并搭建了完整的开发和测试基础设施。这一生态系统旨在提升组学分析的可重复性和易用性,尤其适用于蛋白质组学、基因组学等领域。
rnaseq - 全面分析RNA测序数据流程
nf-core/rnaseqRNA测序生物信息学Nextflow基因表达Github开源项目
nf-core/rnaseq是一个用于分析RNA测序数据的开源生物信息学流程。它接收样本表和FASTQ文件作为输入,执行质量控制、修剪和比对,生成基因表达矩阵和质量报告。该流程支持多种比对和定量方法,提供全面的质量控制功能,包括读取、比对、基因类型、样本相似性和链特异性分析。适用于有参考基因组和注释的RNA-seq数据处理。
arvados - 管理处理大规模科学和生物医学数据的开源平台
Arvados生物信息学大数据处理工作流管理开源平台Github开源项目
Arvados是一个专注于管理、处理和共享大规模科学和生物医学数据的开源平台。其核心组件包括Keep存储系统、Crunch工作流程编排系统、Workbench网络应用和多种开发工具。平台支持生物信息学家扩展计算密集型工作流程,便于开发人员创建生物医学应用,并助力IT管理员管理大规模资源。Arvados特别注重数据溯源和工作流程可重复性,广泛适用于科研和医疗领域。
sarek - 强大灵活的全基因组变异检测工作流
nf-core/sarek生物信息学基因组测序变异检测NextflowGithub开源项目
Sarek是一个用于全基因组或靶向测序数据变异检测的开源工作流。它支持多物种数据处理,可进行肿瘤/正常样本对比分析。基于Nextflow构建并使用容器技术,Sarek具有高度可重复性和易维护性。该工作流提供从原始数据到变异注释的完整分析,涵盖质控、比对、变异检测等关键步骤,为研究人员提供了强大的基因组分析工具。
scrnaseq - 单细胞RNA测序数据分析流程 支持多种工具的开源项目
scRNAseqnf-core单细胞测序生物信息学NextflowGithub开源项目
nf-core/scrnaseq是一个开源的单细胞RNA测序数据分析流程。该项目集成了Alevin-Fry、STARSolo、Kallisto等多种分析工具,可处理10x Genomics等平台产生的数据。流程提供详细文档和灵活的参数设置,支持多种运行环境。用户可根据需求选择合适的分析方法,输出h5ad、Seurat或mtx格式结果。项目持续更新,旨在为单细胞转录组分析提供标准化和可重复的解决方案。
ugene - UGENE 跨平台开源生物信息学软件工具包
UGENE生物信息学软件开发Qt跨平台Github开源项目
UGENE是一个跨平台的生物信息学软件工具包,提供DNA序列分析、蛋白质结构预测和分子动力学模拟等功能。该项目基于Qt框架开发,支持Windows和*nix系统。UGENE的开源性质使研究人员和开发者能够根据特定需求进行构建和定制。项目要求Qt 5.12.0至5.15.x版本,并支持命令行和图形界面操作。
awesome-single-cell - 综合单细胞数据分析工具和方法清单
单细胞RNA测序生物信息学基因表达分析细胞群体分析软件包Github开源项目
该资源列表汇集了单细胞数据分析的软件包和方法,包括RNA-seq、ATAC-seq等数据类型。涵盖质量控制、基因网络识别、细胞聚类、降维和轨迹推断等分析步骤。同时提供教程、工作流程、网络门户和相关文献链接。列表持续更新,为单细胞研究提供全面参考。
rinalmo - 基于BERT的非编码RNA预训练模型助力RNA结构预测
模型RiNALMoRNA模型序列分析Github深度学习Huggingface开源项目生物信息学
RiNALMo是一种基于BERT架构的非编码RNA预训练语言模型。该模型在3600万条独特ncRNA序列上使用掩码语言建模进行训练,可有效应用于RNA结构预测。模型包含33层、1280个隐藏单元和20个注意力头,总参数量达6.5亿。RiNALMo可用于RNA序列特征提取、序列和核苷酸级别的分类回归任务,以及RNA接触预测等多种下游应用。
esm2_t48_15B_UR50D - 大规模蛋白质语言模型用于多样化蛋白质序列分析
生物信息学Huggingface模型深度学习GithubESM-2开源项目自然语言处理蛋白质模型
作为ESM-2系列中参数量最大的蛋白质语言模型,esm2_t48_15B_UR50D拥有480亿参数。该模型采用掩码语言建模方法训练,可应用于多种蛋白质序列分析任务。虽然模型性能优异,但也需要较高的计算资源。研究人员可利用该模型进行蛋白质功能预测、结构分析等研究,为蛋白质科学领域带来新的突破。
nucleotide-transformer-v2-500m-multi-species - 基于多物种基因组的大规模DNA语言模型
Nucleotide Transformer模型生物信息学预训练模型开源项目HuggingfaceDNA序列基因组学Github
nucleotide-transformer-v2-500m-multi-species是一个基于850个多物种基因组预训练的5亿参数Transformer模型。该模型利用多样化物种的DNA序列信息,通过掩码语言建模训练,可用于分子表型预测等任务。它采用6-mer标记化方法,结合旋转位置编码和门控线性单元,在900B个标记上训练而成。这一基础模型为基因组学研究提供了有力工具,可应用于多种下游分析。