#数据处理管道
OmniCorpus - 百亿级图文交错数据集推动多模态AI研究新高度
OmniCorpus多模态数据集图像文本交错数据处理管道大规模数据Github开源项目
OmniCorpus是一个大规模多模态数据集,包含86亿张图像和1,696亿个文本标记。该数据集提供中英双语内容,涵盖从网站和视频平台提取的文本和视觉文档,具有高度的数据多样性和灵活性。与之前最大的数据集LAION-5B相比,OmniCorpus在图像和文本规模上分别大1.7倍和12.5倍,同时保持了优秀的数据质量。研究表明,基于此数据集训练的模型在图像描述和视觉问答等任务中表现出色。OmniCorpus采用流式数据格式,可适应多种数据结构,包括纯文本语料库、图文对和交错数据格式。这一特性使其在自然语言处理、计算机视觉和多模态AI等领域的研究和应用中具有广泛潜力。
clinica - 多模态神经影像分析平台 支持临床研究
Clinica临床神经影像数据处理管道BIDS标准机器学习Github开源项目
Clinica是一个开源的临床神经影像研究软件平台,支持多模态数据处理。平台提供多种处理流程,用于分析T1加权MRI、弥散MRI和PET数据。它可将公开数据集转换为BIDS格式,并集成机器学习和深度学习技术。Clinica为神经退行性疾病研究提供了有力工具,尤其适用于阿尔茨海默病等领域。