相关项目
OmniCorpus
OmniCorpus是一个大规模多模态数据集,包含86亿张图像和1,696亿个文本标记。该数据集提供中英双语内容,涵盖从网站和视频平台提取的文本和视觉文档,具有高度的数据多样性和灵活性。与之前最大的数据集LAION-5B相比,OmniCorpus在图像和文本规模上分别大1.7倍和12.5倍,同时保持了优秀的数据质量。研究表明,基于此数据集训练的模型在图像描述和视觉问答等任务中表现出色。OmniCorpus采用流式数据格式,可适应多种数据结构,包括纯文本语料库、图文对和交错数据格式。这一特性使其在自然语言处理、计算机视觉和多模态AI等领域的研究和应用中具有广泛潜力。
clinica
Clinica是一个开源的临床神经影像研究软件平台,支持多模态数据处理。平台提供多种处理流程,用于分析T1加权MRI、弥散MRI和PET数据。它可将公开数据集转换为BIDS格式,并集成机器学习和深度学习技术。Clinica为神经退行性疾病研究提供了有力工具,尤其适用于阿尔茨海默病等领域。