#多模态数据集

VLMEvalKit - 开源的大型视觉语言模型评估工具包

Github开源项目开源VLMEvalKit评估工具包大型视觉语言模型多模态数据集

VLMEvalKit是一款开源的大型视觉语言模型评估工具包，支持即插即用的评估操作，无需繁重的数据准备。该工具包支持多种顶级数据库和最新模型测试，并为用户提供精确匹配和基于LLM的答案提取两种评估结果。有效工具，帮助专业人员和研究者评估模型性能。

TransBTS - 使用Transformer实现多模态脑肿瘤医学图像分割

Github开源项目Transformer多模态数据集TransBTSTransBTSV2脑肿瘤分割

TransBTS与TransBTSV2采用Transformer技术显著提升多模态脑肿瘤与医学图像体积分割的效率与准确性。项目包括详细的模型实现和相关文献，支持BraTS、LiTS、KiTS等医学图像数据集，并利用Python和Pytorch进行数据预处理、模型训练和测试，支持分布式训练。适用于需要高效精准医学图像分割解决方案的研究人员和工程师。

Ego4d - 大规模多模态视频数据集与基准测试的最新发展

Github开源项目机器学习视频数据集多模态数据集Ego-Exo4DEgo4D

Ego-Exo4D和Ego4D是全球最大的第一人称和多视角视频机器学习数据集，含有时间同步的视频和丰富的注释。Ego4D数据集包括超过3700小时的注释视频，Ego-Exo4D的V2版本新增了1286.30小时的视频内容，提供数据下载、特征提取和研究的CLI工具和API。详细信息请查阅官方网站和文档。

MINT-1T - 万亿级开源多模态数据集推动AI研究

Github开源项目多模态数据集MINT-1T开源数据海量数据图文数据

MINT-1T是一个大规模开源多模态数据集，包含1万亿文本标记和34亿张图像，比现有开源数据集规模扩大约10倍。该数据集首次纳入PDF和ArXiv论文等新数据源，提供HTML、PDF和ArXiv等多个子集。MINT-1T旨在为大规模多模态AI模型研究提供丰富的训练资源，其规模和多样性有望促进多模态AI技术的发展。

OmniCorpus - 百亿级图文交错数据集推动多模态AI研究新高度

Github开源项目多模态数据集大规模数据OmniCorpus图像文本交错数据处理管道

OmniCorpus是一个大规模多模态数据集，包含86亿张图像和1,696亿个文本标记。该数据集提供中英双语内容，涵盖从网站和视频平台提取的文本和视觉文档，具有高度的数据多样性和灵活性。与之前最大的数据集LAION-5B相比，OmniCorpus在图像和文本规模上分别大1.7倍和12.5倍，同时保持了优秀的数据质量。研究表明，基于此数据集训练的模型在图像描述和视觉问答等任务中表现出色。OmniCorpus采用流式数据格式，可适应多种数据结构，包括纯文本语料库、图文对和交错数据格式。这一特性使其在自然语言处理、计算机视觉和多模态AI等领域的研究和应用中具有广泛潜力。

相关文章

Article Cover

VLMEvalKit: 一个开源的大规模视觉语言模型评估工具包

Article Cover

Ego4D: 一个大规模的第一人称视频数据集和基准套件

Article Cover

MINT-1T: 突破性的一万亿标记多模态数据集

Article Cover

VLMEvalKit入门指南 - 开源大规模视觉语言模型评估工具包

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号