#多模态数据集

VLMEvalKit入门指南 - 开源大规模视觉语言模型评估工具包

2 个月前

VLMEvalKit 评估工具包大型视觉语言模型多模态数据集开源 Github 开源项目

2 个月前

MINT-1T: 突破性的一万亿标记多模态数据集

3 个月前

MINT-1T 多模态数据集开源数据海量数据图文数据 Github 开源项目

3 个月前

Ego4D: 一个大规模的第一人称视频数据集和基准套件

3 个月前

Ego-Exo4D Ego4D 多模态数据集视频数据集机器学习 Github 开源项目

3 个月前

VLMEvalKit: 一个开源的大规模视觉语言模型评估工具包

3 个月前

VLMEvalKit 评估工具包大型视觉语言模型多模态数据集开源 Github 开源项目

3 个月前

相关项目

VLMEvalKit

VLMEvalKit是一款开源的大型视觉语言模型评估工具包，支持即插即用的评估操作，无需繁重的数据准备。该工具包支持多种顶级数据库和最新模型测试，并为用户提供精确匹配和基于LLM的答案提取两种评估结果。有效工具，帮助专业人员和研究者评估模型性能。

TransBTS

TransBTS与TransBTSV2采用Transformer技术显著提升多模态脑肿瘤与医学图像体积分割的效率与准确性。项目包括详细的模型实现和相关文献，支持BraTS、LiTS、KiTS等医学图像数据集，并利用Python和Pytorch进行数据预处理、模型训练和测试，支持分布式训练。适用于需要高效精准医学图像分割解决方案的研究人员和工程师。

Ego4d

Ego-Exo4D和Ego4D是全球最大的第一人称和多视角视频机器学习数据集，含有时间同步的视频和丰富的注释。Ego4D数据集包括超过3700小时的注释视频，Ego-Exo4D的V2版本新增了1286.30小时的视频内容，提供数据下载、特征提取和研究的CLI工具和API。详细信息请查阅官方网站和文档。

MINT-1T

MINT-1T是一个大规模开源多模态数据集，包含1万亿文本标记和34亿张图像，比现有开源数据集规模扩大约10倍。该数据集首次纳入PDF和ArXiv论文等新数据源，提供HTML、PDF和ArXiv等多个子集。MINT-1T旨在为大规模多模态AI模型研究提供丰富的训练资源，其规模和多样性有望促进多模态AI技术的发展。

OmniCorpus

OmniCorpus是一个大规模多模态数据集，包含86亿张图像和1,696亿个文本标记。该数据集提供中英双语内容，涵盖从网站和视频平台提取的文本和视觉文档，具有高度的数据多样性和灵活性。与之前最大的数据集LAION-5B相比，OmniCorpus在图像和文本规模上分别大1.7倍和12.5倍，同时保持了优秀的数据质量。研究表明，基于此数据集训练的模型在图像描述和视觉问答等任务中表现出色。OmniCorpus采用流式数据格式，可适应多种数据结构，包括纯文本语料库、图文对和交错数据格式。这一特性使其在自然语言处理、计算机视觉和多模态AI等领域的研究和应用中具有广泛潜力。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com