#大规模数据集

IEPile - 双语大规模信息抽取数据集构建及模型优化
IEPile信息抽取大规模数据集指令微调双语Github开源项目
IEPile是一个包含0.32B tokens的双语信息抽取指令数据集,整合了26个英文和7个中文信息抽取数据集。采用基于模式的分批指令生成策略,IEPile支持多种信息抽取任务。研究者利用IEPile对Baichuan2-13B-Chat和LLaMA2-13B-Chat模型进行微调,在全监督和零样本信息抽取任务中均实现了显著性能提升。项目提供了详细的数据格式说明和模型训练指南。
all-seeing - 全景视觉识别与关系理解的开放世界AI系统
All-Seeing Project视觉识别关系理解大规模数据集多模态模型Github开源项目
All-Seeing项目开发了全面的视觉识别和理解系统。该项目推出AS-1B大规模数据集和ASM视觉语言模型,实现开放世界的全景视觉识别。其第二版引入关系对话任务,构建AS-V2数据集和ASMv2模型,增强关系理解能力。此外,项目提出CRPE基准测试,为评估关系理解提供系统平台。
jupyter-scatter - 高效处理百万级数据点的交互式散点图工具
Jupyter Scatter交互式散点图数据可视化大规模数据集Jupyter NotebookGithub开源项目
Jupyter Scatter是一款为Jupyter环境设计的交互式散点图工具,能高效处理百万级数据点。它支持视图链接、平移缩放和数据选择,采用WebGL渲染确保大规模数据流畅展示。该工具提供直观API,与Pandas DataFrames深度集成,并具备智能默认设置。Jupyter Scatter支持自定义视觉编码和多图表同步交互,适用于大规模数据集的探索和比较。
hierarchical-3d-gaussians - 层次化3D高斯表示实现大规模场景实时渲染
3D高斯表示实时渲染大规模数据集层次结构点云Github开源项目
这个项目开发了一种层次化3D高斯表示方法,能够实时渲染大规模数据集。通过分层优化和合并策略,该方法高效地表示和渲染复杂场景。项目包含预处理、优化和实时查看器等步骤,可处理含数千图像的大型数据集。代码库提供完整实现和使用说明,涵盖环境配置、数据准备和训练流程。
Large-Time-Series-Model - 大规模生成式预训练时间序列模型
Timer时间序列模型预训练Transformer大规模数据集Github开源项目
Timer是一款基于生成式预训练Transformer的大规模时间序列模型。该模型在包含10亿时间点的UTSD数据集上预训练,可用于预测、插值和异常检测等多项任务。Timer采用解码器架构,支持灵活序列长度,在少样本场景下表现优异。项目开源了模型代码、数据集和预训练权重,为时间序列大模型研究奠定基础。
SuPreM - 基于大规模数据集的三维医学影像分析预训练模型套件
SuPreM医学影像分析3D模型迁移学习大规模数据集Github开源项目
SuPreM是一套基于大规模数据集和每体素标注的预训练3D模型,在多种医学影像任务中展现出优秀的迁移能力。该项目结合AbdomenAtlas 1.1数据集(9,262个带注释CT扫描)和多个先进AI模型,为三维医学图像分析提供了基础数据集和模型,有助于提升该领域的研究效率和算法性能。
GLaMM-GranD-Pretrained - 基于GranD数据集的区域级理解和分割预训练模型
模型计算机视觉Github深度学习图像分割GLaMM-GranD-Pretrained大规模数据集Huggingface开源项目
GLaMM-GranD-Pretrained是基于GranD数据集预训练的模型,专注于区域级理解和分割掩码生成。GranD数据集包含7.5百万个独特概念和810百万个带分割掩码的区域,通过自动化注释流程生成。该模型为计算机视觉任务提供高级像素分割能力。研究者可通过GitHub或Hugging Face获取模型,并参考相关论文和项目页面深入了解。