#大规模数据集

IEPile - 双语大规模信息抽取数据集构建及模型优化

IEPile信息抽取大规模数据集指令微调双语Github开源项目

IEPile是一个包含0.32B tokens的双语信息抽取指令数据集,整合了26个英文和7个中文信息抽取数据集。采用基于模式的分批指令生成策略,IEPile支持多种信息抽取任务。研究者利用IEPile对Baichuan2-13B-Chat和LLaMA2-13B-Chat模型进行微调,在全监督和零样本信息抽取任务中均实现了显著性能提升。项目提供了详细的数据格式说明和模型训练指南。

all-seeing - 全景视觉识别与关系理解的开放世界AI系统

All-Seeing Project视觉识别关系理解大规模数据集多模态模型Github开源项目

All-Seeing项目开发了全面的视觉识别和理解系统。该项目推出AS-1B大规模数据集和ASM视觉语言模型，实现开放世界的全景视觉识别。其第二版引入关系对话任务，构建AS-V2数据集和ASMv2模型，增强关系理解能力。此外，项目提出CRPE基准测试，为评估关系理解提供系统平台。

jupyter-scatter - 高效处理百万级数据点的交互式散点图工具

Jupyter Scatter交互式散点图数据可视化大规模数据集Jupyter NotebookGithub开源项目

Jupyter Scatter是一款为Jupyter环境设计的交互式散点图工具，能高效处理百万级数据点。它支持视图链接、平移缩放和数据选择，采用WebGL渲染确保大规模数据流畅展示。该工具提供直观API，与Pandas DataFrames深度集成，并具备智能默认设置。Jupyter Scatter支持自定义视觉编码和多图表同步交互，适用于大规模数据集的探索和比较。

hierarchical-3d-gaussians - 层次化3D高斯表示实现大规模场景实时渲染

3D高斯表示实时渲染大规模数据集层次结构点云Github开源项目

这个项目开发了一种层次化3D高斯表示方法，能够实时渲染大规模数据集。通过分层优化和合并策略，该方法高效地表示和渲染复杂场景。项目包含预处理、优化和实时查看器等步骤，可处理含数千图像的大型数据集。代码库提供完整实现和使用说明，涵盖环境配置、数据准备和训练流程。

Large-Time-Series-Model - 大规模生成式预训练时间序列模型

Timer时间序列模型预训练Transformer大规模数据集Github开源项目

Timer是一款基于生成式预训练Transformer的大规模时间序列模型。该模型在包含10亿时间点的UTSD数据集上预训练，可用于预测、插值和异常检测等多项任务。Timer采用解码器架构，支持灵活序列长度，在少样本场景下表现优异。项目开源了模型代码、数据集和预训练权重，为时间序列大模型研究奠定基础。

SuPreM - 基于大规模数据集的三维医学影像分析预训练模型套件

SuPreM医学影像分析3D模型迁移学习大规模数据集Github开源项目

SuPreM是一套基于大规模数据集和每体素标注的预训练3D模型,在多种医学影像任务中展现出优秀的迁移能力。该项目结合AbdomenAtlas 1.1数据集(9,262个带注释CT扫描)和多个先进AI模型,为三维医学图像分析提供了基础数据集和模型,有助于提升该领域的研究效率和算法性能。

GLaMM-GranD-Pretrained - 基于GranD数据集的区域级理解和分割预训练模型

模型计算机视觉Github深度学习图像分割GLaMM-GranD-Pretrained大规模数据集Huggingface开源项目

GLaMM-GranD-Pretrained是基于GranD数据集预训练的模型，专注于区域级理解和分割掩码生成。GranD数据集包含7.5百万个独特概念和810百万个带分割掩码的区域，通过自动化注释流程生成。该模型为计算机视觉任务提供高级像素分割能力。研究者可通过GitHub或Hugging Face获取模型，并参考相关论文和项目页面深入了解。

相关文章

Article Cover

无处不在的视觉：探索全视觉模型的前沿进展

Article Cover

IEPile: 一个大规模信息抽取语料库的突破性进展

Article Cover

分层3D高斯表示:实时渲染超大规模数据集的革命性方法

Article Cover

Large Time Series Models: A Revolutionary Approach to Time Series Analysis

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号