Logo

#大规模数据集

Logo of IEPile
IEPile
IEPile是一个包含0.32B tokens的双语信息抽取指令数据集,整合了26个英文和7个中文信息抽取数据集。采用基于模式的分批指令生成策略,IEPile支持多种信息抽取任务。研究者利用IEPile对Baichuan2-13B-Chat和LLaMA2-13B-Chat模型进行微调,在全监督和零样本信息抽取任务中均实现了显著性能提升。项目提供了详细的数据格式说明和模型训练指南。
Logo of Large-Time-Series-Model
Large-Time-Series-Model
Timer是一款基于生成式预训练Transformer的大规模时间序列模型。该模型在包含10亿时间点的UTSD数据集上预训练,可用于预测、插值和异常检测等多项任务。Timer采用解码器架构,支持灵活序列长度,在少样本场景下表现优异。项目开源了模型代码、数据集和预训练权重,为时间序列大模型研究奠定基础。