#大规模预训练

FlagData - 多功能数据处理工具包优化AI模型开发流程

FlagData数据处理人工智能大规模预训练数据清洗Github开源项目

FlagData是一款综合性数据处理工具包，专为自然语言处理和计算机视觉等AI领域设计。该工具集成数据获取、准备、预处理和分析功能，支持高质量内容提取、大模型数据微调和分布式处理。最新的3.0.0版本扩展了数据类型支持，并提供丰富的自定义操作选项，简化了高质量数据生成流程。FlagData旨在为AI模型开发全周期提供高效的数据处理支持。

moirai-1.0-R-large - 基于Transformer的通用多变量时序预测模型

机器学习GithubMoiraiHuggingface深度学习开源项目模型时间序列预测大规模预训练

Moirai-1.0-R-large是一个基于Masked Encoder的时序预测Transformer模型，通过LOTSA数据集预训练而成。模型采用补丁嵌入和Transformer架构设计，支持多变量时序数据处理和动态协变量预测。用户可通过uni2ts库实现模型部署，拥有3.11亿参数的模型规模使其成为Moirai系列中参数量最大的版本。

Qwen1.5-14B - 基于Transformer的多语言大模型支持32K上下文长度

HuggingfaceQwen1.5开源项目模型多语言支持大规模预训练Github语言模型自然语言处理

Qwen1.5作为Qwen2的预览版，是一个支持多语言的大规模语言模型。该模型提供多种规模版本，支持长文本理解，具备增强的聊天能力和改进的多语言处理功能。模型在技术架构上采用了先进的Transformer结构，并针对自然语言和代码处理进行了优化。

相关文章

Article Cover

FlagData：AI数据处理利器，助力大模型训练

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号