#AI2

dolma - 3万亿令牌的多样化开放数据集与高性能管理工具
Github开源项目语言模型数据集管理Dolma DatasetDolma ToolkitAI2
Dolma项目提供一个包含3万亿令牌的多样化开放数据集,涵盖网络内容、学术出版物、代码、书籍和百科材料。Dolma Toolkit是一款高性能工具包,能够高效整理大型数据集,支持并行处理、便捷移植、内置标签器、快速去重、扩展性和云支持。该项目由Allen Institute for AI开发,数据集可在HuggingFace平台下载。
allenact - 支持多环境与算法的Embodied AI研究框架
Github开源项目深度强化学习AI2Embodied AIAllenAct模仿学习
AllenAct是一个专为Embodied AI研究设计的开源框架,提供模块化和灵活的学习架构,支持多种环境和算法。其主要特点包括任务抽象、训练序列试验、PyTorch支持和多智能体功能。由Allen Institute for AI开发,提供详尽的文档、教程及预训练模型,为Embodied AI研究提供有效支持。
OLMo-7B-0724-hf - OLMo开放式语言模型促进语言处理技术进步
Github开源项目自然语言处理模型HuggingfaceAI2OLMo开源语言模型变形金刚
OLMo是由AI2开发的开源语言模型系列,旨在推动语言模型科学研究。该模型基于Dolma数据集训练,采用先进的Transformer结构,实现性能提升和多阶段优化。OLMo-7B-0724-hf具备强大的文本生成能力,适用于文本推理和生成任务。支持在HuggingFace平台上进行加载、微调和评估,且提供多种数据检查点,方便研究与开发。该项目得到多家机构支持,并在多个主要AI任务中表现优异。