热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#Dolma Dataset
dolma入门指南 - 用于语言模型预训练的开放数据集和处理工具
1 个月前
dolma是一个包含3万亿词元的开放数据集,以及用于处理和检查大规模语言模型预训练数据的高性能工具包。本文介绍了dolma的主要特性和使用方法,帮助读者快速了解和上手这个强大的资源。
Dolma Dataset
Dolma Toolkit
AI2
语言模型
数据集管理
Github
开源项目
1 个月前
Dolma:开源大规模语言模型预训练数据集与工具包
2 个月前
Dolma是一个包含3万亿个token的开放数据集,以及用于创建和检查大规模语言模型预训练数据的高性能工具包。
Dolma Dataset
Dolma Toolkit
AI2
语言模型
数据集管理
Github
开源项目
2 个月前
相关项目
dolma
Dolma项目提供一个包含3万亿令牌的多样化开放数据集,涵盖网络内容、学术出版物、代码、书籍和百科材料。Dolma Toolkit是一款高性能工具包,能够高效整理大型数据集,支持并行处理、便捷移植、内置标签器、快速去重、扩展性和云支持。该项目由Allen Institute for AI开发,数据集可在HuggingFace平台下载。
查看
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号