热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#Dolma Dataset
dolma - 3万亿令牌的多样化开放数据集与高性能管理工具
Dolma Dataset
Dolma Toolkit
AI2
语言模型
数据集管理
Github
开源项目
Dolma项目提供一个包含3万亿令牌的多样化开放数据集,涵盖网络内容、学术出版物、代码、书籍和百科材料。Dolma Toolkit是一款高性能工具包,能够高效整理大型数据集,支持并行处理、便捷移植、内置标签器、快速去重、扩展性和云支持。该项目由Allen Institute for AI开发,数据集可在HuggingFace平台下载。
1
1
相关文章
Dolma:开源大规模语言模型预训练数据集与工具包
3 个月前
dolma入门指南 - 用于语言模型预训练的开放数据集和处理工具
2 个月前
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号