大规模语言模型工作负载数据集
AcmeTrace是一个来自上海人工智能实验室的大规模语言模型工作负载数据集,涵盖2023年3月至8月期间的数据。该数据集包含880,740个作业记录,其中470,497个为GPU作业,来自两个独立的GPU集群。这些数据为研究人员提供了分析大规模语言模型在数据中心开发特征的宝贵资源,支持相关学术研究。
本仓库托管了上海人工智能实验室的 Acme 公开追踪数据集,涵盖了 2023 年 3 月至 2023 年 8 月的工作负载。我们鼓励任何人出于学术目的使用这些追踪数据。如果您有任何问题,请随时给我们发送电子邮件或在 Github 上提出问题。
此外,我们对 Acme 工作负载进行了深入分析,详细内容请参阅我们发表在 NSDI '24 上的论文《数据中心大型语言模型开发的特征分析》。
<span style="font-size:20px;font-weight:bold;">链接:</span> <img src="https://yellow-cdn.veclightyear.com/835a84d5/3c624918-f47a-438e-ba34-3aa16d7fc1df.svg">
主要追踪特征、数据集结构和模式如下:
📦AcmeTrace
┣ 📂data
┃ ┣ 📂job_trace
┃ ┃ ┣ 📂trace_previous_work (用于比较的先前作业追踪)
┃ ┃ ┃ ┣ 📜helios_trace.csv
┃ ┃ ┃ ┣ 📜xxx.csv
┃ ┃ ┣ 📜trace_kalos.csv (作业追踪文件,从调度器收集)
┃ ┃ ┗ 📜trace_seren.csv
┃ ┣ 📂utilization
┃ ┃ ┣ 📂ipmi (Seren 中不同服务器型号的功耗,从 IPMI 收集)
┃ ┃ ┃ ┣ 📜CPU_D_Power.csv
┃ ┃ ┃ ┣ 📜GPU_AB_Power.csv
┃ ┃ ┃ ┗ 📜GPU_C_Power.csv
┃ ┃ ┣ 📂kalos (资源利用率日志,从 DCGM 和 Prometheus 收集)
┃ ┃ ┃ ┣ 📜DRAM_ACTIVE.csv
┃ ┃ ┃ ┣ 📜xxx.csv
┃ ┃ ┣ 📂seren
┃ ┃ ┃ ┣ 📜DRAM_ACTIVE.csv
┃ ┃ ┃ ┣ 📜xxx.csv
┃ ┃ ┣ 📂util_pkl (用于绘图的处理后 pickle 文件)
┃ ┃ ┃ ┣ 📜gpu_power_kalos.pkl
┃ ┃ ┃ ┣ 📜xxx.pkl
┃ ┣ 📜cluster_summary.csv
┃ ┣ 📜generate_utilization_pkl.ipynb (解析利用率文件并生成 pickle 文件)
┃ ┗ 📜utils.py
┣ 📂figure (追踪数据可视化示例)
┃ ┣ 📜bar_job_state.pdf
┃ ┣ 📜xxx.pdf
┣ 📜LICENSE.txt
┣ 📜README.md
┗ 📜analysis.ipynb (绘图脚本)
提供每个集群中提交给调度器的所有作业的详细信息。
trace_seren.csv
示例job_id | user | node_num | gpu_num | cpu_num | type | state | submit_time | start_time | end_time | duration | queue | gpu_time |
---|---|---|---|---|---|---|---|---|---|---|---|---|
5778432 | u5907 | 1 | 8 | 128 | Other | FAILED | 2023-03-01 00:18:22+08:00 | 2023-03-01 00:18:54+08:00 | 2023-03-01 00:20:51+08:00 | 117 | 32 | 936.0 |
5778469 | u5907 | 1 | 8 | 128 | Other | COMPLETED | 2023-03-01 00:23:58+08:00 | 2023-03-01 00:24:11+08:00 | 2023-03-01 01:09:04+08:00 | 2693 | 13 | 21544.0 |
trace_kalos.csv
示例job_id | user | node_num | gpu_num | cpu_num | mem_per_pod_GB | shared_mem_per_pod | type | state | submit_time | start_time | end_time | fail_time | stop_time | duration | queue | gpu_time |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
dlctk696s0jbvitv | uf794 | 8 | 64 | 960 | 1000 | 100.0 | Other | FAILED | 2023-05-17 11:00:58+00:00 | 2023-05-17 11:01:08+00:00 | 2023-05-17 11:01:16+00:00 | 2023-05-17 11:01:16+00:00 | 18 | 10.0 | 1152.0 | |
dlc1t2ypl09b8qtp | uf794 | 8 | 64 | 960 | 1000 | 100.0 | Other | CANCELLED | 2023-05-17 11:28:42+00:00 | 2023-05-17 11:28:54+00:00 | 2023-05-17 11:30:04+00:00 | 2023-05-17 11:30:04+00:00 | 82 | 12.0 | 5248.0 |
字段 | 描述 |
---|---|
job_id | 作业的唯一标识符 |
user | 用户的哈希ID,前缀为'u' |
node_num | 作业所需节点数 |
gpu_num | 作业所需GPU数量 |
cpu_num | 作业所需CPU数量 |
type | LLM开发中的工作负载类型 |
state | 作业终止时的状态 <sup>1</sup> |
submit_time | 作业提交时间 |
start_time | 作业开始执行时间 |
end_time | 作业终止时间 |
duration | 作业总执行时间 <sup>2</sup> |
queue | 作业总排队时间 <sup>3</sup> |
gpu_time | 作业消耗的总GPU资源 <sup>4</sup> |
仅在Kalos中:
字段 | 描述 |
---|---|
mem_per_pod_GB | Pod内存资源配置 |
shared_mem_per_pod | Pod共享内存资源配置 |
fail_time | 故障发生时间 |
stop_time | 作业停止时间 |
COMPLETED
:成功完成;(2) CANCELLED
:被用户终止;(3) FAILED
:由于内部或外部错误而终止;(4) TIMEOUT
:执行时间超出限制;(5) NODE_FAIL
:由于节点崩溃而终止。在我们的数据中,TIMEOUT
和NODE_FAIL
非常罕见,在分析中被视为失 败。end_time
减去start_time
计算得出。(单位:秒)start_time
减去submit_time
计算得出。(单位:秒)duration
乘以gpu_num
计算得出。集群资源利用率监控数据,从DCGM、IPMI和Prometheus收集。
NODE_CPU_UTILIZATION.csv
示例
| 时间 | 10.140.1.10 | 10.140.1.54 | 10.140.1.90 | 10.140.1.41 | 10.140.1.98 | 10.140.0.166 | 10.140.1.4 | 10.140.1.40 | 10.140.1.134 | 10.140.0.147 | 10.140.1.119 | 10.140.0.184 | 10.140.0.151 | 10.140.0.254 | 10.140.1.83 | 10.140.0.246 | 10.140.1.78 | 10.140.1.103 | 10.140.1.155 | 10.140.1.87 | 10.140.1.106 | 10.140.1.140 | 10.140.1.150 | 10.140.1.107 | 10.140.1.172 | 10.140.1.95 | 10.140.0.146 | 10.140.1.125 | 10.140.1.50 | 10.140.1.112 | 10.140.0.159 | 10.140.0.144 | 10.140.0.215 | 10.140.1.36 | 10.140.1.143 | 10.140.1.147 | 10.140.1.14 | 10.140.1.85 | 10.140.1.56 | 10.140.0.243 | 10.140.0.242 | 10.140.1.63 | 10.140.0.132 | 10.140.0.255 | 10.140.1.59 | 10.140.1.130 | 10.140.0.218 | 10.140.0.220 | 10.140.1.27 | 10.140.1.67 | 10.140.1.136 | 10.140.1.84 | 10.140.0.190 | 10.140.1.121 | 10.140.1.146 | 10.140.1.38 | 10.140.0.232 | 10.140.1.18 | 10.140.1.66 | 10.140.0.205 | 10.140.1.154 | 10.140.1.170 | 10.140.0.179 | 10.140.0.135 | 10.140.1.102 | 10.140.1.72 | 10.140.0.249 | 10.140.1.138 | 10.140.1.24 | 10.140.1.60 | 10.140.1.82 | 10.140.0.233 | 10.140.1.23 | 10.140.0.241 | 10.140.0.248 | 10.140.1.68 | 10.140.1.1 | 10.140.0.219 | 10.140.1.116 | 10.140.0.157 | 10.140.0.178 | 10.140.1.29 | 10.140.1.57 | 10.140.0.163 | 10.140.1.52 | 10.140.1.177 | 10.140.1.11 | 10.140.1.26 | 10.140.1.34 | 10.140.1.92 | 10.140.0.211 | 10.140.0.161 | 10.140.0.131 | 10.140.1.124 | 10.140.0.238 | 10.140.1.44 | 10.140.0.237 | 10.140.1.79 | 10.140.1.17 | 10.140.0.214 | 10.140.1.153 | 10.140.1.117 | 10.140.1.109 | 10.140.0.167 | 10.140.0.207 | 10.140.0.134 | 10.140.1.99 | 10.140.1.31 | 10.140.1.127 | 10.140.0.250 | 10.140.1.139 | 10.140.1.53 | 10.140.1.123 | 10.140.1.77 | 10.140.0.133 | 10.140.0.251 | 10.140.1.55 | 10.140.1.12 | 10.140.1.19 | 10.140.1.47 | 10.140.1.118 | 10.140.1.61 | 10.140.1.110 | 10.140.1.64 | 10.140.1.129 | 10.140.0.217 | 10.140.1.104 | 10.140.0.244 | 10.140.0.213 | 10.140.1.97 | 10.140.0.136 | 10.140.1.22 | 10.140.1.32 | 10.140.1.171 | 10.140.1.151 | 10.140.1.96 | 10.140.1.46 | 10.140.0.158 | 10.140.1.51 | 10.140.1.86 | 10.140.1.30 | 10.140.0.156 | 10.140.1.43 | 10.140.1.74 | 10.140.1.89 | 10.140.1.169 | 10.140.1.80 | 10.140.1.2 | 10.140.1.108 | 10.140.1.93 | 10.140.1.73 | 10.140.0.180 | 10.140.1.71 | 10.140.1.88 | 10.140.0.209 | 10.140.1.81 | 10.140.0.152 | 10.140.1.28 | 10.140.1.58 | 10.140.0.236 | 10.140.0.138 | 10.140.0.149 | 10.140.0.206 | 10.140.1.15 | 10.140.0.240 | 10.140.0.203 | 10.140.1.5 | 10.140.1.37 | 10.140.0.143 | 10.140.0.160 | 10.140.0.252 | 10.140.1.75 | 10.140.1.115 | 10.140.0.247 | 10.140.1.6 | 10.140.1.16 | 10.140.0.216 | 10.140.0.150 | 10.140.1.25 | 10.140.0.208 | 10.140.1.62 |
10.140.1.173 | 10.140.1.137 | 10.140.1.9 | 10.140.1.65 | 10.140.1.111 | 10.140.1.135 | 10.140.1.114 | 10.140.1.132 | 10.140.0.154 | 10.140.0.204 | 10.140.1.91 | 10.140.1.120 | 10.140.1.105 | 10.140.1.131 | 10.140.0.165 | 10.140.0.210 | 10.140.0.148 | 10.140.1.133 | 10.140.0.239 | 10.140.1.13 | 10.140.1.144 | 10.140.0.137 | 10.140.0.234 | 10.140.1.142 | 10.140.1.168 | 10.140.0.235 | 10.140.0.140 | 10.140.1.39 | 10.140.0.153 | 10.140.0.139 | 10.140.1.3 | 10.140.1.7 | 10.140.1.94 | 10.140.1.145 | 10.140.1.149 | 10.140.1.152 | 10.140.1.35 | 10.140.0.141 | 10.140.1.69 | 10.140.1.100 | 10.140.1.126 | 10.140.0.142 | 10.140.0.185 | 10.140.1.42 | 10.140.0.231 | 10.140.0.253 | 10.140.0.212 | 10.140.1.21 | 10.140.1.148 | 10.140.1.49 | 10.140.1.128 | 10.140.0.164 | 10.140.1.70 | 10.140.1.45 | 10.140.0.162 | 10.140.1.101 | 10.140.0.145 | 10.140.1.20 | 10.140.1.176 | 10.140.1.33 | 10.140.1.113 | 10.140.1.122 | 10.140.1.76 | 10.140.1.141 | 10.140.1.8 | 10.140.0.155 | 10.140.1.48 |
|---------------------------|-------------|-------------|-------------|-------------|-------------|--------------|------------|-------------|--------------|--------------|--------------|--------------|--------------|--------------|-------------|--------------|-------------|--------------|--------------|-------------|--------------|--------------|--------------|--------------|--------------|-------------|--------------|--------------|-------------|--------------|--------------|--------------|--------------|-------------|--------------|--------------|-------------|-------------|-------------|--------------|--------------|-------------|--------------|--------------|-------------|--------------|--------------|--------------|-------------|-------------|--------------|-------------|--------------|--------------|--------------|-------------|--------------|-------------|-------------|--------------|--------------|--------------|--------------|--------------|--------------|-------------|--------------|--------------|-------------|-------------|-------------|--------------|-------------|--------------|--------------|-------------|------------|--------------|--------------|--------------|--------------|-------------|-------------|--------------|-------------|--------------|-------------|-------------|-------------|-------------|--------------|--------------|--------------|--------------|--------------|-------------|--------------|-------------|-------------|--------------|--------------|--------------|--------------|--------------|--------------|--------------|-------------|-------------|--------------|--------------|--------------|-------------|--------------|-------------|--------------|--------------|-------------|-------------|-------------|-------------|--------------|-------------|--------------|-------------|--------------|--------------|--------------|--------------|--------------|-------------|--------------|-------------|-------------|--------------|--------------|-------------|-------------|--------------|-------------|-------------|-------------|--------------|-------------|-------------|-------------|--------------|-------------|------------|--------------|-------------|-------------|--------------|-------------|-------------|--------------|-------------|--------------|-------------|-------------|--------------|--------------|--------------|--------------|-------------|--------------|--------------|------------|-------------|--------------|--------------|--------------|-------------|--------------|--------------|------------|-------------|--------------|--------------|-------------|--------------|-------------|--------------|--------------|------------|-------------|--------------|--------------|--------------|--------------|--------------|--------------|-------------|--------------|--------------|--------------|--------------|--------------|--------------|--------------|--------------|-------------|--------------|--------------|--------------|--------------|--------------|--------------|--------------|-------------|--------------|--------------|------------|------------|-------------|--------------|--------------|--------------|-------------|--------------|-------------|--------------|--------------|--------------|--------------|-------------|--------------|--------------|--------------|-------------|--------------|-------------|--------------|--------------|-------------|-------------|--------------|--------------|--------------|-------------|--------------|-------------|--------------|--------------|-------------|--------------|------------|--------------|-------------|
| 2023年7月1日 08:00:00+08:00 | 8.101 | 7.809 | 8.034 | 0.437 | 0.672 | 8.988 | 8.395 | 8.205 | 8.763 | 2.037 | 6.661 | 9.177 | 9.017 | 8.096 | 14.423 | 8.04 | 0.354 | 0.34 | 0.843 | 8.66 | 0.657 | 8.104 | 0.902 | 7.006 | 0.107 | 8.298 | 8.546 | 6.413 | 8.1 | 6.633 | 8.167 | 9.246 | 9.055 | 2.963 | 7.995 | 0.707 | 8.119 | 10.531 | 6.654 | 7.707 | 4.626 | 0.848 | 25.274 | 7.95 | 8.014 | 7.908 | 9.313 | 9.184 | 7.877 | 0.484 | 8.451 | 6.137 | 0.124 | 6.163 | 0.316 | 8.343 | 9.024 | 7.922 | 8.427 | 0.455 | 67.47 | 0.395 | 7.487 | 9.142 | 7.898 | 8.071 | 7.717 | 0.755 | 7.869 | 8.193 | 8.368 | 8.911 | 8.108 | 7.934 | 8.269 | 8.161 | 8.349 | 9.252 | 6.933 | 4.823 | 7.527 | 8.42 | 7.243 | 9.166 | 8.04 | 0.092 | 7.921 | 8.28 | 8.027 | 0.365 | 8.71 | 9.302 | 0.88 | 8.055 | 8.817 | 8.07 | 9.316 | 8.064 | 8.061 | 9.319 | 7.101 | 5.221 | 7.086 | 7.701 | 9.259 | 8.857 | 5.079 | 7.944 | 8.02 | 8.244 | 8.038 | 8.269 | 5.108 | 6.971 | 1.787 | 8.095 | 8.055 | 8.275 | 8.396 | 7.787 | 6.898 | 8.224 | 16.323 | 0.671 | 8.071 | 9.125 | 8.004 | 7.888 | 8.785 | 5.412 | 0.621 | 8.004 | 7.91 | 6.727 | 10.327 | 0.413 | 8.499 | 7.735 | 8.255 | 8.087 | 8.001 | 5.908 | 8.239 | 8.279 | 7.272 | 0.14 | 8.186 | 0.526 | 6.771 | 6.386 | 6.763 | 7.308 | 6.741 | 8.047 | 8.883 | 7.059 | 8.79 | 7.864 | 8.065 | 9.474 | 0.481 | 9.179 | 9.579 | 8.157 | 9.063 | 7.339 | 8.295 | 6.81 | 9.029 | 9.037 | 8.042 | 0.717 | 6.675 | 7.838 | 8.192 | 8.038 | 9.004 | 8.621 | 8.117 | 8.177 | 22.467 | 0.198 | 3.4 | 8.086 | 7.86 | 6.891 | 4.376 | 7.144 | 5.331 | 8.924 | 7.668 | 0.332 | 7.961 | 7.958 | 8.164 | 5.741 | 8.938 | 8.969 | 6.372 | 8.816 | 8.361 | 12.62 | 9.149 | 9.151 | 8.374 | 8.831 | 9.332 | 9.181 | 8.142 | 8.653 | 1.449 | 8.268 | 8.481 | 8.568 | 0.468 | 59.942 | 66.076 | 8.191 | 8.96 | 8.223 | 0.478 | 8.023 | 9.129 | 9.6 | 8.164 | 9.518 | 8.172 | 9.551 | 8.012 | 14.544 | 8.154 | 8.069 | 9.344 | 0.357 | 8.09 | 0.463 | 8.082 | 7.657 | 8.139 | 0.164 | 8.143 | 6.56 | 6.632 | 8.018 | 8.065 | 8.288 | 8.667 | 8.078 |字段 | 描述 |
---|---|
Time | 采样时间戳,间隔为15秒 |
10.140.xx.xx | 服务器IP地址 |
AI Excel全自动制表工具
AEE 在线 AI 全自动 Excel 编辑器,提供智能录入、自动公式、数据整理、图表生成等功能,高效处理 Excel 任务,提升办公效率。支持自动高亮数据、批量计算、不规则数据录入,适用于企业、教育、金融等多场景。
基于 UI-TARS 视觉语言模型的桌面应用,可通过自然语言控制计算机进行多模态操作。
UI-TARS-desktop 是一款功能强大的桌面应用,基于 UI-TARS(视觉语言模型)构建。它具备自然语言控制、截图与视觉识别、精确的鼠标键盘控制等功能,支持跨平台使用(Windows/MacOS),能提供实时反馈和状态显示,且数据完全本地处理,保障隐私安全。该应用集成了多种大语言模型和搜索方式,还可进行文件系统操作。适用于需要智能交互和自动化任务的场景,如信息检索、文件管理等。其提供了详细的文档,包括快速启动、部署、贡献指南和 SDK 使用说明等,方便开发者使用和扩展。
开源且先进的大规模视频生成模型项目
Wan2.1 是一个开源且先进的大规模视频生成模型项目,支持文本到图像、文本到视频、图像到视频等多种生成任务。它具备丰富的配置选项,可调整分辨率、扩散步数等参数,还能对提示词进行增强。使用了多种先进技术和工具,在视频和图像生成领域具有广泛应用前景,适合研究人员和开发者使用。
全流程 AI 驱动的数据可视化工具,助力用户轻松创作高颜值图表
爱图表(aitubiao.com)就是AI图表,是由镝数科技推出的一款创新型智能数据可视化平台,专注于为用户提供便捷的图表生成、数据分析和报告撰写服务。爱图表是中国首个在图表场景接入DeepSeek的产品。通过接入前沿的DeepSeek系列AI模型,爱图表结合强大的数据处理能力与智能化功能,致力于帮助职场人士高效处理和表达数据,提升工作效率和报告质量。
一款强大的视觉语言模型,支持图像和视频输入
Qwen2.5-VL 是一款强大的视觉语言模型,支持图像和视频输入,可用于多种场景,如商品特点总结、图像文字识别等。项目提供了 OpenAI API 服务、Web UI 示例等部署方式,还包含了视觉处理工具,有助于开发者快速集成和使用,提升工作效率。
HunyuanVideo 是一个可基于文本生成高质量图像和视频的项目。
HunyuanVideo 是一个专注于文本到图像及视频生成的项目。它具备强大的视频生成能力,支持多种分辨率和视频长度选择,能根据用户输入的文本生成逼真的图像和视频。使用先进的技术架构和算法,可灵活调整生成参数,满足不同场景的需求,是文本生成图像视频领域的优质工具。
一个基于 Gradio 构建的 WebUI,支持与浏览器智能体进行便捷交互。
WebUI for Browser Use 是一个强大的项目,它集成了多种大型语言模型,支持自定义浏览器使用,具备持久化浏览器会话等功能。用户可以通过简洁友好的界面轻松控制浏览器智能体完成各类任务,无论是数据提取、网页导航还是表单填写等操作都能高效实现,有利于提高工作效率和获取信息的便捷性。该项目适合开发者、研究人员以及需要自动化浏览器操作的人群使用,在 SEO 优化方面,其关键词涵盖浏览器使用、WebUI、大型语言模型集成等,有助于提高网页在搜索引擎中的曝光度。
基于 ESP32 的小智 AI 开发项目,支持多种网络连接与协议,实现语音交互等功能。
xiaozhi-esp32 是一个极具创新性的基于 ESP32 的开发项目,专注于人工智能语音交互领域。项目涵盖了丰富的功能,如网络连接、OTA 升级、设备激活等,同时支持多种语言。无论是开发爱好者还是专业开发者,都能借助该项目快速搭建起高效的 AI 语音交互系统,为智能设备开发提供强大助力。
一个用于 OCR 的项目,支持多种模型和服务器进行 PDF 到 Markdown 的转换,并提供测试和报告功能。
olmocr 是一个专注于光学字符识别(OCR)的 Python 项目,由 Allen Institute for Artificial Intelligence 开发。它支持多种模型和服务器,如 vllm、sglang、OpenAI 等,可将 PDF 文件的页面转换为 Markdown 格式。项目还提供了测试框架和 HTML 报告生成功能,方便用户对 OCR 结果进行评估和分析。适用于科研、文档处理等领域,有助于提高工作效率和准确性。
飞书多维表格 ×DeepSeek R1 满血版
飞书多维表格联合 DeepSeek R1 模型,提供 AI 自动化解决方案,支持批量写作、数据分析、跨模态处理等功能,适用于电商、短视频、影视创作等场景,提升企业生产力与创作效率。关键词:飞书多维表格、DeepSeek R1、AI 自动化、批量处理、企业协同工具。
最新AI工具、AI资讯
独家AI资源、AI项目落地
微信扫一扫关注公众号