概述
本仓库包含Microsoft Azure公开发布的跟踪数据,以造福研究和学术社区。 目前有两类跟踪数据:
- 虚拟机跟踪:两个代表性的Microsoft Azure虚拟机(VM)工作负载跟踪数据,分别收集于2017年和2019年,以及一个专门用于研究打包算法的VM请求跟踪数据。
- Azure Functions跟踪:Azure Functions调用的代表性跟踪数据,收集于2019年的两周内,以及Azure Functions blob访问的跟踪数据,收集于2020年11月至12月之间。
- Azure LLM推理跟踪:LLM推理调用的代表性跟踪数据,包含输入和输出令牌,收集于2023年11月。
我们按原样提供这些跟踪数据,但愿意帮助研究人员理解和使用它们。如有任何问题或疑问,请发送电子邮件至我们的邮件列表。
按论文快速链接:
- 论文"Resource Central: Understanding and Predicting Workloads for Improved Resource Management in Large Cloud Platforms"(SOSP'17)的跟踪数据(2017)(2019)
- 论文"Serverless in the Wild: Characterizing and Optimizing the Serverless Workload at a Large Cloud Provider"(ATC'19)的跟踪数据(2019)
- 论文"Protean: VM Allocation Service at Scale"(OSDI'20)的跟踪数据(2020)
- 论文"Faa$T: A Transparent Auto-Scaling Cache for Serverless Applications"(SoCC'21)的跟踪数据(2020)
- 论文"Splitwise: Efficient generative LLM inference using phase splitting"(ISCA'24)的跟踪数据(2023)
- 论文"Designing Cloud Servers for Lower Carbon"(ISCA'24)的数据集和代码(2023)
虚拟机跟踪
这些跟踪数据是Azure某一地理区域第一方VM工作负载的经过清理的子集。我们提供了jupyter笔记本,直接比较每个跟踪数据与其对应的完整VM工作负载的主要特征,显示它们在定性上非常相似(2019年的VM部署规模除外)。比较这两个跟踪数据的特征说明了工作负载在这两年间如何变化。
如果您在研究中使用这些VM跟踪数据,请务必引用我们的SOSP'17论文"Resource Central: Understanding and Predicting Workloads for Improved Resource Management in Large Cloud Platforms",其中包含了2017年Azure VM工作负载的完整分析。
跟踪数据位置
- AzurePublicDatasetV1 - 使用2017年Azure VM工作负载数据创建的跟踪,包含约200万台VM和12亿次利用率读数的信息。
- AzurePublicDatasetV2 - 使用2019年Azure VM工作负载数据创建的跟踪,包含约260万台VM和19亿次利用率读数的信息。
Azure打包跟踪数据
-
AzureTracesForPacking2020 - 该数据集代表Microsoft Azure计算服务的部分工作负载,专门用于评估打包算法。数据集包括:
- VM请求及其优先级
- 每个请求的VM生命周期
- 每种VM类型分配的(标准化)资源
如果您在研究中使用Azure打包跟踪数据,请务必引用我们的OSDI'20论文"Protean: VM Allocation Service at Scale",其中包含Azure分配器及相关工作负载分析的描述。
Azure Functions跟踪
函数调用
-
AzureFunctionsDataset2019 - 这些跟踪数据包含2019年7月运行在Azure Functions上的部分应用程序的以下信息:
- 每分钟每个(匿名化)函数被调用的次数及其对应的触发器组
- (匿名化)函数如何分组到(匿名化)应用程序中,以及应用程序如何按(匿名化)所有者分组
- 每个函数的执行时间分布
- 每个应用程序的内存使用分布
如果您在研究中使用2019年Azure Functions跟踪数据,请务必引用我们的ATC'20论文"Serverless in the Wild: Characterizing and Optimizing the Serverless Workload at a Large Cloud Provider",其中包含2019年7月Azure Functions工作负载的完整分析。
-
AzureFunctionsInvocationTrace2021 - 这是从2021-01-31开始的两周函数调用跟踪。跟踪包含调用到达和离开(或完成)时间,具有以下模式:
- app:应用程序ID(加密)
- func:函数ID(加密),仅在应用程序内唯一
- end_timestamp:函数调用结束时间戳(毫秒)
- duration:函数调用持续时间(毫秒)
如果您在研究中使用2021年Azure Functions跟踪数据,请引用这篇SOSP'21论文"Faster and Cheaper Serverless Computing on Harvested Resources"。
Functions Blob访问
- AzureFunctionsBlobDataset2020 - 这是Microsoft Azure Functions中blob访问的样本,收集于2020年11月23日至12月6日。该数据集是SoCC 2021论文"Faa$T: A Transparent Auto-Scaling Cache for Serverless Applications"中描述和分析的数据。
Azure LLM推理跟踪
- AzureLLMInferenceDataset2023 - 这是Azure中两个LLM推理服务的样本,包含输入和输出令牌。该数据集收集于2023年11月11日。其中包含ISCA 2024论文"Splitwise: Efficient generative LLM inference using phase splitting"中描述和分析的数据。
联系我们
如有任何问题或疑问,请发送电子邮件至我们的邮件列表。
这些跟踪数据源于Azure和Microsoft Research之间的合作。