概述

本仓库包含Microsoft Azure公开发布的跟踪数据，以造福研究和学术社区。目前有两类跟踪数据：

虚拟机跟踪：两个代表性的Microsoft Azure虚拟机(VM)工作负载跟踪数据，分别收集于2017年和2019年，以及一个专门用于研究打包算法的VM请求跟踪数据。
Azure Functions跟踪：Azure Functions调用的代表性跟踪数据，收集于2019年的两周内，以及Azure Functions blob访问的跟踪数据，收集于2020年11月至12月之间。
Azure LLM推理跟踪：LLM推理调用的代表性跟踪数据，包含输入和输出令牌，收集于2023年11月。

我们按原样提供这些跟踪数据，但愿意帮助研究人员理解和使用它们。如有任何问题或疑问，请发送电子邮件至我们的邮件列表。

按论文快速链接：

论文"Resource Central: Understanding and Predicting Workloads for Improved Resource Management in Large Cloud Platforms"(SOSP'17)的跟踪数据(2017)(2019)
论文"Serverless in the Wild: Characterizing and Optimizing the Serverless Workload at a Large Cloud Provider"(ATC'19)的跟踪数据(2019)
论文"Protean: VM Allocation Service at Scale"(OSDI'20)的跟踪数据(2020)
论文"Faa$T: A Transparent Auto-Scaling Cache for Serverless Applications"(SoCC'21)的跟踪数据(2020)
论文"Splitwise: Efficient generative LLM inference using phase splitting"(ISCA'24)的跟踪数据(2023)
论文"Designing Cloud Servers for Lower Carbon"(ISCA'24)的数据集和代码(2023)

这些跟踪数据是Azure某一地理区域第一方VM工作负载的经过清理的子集。我们提供了jupyter笔记本，直接比较每个跟踪数据与其对应的完整VM工作负载的主要特征，显示它们在定性上非常相似（2019年的VM部署规模除外）。比较这两个跟踪数据的特征说明了工作负载在这两年间如何变化。

如果您在研究中使用这些VM跟踪数据，请务必引用我们的SOSP'17论文"Resource Central: Understanding and Predicting Workloads for Improved Resource Management in Large Cloud Platforms"，其中包含了2017年Azure VM工作负载的完整分析。

AzureTracesForPacking2020 - 该数据集代表Microsoft Azure计算服务的部分工作负载，专门用于评估打包算法。数据集包括：
- VM请求及其优先级
- 每个请求的VM生命周期
- 每种VM类型分配的（标准化）资源

如果您在研究中使用Azure打包跟踪数据，请务必引用我们的OSDI'20论文"Protean: VM Allocation Service at Scale"，其中包含Azure分配器及相关工作负载分析的描述。

AzureFunctionsDataset2019 - 这些跟踪数据包含2019年7月运行在Azure Functions上的部分应用程序的以下信息：
- 每分钟每个（匿名化）函数被调用的次数及其对应的触发器组
- （匿名化）函数如何分组到（匿名化）应用程序中，以及应用程序如何按（匿名化）所有者分组
- 每个函数的执行时间分布
- 每个应用程序的内存使用分布

如果您在研究中使用2019年Azure Functions跟踪数据，请务必引用我们的ATC'20论文"Serverless in the Wild: Characterizing and Optimizing the Serverless Workload at a Large Cloud Provider"，其中包含2019年7月Azure Functions工作负载的完整分析。

AzureFunctionsInvocationTrace2021 - 这是从2021-01-31开始的两周函数调用跟踪。跟踪包含调用到达和离开（或完成）时间，具有以下模式：
- app：应用程序ID（加密）
- func：函数ID（加密），仅在应用程序内唯一
- end_timestamp：函数调用结束时间戳（毫秒）
- duration：函数调用持续时间（毫秒）

如果您在研究中使用2021年Azure Functions跟踪数据，请引用这篇SOSP'21论文"Faster and Cheaper Serverless Computing on Harvested Resources"。

AzureFunctionsBlobDataset2020 - 这是Microsoft Azure Functions中blob访问的样本，收集于2020年11月23日至12月6日。该数据集是SoCC 2021论文"Faa$T: A Transparent Auto-Scaling Cache for Serverless Applications"中描述和分析的数据。

AzureLLMInferenceDataset2023 - 这是Azure中两个LLM推理服务的样本，包含输入和输出令牌。该数据集收集于2023年11月11日。其中包含ISCA 2024论文"Splitwise: Efficient generative LLM inference using phase splitting"中描述和分析的数据。