Project Icon

loghub

系统日志数据集资源库 促进AI日志分析研究

Loghub汇集了多个领域的原始系统日志数据集,包括分布式系统、超级计算机和操作系统等。这些未经处理的数据集保留了原始特征,为AI日志分析研究提供了重要资源。项目已获得450多个学术和工业组织的使用,并提供数据集下载和相关研究论文引用,全面支持日志分析研究。

Loghub

Loghub维护着一个系统日志集合,这些日志可以自由访问,用于人工智能驱动的日志分析研究。其中一些日志是从之前的研究中发布的生产数据,而另一些则是从我们实验室环境中的真实系统收集的。在可能的情况下,这些日志未经过清理、匿名化或任何形式的修改。这些日志数据集可以免费用于研究或学术工作。

🤗 我们自豪地宣布,loghub数据集已经被来自工业界和学术界的450多个组织下载,总下载量达到了

目前可用的日志

🔗 通过下载列中的超链接获取原始日志。

数据集描述是否标记时间跨度行数原始大小下载
:open_file_folder: 分布式系统
HDFS_v1Hadoop分布式文件系统日志:heavy_check_mark:38.7小时11,175,6291.47GB:link:
HDFS_v2Hadoop分布式文件系统日志不适用71,118,07316.06GB:link:
HDFS_v3插桩HDFS跟踪日志(TraceBench):heavy_check_mark:不适用14,778,0792.96GB:link:
HadoopHadoop MapReduce作业日志:heavy_check_mark:不适用394,30848.61MB:link:
SparkSpark作业日志不适用33,236,6042.75GB:link:
ZookeeperZooKeeper服务日志26.7天74,3809.95MB:link:
OpenStackOpenStack基础设施日志:heavy_check_mark:不适用207,82058.61MB:link:
:open_file_folder: 超级计算机
BGLBlue Gene/L超级计算机日志:heavy_check_mark:214.7天4,747,963708.76MB:link:
HPC高性能集群日志不适用433,48932.00MB:link:
ThunderbirdThunderbird超级计算机日志:heavy_check_mark:244天211,212,19229.60GB:link:
:open_file_folder: 操作系统
WindowsWindows事件日志226.7天114,608,38826.09GB:link:
LinuxLinux系统日志263.9天25,5672.25MB:link:
MacMac OS日志7.0天117,28316.09MB:link:
:open_file_folder: 移动系统
Android_v1Android框架日志不适用1,555,005183.37MB:link:
Android_v2Android框架日志不适用30,348,0423.38GB:link:
HealthApp健康应用日志10.5天253,39522.44MB:link:
:open_file_folder: 服务器应用
ApacheApache网络服务器错误日志263.9天56,4814.90MB:link:
OpenSSHOpenSSH服务器日志28.4天655,14670.02MB:link:
:open_file_folder: 独立软件
ProxifierProxifier软件日志不适用21,3292.42MB:link:

🔥 引用

如果您在研究中使用了loghub数据集,请引用以下论文:

使用loghub数据集的出版物

出版物论文标题
DSN'07Adam J. Oliner, Jon Stearley. 超级计算机的话语:五个系统日志的研究. IEEE/IFIP 可靠系统与网络国际会议 (DSN), 2007.
SOSP'09Wei Xu, Ling Huang, Armando Fox, David A. Patterson, Michael I. Jordan. 通过挖掘控制台日志检测大规模系统问题. ACM 操作系统原理研讨会 (SOSP), 2009.
KDD'09Adetokunbo Makanju, A. Nur Zincir-Heywood, Evangelos E. Milios. 使用迭代分区聚类事件日志. ACM SIGKDD 知识发现与数据挖掘国际会议 (KDD), 2009.
ISSRE'16Shilin He, Jieming Zhu, Pinjia He, Michael R. Lyu. 经验报告:用于异常检测的系统日志分析. IEEE 软件可靠性工程国际研讨会 (ISSRE), 2016.
DSN'16Pinjia He, Jieming Zhu, Shilin He, Jian Li, Michael R. Lyu. 日志解析及其在日志挖掘中应用的评估研究. IEEE/IFIP 可靠系统与网络国际会议 (DSN), 2016.
ICSE'16Qingwei Lin, Hongyu Zhang, Jian-Guang Lou, Yu Zhang, Xuewei Chen. 基于日志聚类的在线服务系统问题识别. 国际软件工程会议 (ICSE), 2016.
ICWS'17Pinjia He, Jieming Zhu, Zibin Zheng, Michael R. Lyu. Drain:一种基于固定深度树的在线日志解析方法. IEEE 国际网络服务会议 (ICWS), 2017.
CCS'17Min Du, Feifei Li, Guineng Zheng, Vivek Srikumar. DeepLog:通过深度学习进行系统日志异常检测和诊断. ACM 计算机与通信安全会议 (CCS), 2017.
TDSC'18Pinjia He, Jieming Zhu, Shilin He, Jian Li, Michael R. Lyu. 面向大规模日志数据分析的自动化日志解析. IEEE 可靠和安全计算交易 (TDSC), 2018.
TKDE'18Min Du, Feifei Li. Spell:大型非结构化系统日志的在线流式解析. IEEE 知识与数据工程交易 (TKDE), 2018.
ASE'19Jinyang Liu, Jieming Zhu, Shilin He, Pinjia He, Zibin Zheng, Michael R. Lyu. Logzip:通过迭代聚类提取隐藏结构进行日志压缩. IEEE/ACM 自动化软件工程国际会议 (ASE), 2019.
ICSE'19Jieming Zhu, Shilin He, Jinyang Liu, Pinjia He, Qi Xie, Zibin Zheng, Michael R. Lyu. 自动化日志解析的工具和基准. 国际软件工程会议 (ICSE), 2019.
ICSE'22Zanis Ali Khan, Donghwan Shin, Domenico Bianculli, Lionel Briand. 评估日志消息模板识别技术准确性的指南. 国际软件工程会议 (ICSE), 2023.
ICSE'23Van-Hoang Le, Hongyu Zhang. 基于提示的少样本学习的日志解析. 国际软件工程会议 (ICSE), 2023.
ICSE'23Zhenhao Li, Chuan Luo, Tse-Hsun Chen, Weiyi Shang, Shilin He, Qingwei Lin, Dongmei Zhang. 我们是否遗漏了重要内容?研究和探索变量感知的日志抽象. 国际软件工程会议 (ICSE), 2023.
ICSE'23Yintong Huo, Yuxin Su, Cheryl Lee, Michael R. Lyu. SemParser:用于日志分析的语义解析器. 国际软件工程会议 (ICSE), 2023.
WWW'23Liming Wang, Hong Xie, Ye Li, Jian Tan, John C.S. Lui. 通过轻量级用户反馈进行交互式日志解析. ACM 网络会议, 2023.
TSC'23Siyu Yu, Pinjia He, Ningjiang Chen, Yifan Wu. Brain:具有双向并行树的日志解析. IEEE 服务计算交易, 2023.

💡 如果您在论文中使用了loghub数据集,欢迎提交PR将您的论文添加到此表格中。

讨论

欢迎加入我们的微信群进行任何问题讨论。或者,您可以在此处开启讨论

扫描二维码

🌈 许可

这些数据集可免费用于研究或学术工作。对于数据集的任何使用或分发,请参考loghub存储库URL https://github.com/logpai/loghub 并在适用情况下引用loghub论文

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能,包括文生视频、动态画面和形象生成等,帮助用户快速上手,创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台,用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品,帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型,为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能,满足事务性工作的高频需求,帮助撰稿人节省精力,提高效率,优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号