RecSysDatasets

RecSysDatasets

推荐系统公开数据集汇总及处理工具

RecSysDatasets是一个汇总公开推荐系统数据集的开源项目。该项目收集了电商、广告、电影等多个领域的数据集,并提供将数据集转换为统一格式的工具。这有助于研究人员更便捷地获取和使用各类推荐系统数据集,为算法开发和评估提供支持。项目与RecBole推荐系统库集成,便于进行算法测试。

推荐系统数据集RecBole数据处理模型评估Github开源项目

推荐系统数据集

这是一个公开推荐系统(RS)数据源的仓库。

所有这些推荐数据集都可以转换为RecBole中定义的原子文件,RecBole是一个统一、全面且高效的推荐库。

转换为原子文件后,您可以轻松使用RecBole来测试不同推荐模型在这些数据集上的性能。有关RecBole的更多信息,请参阅RecBole

使用方法

为了使用RecBole,您需要将这些原始数据集转换为RecBole定义的一种数据格式——原子文件。

我们提供两种方法将这些数据集转换为原子文件:

  1. 下载原始数据集并使用我们在此仓库中提供的转换工具进行处理。请参阅转换工具

  2. 直接下载已处理的原子文件。百度网盘(密码:e272),Google Drive

数据集链接及简介

购物

  • Amazon: Amazon评论数据包括评论(评分、文本、有用性投票)和产品元数据(描述、类别信息、价格、品牌和图像特征),包括2014年的早期版本和2018年的更新版本。 我们处理过的数据集详情在此
    • Amazon 2014:该数据集包含来自Amazon的产品评论和元数据,涵盖24个类别和1.428亿条评论,时间跨度为1996年5月至2014年7月。
    • Amazon 2018:该数据集是2014年发布的Amazon评论数据集的更新版本。总评论数为2.331亿,类别数为29个(2014年为1.428亿和24个),当前数据包括1996年5月至2018年10月的评论。
  • Amazon_M2: 这个数据集是来自六种不同语言环境的匿名客户会话集合:英语、德语、日语、法语、意大利语和西班牙语。
  • Alibaba-iFashion: 这个数据集是一个时尚服饰数据集,收集自阿里巴巴在线购物系统,用于POG论文。每个服饰搭配中的商品被视为推荐给用户的商品,每件商品包含类别和标题等属性。
  • Epinions: 这个数据集收集自Epinions.com,一个流行的在线消费者评论网站。它包含用户之间的信任关系,时间跨度超过十年,从2001年1月到2013年11月。
  • Yelp: 这个数据集收集自Yelp。Yelp数据集是我们的商业、评论和用户数据的子集,用于个人、教育和学术目的。 从2018年Yelp挑战赛开始(此竞赛的原始链接已找不到,且不会再有新一轮的Yelp数据集挑战),总共有四个版本的Yelp数据集,Yelp还在Kaggle上发布了数据集,您也可以在那里下载几个早期版本。 我们处理过的5个数据集详情在此
    • Yelp 2018:这是2018年Yelp挑战赛发布的第一个版本的Yelp数据集,包含5,261,669条评论。
    • Yelp 2020:这是2020年发布的第二个版本的Yelp数据集,包含8,021,122条评论。
    • Yelp 2021:这是2021年发布的第一个版本的Yelp数据集,包含8,635,403条评论。
    • Yelp 2022:这是最新版本的Yelp数据集,包含1,987,897位用户对131,930家商家的908,915条提示,以及超过120万个商业属性,如营业时间、停车、可用性和氛围等随时间汇总的签到信息。
    • Yelp-full:这是一个组合数据集,包括上述四个版本的Yelp数据集,去除重复后总评论数为28,908,240条。
  • Tmall: 这个数据集由蚂蚁金融服务集团提供,用于IJCAI16比赛。
  • DIGINETICA: 该数据集包括从电子商务搜索引擎日志中提取的用户会话,包含匿名用户ID、哈希处理的查询、哈希处理的查询词、哈希处理的产品描述和元数据、对数缩放的价格、点击和购买信息。
  • YOOCHOOSE: 这个数据集由YOOCHOOSE GmbH构建,用于支持2015年RecSys挑战赛的参与者。
  • Retailrocket: 这些数据收集自真实的电子商务网站。它是原始数据,即没有进行任何内容转换,但由于保密问题,所有值都经过了哈希处理。
  • Ta Feng: 该数据集包含2000年11月至2001年2月的中国杂货店交易数据。

广告

  • Criteo: 该数据集收集自Criteo,包含了Criteo在几天内的部分流量数据。

  • Avazu: 该数据集用于Avazu点击率预测竞赛。

  • iPinYou: 该数据集由iPinYou提供,包含了iPinYou全球实时竞价(RTB)竞价算法竞赛三个赛季的所有训练数据集和排行榜测试数据集。

  • AliEC: Ali_Display_Ad_Click是一个关于淘宝网站展示广告点击率预测的数据集。该数据集由阿里巴巴公司提供。

签到

  • Foursquare: 该数据集包含了纽约和东京约10个月的签到数据。 每次签到都与其时间戳、GPS坐标和语义意义相关联。

  • Gowalla: 该数据集来自一个基于位置的社交网站,用户通过签到分享他们的位置。包含了这些用户在2009年2月至2010年10月期间的总计6,442,890次签到记录。

电影

  • MovieLens: GroupLens Research从他们的电影网站收集并提供了评分数据集。
  • Netflix: 这是Netflix Prize竞赛中使用的官方数据集。
  • 豆瓣: 豆瓣电影是一个允许互联网用户分享电影评论和观点的中文网站。 该数据集包含了豆瓣电影网站上28部电影的超过200万条短评。
  • Twitch: 这是一个用户在Twitch上消费流媒体内容的数据集。我们每10分钟检索一次所有主播和他们各自聊天室中连接的所有用户,持续43天。
    • Twitch-100k:Twitch-100k是为基准测试目的而选取的10万用户子集。代码可在此GitHub仓库中获得。
    • Twitch-full:查看包含所有Twitch文件的Google Drive文件夹。Twitch-full包含完整数据集,而Twitch-100k是其子集。

音乐

  • Last.FM: 该数据集包含来自Last.fm在线音乐系统的2000名用户的社交网络、标签和音乐艺术家收听信息。
  • LFM-1b: 该数据集包含超过120,000名Last.FM用户创建的超过10亿次音乐收听事件。 每个收听事件都包含艺术家、专辑和曲目名称,以及时间戳。
  • Yahoo Music: 该数据集代表了Yahoo! Music社区对各种音乐艺术家偏好的快照。
  • KGRec: 音乐和声音推荐与知识图谱是两个不同的数据集,提供了用户、项目、用户与项目之间的隐式反馈交互、项目标签和项目文本描述,一个用于音乐推荐(KGRec-music),另一个用于声音推荐(KGRec-sound)。
    • KGRec-music:所有数据来自songfacts.comlast.fm网站。项目是歌曲,通过从songfacts.com提取的文本描述和last.fm的标签进行描述。
    • KGRec-sound:所有数据来自Freesound.org。项目是声音,通过声音创作者在上传时创建的文本描述和标签进行描述。
  • Music4All-Onion:该数据集扩展了Music4All数据集,为109,269首音乐作品增加了26个额外的音频、视频和元数据特征。

图书

  • Book-Crossing: 这个数据集是由Cai-Nicolas Ziegler在2004年8月/9月的4周内从Book-Crossing社区爬取的,得到了Humankind Systems首席技术官Ron Hornbaker的许可。 它包含278,858名用户(匿名但有人口统计信息)对271,379本书提供的1,149,780条评分(显式/隐式)。

  • GoodReads: 这个数据集包含来自Goodreads图书评论网站的评论,以及描述这些项目的各种属性。重要的是,数据集有多个用户交互级别,从加入书架、评分到阅读。

游戏

  • Steam: 这个数据集是来自Steam的评论和游戏信息,包含7,793,069条评论,2,567,538名用户和32,135款游戏。 除了评论文本,数据还包括用户在每条评论中的游戏时长。

动漫

图片

  • Pinterest: 这个数据集最初由论文"Learning image and user features for recommendations in social networks"构建,用于评估基于内容的图像推荐,并由论文"Neural Collaborative Filtering"处理。

笑话

  • Jester: 这个数据集包含Jester笑话推荐系统用户对笑话的匿名评分。

练习题

  • KDD2010: 这个数据集在KDD Cup 2010教育数据挖掘挑战赛中发布,包含了学生在系统上提交练习的情况。

  • EndoMondo: 这是一个来自EndoMondo用户的锻炼日志集合。 数据包括多种连续传感器数据,如心率记录、速度、GPS,以及运动类型、性别和天气条件。

网站

  • 钓鱼网站: 这个数据集包含11,055个网站的30种特征,以及它们是否为钓鱼网站的标签。 网站特征包括12个基于地址栏的特征、6个基于异常的特征、5个基于HTML和JavaScript的特征,以及7个基于域名的特征。

  • Behance: 这是一个小型的、匿名化的版本,源自社区艺术网站Behance的更大型专有数据集,包含点赞和图像数据。

成人

  • 成人: 这个数据集由Barry Becker从1994年人口普查数据库中提取,包含一系列人们的属性以及他们的年收入是否超过5万美元。

新闻

  • MIND: 这个数据集是一个用于新闻推荐研究的大规模数据集。它从微软新闻网站的匿名行为日志中收集。 MIND包含约16万篇英文新闻文章和超过1500万条由100万用户生成的浏览记录。

食品

  • 大众点评: 这个数据集包含从著名的中国在线评论网站大众点评网抓取的用户评论以及详细的商家元数据信息,包括510,071名用户对209,132家商家的3,605,300条评论。

  • 食品: 这些数据集包含来自Food.com(前身为GeniusKitchen)的菜谱详情和评论。数据包括烹饪菜谱和评论文本。

饮料

  • BeerAdvocate: 这个数据集包括具有多个评分维度的啤酒评论,涵盖了味道、外观、口感和气味等感官方面。
  • RateBeer: 这个数据集包含具有多个评分维度的啤酒评论,包括带有味道、外观、口感和气味等感官方面的商品属性。

服装

数据集信息统计

通用数据集

序号数据集用户数物品数交互数稀疏度交互类型时间戳用户上下文物品上下文交互上下文
1MovieLens----评分
2Anime73,51511,2007,813,73799.05%评分 <br> [-1, 1-10]
3Epinions116,26041,269188,47899.99%评分 <br> [1-5]
4Yelp<br>(5个版本)----评分 <br> [1-5]
5Netflix480,18917,770100,480,50798.82%评分 <br> [1-5]
6Book-Crossing105,284340,5571,149,78099.99%评分 <br> [0-10]
7Jester73,4211014,136,36044.22%评分 <br> [-10, 10]
8豆瓣738,701282,125,05689.73%评分 <br> [0,5]
9Yahoo Music1,948,88298,21111,557,94399.99%评分 <br> [0, 100]
10KDD2010----评分
11Amazon<br>(2014 & 2018)----评分<br/> [0,5]
12Pinterest55,1879,9111,445,62299.74%-
13Gowalla107,0921,280,9696,442,89299.99%签到
14Last.FM1,89217,63292,83499.72%点击
15DIGINETICA204,789184,047993,48399.99%点击
16Steam2,567,53832,1357,793,06999.99%购买
17Ta Feng32,26623,812817,74199.89%点击
18Foursquare----签到
19Tmall963,9232,353,20744,528,12799.99%点击/购买
20YOOCHOOSE9,249,72952,73934,154,69799.99%点击/购买
21Retailrocket1,407,580247,0852,756,10199.99%浏览/加入购物车/交易
22LFM-1b120,3223,123,4961,088,161,69299.71%点击
23MIND----点击
24BeerAdvocate33,38866,0551,586,61499.9281%评分<br/> [0,5]
25Behance63,497178,7881,000,00099.9912%点赞
26大众点评542,706243,2474,422,47399.9967%评分<br/> [0,5]
27EndoMondo1,104253,020253,02099.9094%运动日志
28食品226,570231,6371,132,36799.9978%评分<br/> [0,5]
29GoodReads876,1452,360,650228,648,34299.9889%评分<br/> [0,5]
30KGRec----点击
31ModCloth47,9581,37882,79099.8747%评分<br/> [0,5]
32RateBeer29,265110,3692,924,16399.9095%总体评分<br/> [0,20]
33RentTheRunway105,5715,850192,54499.9688%评分<br/> [0,10]
34Twitch15,524,3096,161,666474,676,92999.9995%点击
35亚马逊_M23,606,3491,410,67515,306,183-点击
36Music4All-Onion119,140109,269252,984,396-点击

CTR数据集

序号数据集用户数物品数交互数稀疏度交互类型时间戳用户上下文物品上下文交互上下文
1Criteo--45,850,617-点击
2Avazu--40,428,967-点击 <br> [0, 1]
3iPinYou19,731,66016324,637,65799.23%浏览/点击
4钓鱼网站--11,055-
5Adult--32,561-收入>=50k <br> [0, 1]
6阿里巴巴-iFashion3,569,1124,463,302191,394,39399.9988%点击
7AliEC491,647240,1301,366,05699.9988%点击

知识感知数据集

这些知识感知推荐数据集基于KB4Rec,将推荐系统中的物品与Freebase中的实体关联起来。 请注意,Amazon-book数据集是2014年发布的版本。

原始数据集信息

序号数据集物品数关联物品数用户数交互数
1MovieLens27,27825,503138,49320,000,263
2Amazon-book2,370,605108,5158,026,32422,507,155
3LFM-1b (音轨)31,634,4501,254,923120,322319,951,294

经过5-core过滤后(并在LFM-1b中过滤掉收听次数少于10次的音轨)

序号数据集物品数关联物品数用户数交互数
1MovieLens18,34518,057138,49319,984,024
2Amazon-book367,98234,476603,6688,898,041
3LFM-1b (音轨)615,823337,34979,13315,765,756

编辑推荐精选

AEE

AEE

AI Excel全自动制表工具

AEE 在线 AI 全自动 Excel 编辑器,提供智能录入、自动公式、数据整理、图表生成等功能,高效处理 Excel 任务,提升办公效率。支持自动高亮数据、批量计算、不规则数据录入,适用于企业、教育、金融等多场景。

UI-TARS-desktop

UI-TARS-desktop

基于 UI-TARS 视觉语言模型的桌面应用,可通过自然语言控制计算机进行多模态操作。

UI-TARS-desktop 是一款功能强大的桌面应用,基于 UI-TARS(视觉语言模型)构建。它具备自然语言控制、截图与视觉识别、精确的鼠标键盘控制等功能,支持跨平台使用(Windows/MacOS),能提供实时反馈和状态显示,且数据完全本地处理,保障隐私安全。该应用集成了多种大语言模型和搜索方式,还可进行文件系统操作。适用于需要智能交互和自动化任务的场景,如信息检索、文件管理等。其提供了详细的文档,包括快速启动、部署、贡献指南和 SDK 使用说明等,方便开发者使用和扩展。

Wan2.1

Wan2.1

开源且先进的大规模视频生成模型项目

Wan2.1 是一个开源且先进的大规模视频生成模型项目,支持文本到图像、文本到视频、图像到视频等多种生成任务。它具备丰富的配置选项,可调整分辨率、扩散步数等参数,还能对提示词进行增强。使用了多种先进技术和工具,在视频和图像生成领域具有广泛应用前景,适合研究人员和开发者使用。

爱图表

爱图表

全流程 AI 驱动的数据可视化工具,助力用户轻松创作高颜值图表

爱图表(aitubiao.com)就是AI图表,是由镝数科技推出的一款创新型智能数据可视化平台,专注于为用户提供便捷的图表生成、数据分析和报告撰写服务。爱图表是中国首个在图表场景接入DeepSeek的产品。通过接入前沿的DeepSeek系列AI模型,爱图表结合强大的数据处理能力与智能化功能,致力于帮助职场人士高效处理和表达数据,提升工作效率和报告质量。

Qwen2.5-VL

Qwen2.5-VL

一款强大的视觉语言模型,支持图像和视频输入

Qwen2.5-VL 是一款强大的视觉语言模型,支持图像和视频输入,可用于多种场景,如商品特点总结、图像文字识别等。项目提供了 OpenAI API 服务、Web UI 示例等部署方式,还包含了视觉处理工具,有助于开发者快速集成和使用,提升工作效率。

HunyuanVideo

HunyuanVideo

HunyuanVideo 是一个可基于文本生成高质量图像和视频的项目。

HunyuanVideo 是一个专注于文本到图像及视频生成的项目。它具备强大的视频生成能力,支持多种分辨率和视频长度选择,能根据用户输入的文本生成逼真的图像和视频。使用先进的技术架构和算法,可灵活调整生成参数,满足不同场景的需求,是文本生成图像视频领域的优质工具。

WebUI for Browser Use

WebUI for Browser Use

一个基于 Gradio 构建的 WebUI,支持与浏览器智能体进行便捷交互。

WebUI for Browser Use 是一个强大的项目,它集成了多种大型语言模型,支持自定义浏览器使用,具备持久化浏览器会话等功能。用户可以通过简洁友好的界面轻松控制浏览器智能体完成各类任务,无论是数据提取、网页导航还是表单填写等操作都能高效实现,有利于提高工作效率和获取信息的便捷性。该项目适合开发者、研究人员以及需要自动化浏览器操作的人群使用,在 SEO 优化方面,其关键词涵盖浏览器使用、WebUI、大型语言模型集成等,有助于提高网页在搜索引擎中的曝光度。

xiaozhi-esp32

xiaozhi-esp32

基于 ESP32 的小智 AI 开发项目,支持多种网络连接与协议,实现语音交互等功能。

xiaozhi-esp32 是一个极具创新性的基于 ESP32 的开发项目,专注于人工智能语音交互领域。项目涵盖了丰富的功能,如网络连接、OTA 升级、设备激活等,同时支持多种语言。无论是开发爱好者还是专业开发者,都能借助该项目快速搭建起高效的 AI 语音交互系统,为智能设备开发提供强大助力。

olmocr

olmocr

一个用于 OCR 的项目,支持多种模型和服务器进行 PDF 到 Markdown 的转换,并提供测试和报告功能。

olmocr 是一个专注于光学字符识别(OCR)的 Python 项目,由 Allen Institute for Artificial Intelligence 开发。它支持多种模型和服务器,如 vllm、sglang、OpenAI 等,可将 PDF 文件的页面转换为 Markdown 格式。项目还提供了测试框架和 HTML 报告生成功能,方便用户对 OCR 结果进行评估和分析。适用于科研、文档处理等领域,有助于提高工作效率和准确性。

飞书多维表格

飞书多维表格

飞书多维表格 ×DeepSeek R1 满血版

飞书多维表格联合 DeepSeek R1 模型,提供 AI 自动化解决方案,支持批量写作、数据分析、跨模态处理等功能,适用于电商、短视频、影视创作等场景,提升企业生产力与创作效率。关键词:飞书多维表格、DeepSeek R1、AI 自动化、批量处理、企业协同工具。

下拉加载更多