推荐系统数据集
这是一个公开推荐系统(RS)数据源的仓库。
所有这些推荐数据集都可以转换为RecBole中定义的原子文件,RecBole是一个统一、全面且高效的推荐库。
转换为原子文件后,您可以轻松使用RecBole来测试不同推荐模型在这些数据集上的性能。有关RecBole的更多信息,请参阅RecBole。
使用方法
为了使用RecBole,您需要将这些原始数据集转换为RecBole定义的一种数据格式——原子文件。
我们提供两种方法将这些数据集转换为原子文件:
-
下载原始数据集并使用我们在此仓库中提供的转换工具进行处理。请参阅转换工具。
-
直接下载已处理的原子文件。百度网盘(密码:e272),Google Drive。
数据集链接及简介
购物
- Amazon:
Amazon评论数据包括评论(评分、文本、有用性投票)和产品元数据(描述、类别信息、价格、品牌和图像特征),包括2014年的早期版本和2018年的更新版本。
我们处理过的数据集详情在此。
- Amazon 2014:该数据集包含来自Amazon的产品评论和元数据,涵盖24个类别和1.428亿条评论,时间跨度为1996年5月至2014年7月。
- Amazon 2018:该数据集是2014年发布的Amazon评论数据集的更新版本。总评论数为2.331亿,类别数为29个(2014年为1.428亿和24个),当前数据包括1996年5月至2018年10月的评论。
- Amazon_M2: 这个数据集是来自六种不同语言环境的匿名客户会话集合:英语、德语、日语、法语、意大利语和西班牙语。
- Alibaba-iFashion: 这个数据集是一个时尚服饰数据集,收集自阿里巴巴在线购物系统,用于POG论文。每个服饰搭配中的商品被视为推荐给用户的商品,每件商品包含类别和标题等属性。
- Epinions: 这个数据集收集自Epinions.com,一个流行的在线消费者评论网站。它包含用户之间的信任关系,时间跨度超过十年,从2001年1月到2013年11月。
- Yelp:
这个数据集收集自Yelp。Yelp数据集是我们的商业、评论和用户数据的子集,用于个人、教育和学术目的。
从2018年Yelp挑战赛开始(此竞赛的原始链接已找不到,且不会再有新一轮的Yelp数据集挑战),总共有四个版本的Yelp数据集,Yelp还在Kaggle上发布了数据集,您也可以在那里下载几个早期版本。
我们处理过的5个数据集详情在此。
- Yelp 2018:这是2018年Yelp挑战赛发布的第一个版本的Yelp数据集,包含5,261,669条评论。
- Yelp 2020:这是2020年发布的第二个版本的Yelp数据集,包含8,021,122条评论。
- Yelp 2021:这是2021年发布的第一个版本的Yelp数据集,包含8,635,403条评论。
- Yelp 2022:这是最新版本的Yelp数据集,包含1,987,897位用户对131,930家商家的908,915条提示,以及超过120万个商业属性,如营业时间、停车、可用性和氛围等随时间汇总的签到信息。
- Yelp-full:这是一个组合数据集,包括上述四个版本的Yelp数据集,去除重复后总评论数为28,908,240条。
- Tmall: 这个数据集由蚂蚁金融服务集团提供,用于IJCAI16比赛。
- DIGINETICA: 该数据集包括从电子商务搜索引擎日志中提取的用户会话,包含匿名用户ID、哈希处理的查询、哈希处理的查询词、哈希处理的产品描述和元数据、对数缩放的价格、点击和购买信息。
- YOOCHOOSE: 这个数据集由YOOCHOOSE GmbH构建,用于支持2015年RecSys挑战赛的参与者。
- Retailrocket: 这些数据收集自真实的电子商务网站。它是原始数据,即没有进行任何内容转换,但由于保密问题,所有值都经过了哈希处理。
- Ta Feng: 该数据集包含2000年11月至2001年2月的中国杂货店交易数据。
广告
-
Criteo: 该数据集收集自Criteo,包含了Criteo在几天内的部分流量数据。
-
Avazu: 该数据集用于Avazu点击率预测竞赛。
-
iPinYou: 该数据集由iPinYou提供,包含了iPinYou全球实时竞价(RTB)竞价算法竞赛三个赛季的所有训练数据集和排行榜测试数据集。
-
AliEC: Ali_Display_Ad_Click是一个关于淘宝网站展示广告点击率预测的数据集。该数据集由阿里巴巴公司提供。
签到
-
Foursquare: 该数据集包含了纽约和东京约10个月的签到数据。 每次签到都与其时间戳、GPS坐标和语义意义相关联。
-
Gowalla: 该数据集来自一个基于位置的社交网站,用户通过签到分享他们的位置。包含了这些用户在2009年2月至2010年10月期间的总计6,442,890次签到记录。
电影
- MovieLens: GroupLens Research从他们的电影网站收集并提供了评分数据集。
- Netflix: 这是Netflix Prize竞赛中使用的官方数据集。
- 豆瓣: 豆瓣电影是一个允许互联网用户分享电影评论和观点的中文网站。 该数据集包含了豆瓣电影网站上28部电影的超过200万条短评。
- Twitch:
这是一个用户在Twitch上消费流媒体内容的数据集。我们每10分钟检索一次所有主播和他们各自聊天室中连接的所有用户,持续43天。
- Twitch-100k:Twitch-100k是为基准测试目的而选取的10万用户子集。代码可在此GitHub仓库中获得。
- Twitch-full:查看包含所有Twitch文件的Google Drive文件夹。Twitch-full包含完整数据集,而Twitch-100k是其子集。
音乐
- Last.FM: 该数据集包含来自Last.fm在线音乐系统的2000名用户的社交网络、标签和音乐艺术家收听信息。
- LFM-1b: 该数据集包含超过120,000名Last.FM用户创建的超过10亿次音乐收听事件。 每个收听事件都包含艺术家、专辑和曲目名称,以及时间戳。
- Yahoo Music: 该数据集代表了Yahoo! Music社区对各种音乐艺术家偏好的快照。
- KGRec:
音乐和声音推荐与知识图谱是两个不同的数据集,提供了用户、项目、用户与项目之间的隐式反馈交互、项目标签和项目文本描述,一个用于音乐推荐(KGRec-music),另一个用于声音推荐(KGRec-sound)。
- KGRec-music:所有数据来自
songfacts.com
和last.fm
网站。项目是歌曲,通过从songfacts.com
提取的文本描述和last.fm
的标签进行描述。 - KGRec-sound:所有数据来自
Freesound.org
。项目是声音,通过声音创作者在上传时创建的文本描述和标签进行描述。
- KGRec-music:所有数据来自
- Music4All-Onion:该数据集扩展了Music4All数据集,为109,269首音乐作品增加了26个额外的音频、视频和元数据特征。
图书
-
Book-Crossing: 这个数据集是由Cai-Nicolas Ziegler在2004年8月/9月的4周内从Book-Crossing社区爬取的,得到了Humankind Systems首席技术官Ron Hornbaker的许可。 它包含278,858名用户(匿名但有人口统计信息)对271,379本书提供的1,149,780条评分(显式/隐式)。
-
GoodReads: 这个数据集包含来自Goodreads图书评论网站的评论,以及描述这些项目的各种属性。重要的是,数据集有多个用户交互级别,从加入书架、评分到阅读。
游戏
- Steam: 这个数据集是来自Steam的评论和游戏信息,包含7,793,069条评论,2,567,538名用户和32,135款游戏。 除了评论文本,数据还包括用户在每条评论中的游戏时长。
动漫
- Anime: 这个数据集包含来自MyAnimeList.net - 动漫和漫画数据库及社区的用户偏好数据。 每个用户可以将动漫添加到他们的已完成列表并给出评分,这个数据集是这些评分的汇编。
图片
- Pinterest: 这个数据集最初由论文"Learning image and user features for recommendations in social networks"构建,用于评估基于内容的图像推荐,并由论文"Neural Collaborative Filtering"处理。
笑话
- Jester: 这个数据集包含Jester笑话推荐系统用户对笑话的匿名评分。
练习题
-
KDD2010: 这个数据集在KDD Cup 2010教育数据挖掘挑战赛中发布,包含了学生在系统上提交练习的情况。
-
EndoMondo: 这是一个来自EndoMondo用户的锻炼日志集合。 数据包括多种连续传感器数据,如心率记录、速度、GPS,以及运动类型、性别和天气条件。
网站
-
钓鱼网站: 这个数据集包含11,055个网站的30种特征,以及它们是否为钓鱼网站的标签。 网站特征包括12个基于地址栏的特征、6个基于异常的特征、5个基于HTML和JavaScript的特征,以及7个基于域名的特征。
成人
- 成人: 这个数据集由Barry Becker从1994年人口普查数据库中提取,包含一系列人们的属性以及他们的年收入是否超过5万美元。
新闻
食品
-
大众点评: 这个数据集包含从著名的中国在线评论网站大众点评网抓取的用户评论以及详细的商家元数据信息,包括510,071名用户对209,132家商家的3,605,300条评论。
-
食品: 这些数据集包含来自Food.com(前身为GeniusKitchen)的菜谱详情和评论。数据包括烹饪菜谱和评论文本。
饮料
- BeerAdvocate: 这个数据集包括具有多个评分维度的啤酒评论,涵盖了味道、外观、口感和气味等感官方面。
- RateBeer: 这个数据集包含具有多个评分维度的啤酒评论,包括带有味道、外观、口感和气味等感官方面的商品属性。
服装
- ModCloth: 这些数据集包含来自ModCloth的服装合身度测量。
- RentTheRunway: 这些数据集包含来自RentTheRunway的服装合身度测量。
数据集信息统计
通用数据集
序号 | 数据集 | 用户数 | 物品数 | 交互数 | 稀疏度 | 交互类型 | 时间戳 | 用户上下文 | 物品上下文 | 交互上下文 |
---|---|---|---|---|---|---|---|---|---|---|
1 | MovieLens | - | - | - | - | 评分 | √ | √ | √ | |
2 | Anime | 73,515 | 11,200 | 7,813,737 | 99.05% | 评分 [-1, 1-10] | √ | |||
3 | Epinions | 116,260 | 41,269 | 188,478 | 99.99% | 评分 [1-5] | √ | √ | ||
4 | Yelp (5个版本) | - | - | - | - | 评分 [1-5] | √ | √ | √ | √ |
5 | Netflix | 480,189 | 17,770 | 100,480,507 | 98.82% | 评分 [1-5] | √ | |||
6 | Book-Crossing | 105,284 | 340,557 | 1,149,780 | 99.99% | 评分 [0-10] | √ | √ | ||
7 | Jester | 73,421 | 101 | 4,136,360 | 44.22% | 评分 [-10, 10] | ||||
8 | 豆瓣 | 738,701 | 28 | 2,125,056 | 89.73% | 评分 [0,5] | √ | √ | ||
9 | Yahoo Music | 1,948,882 | 98,211 | 11,557,943 | 99.99% | 评分 [0, 100] | √ | |||
10 | KDD2010 | - | - | - | - | 评分 | √ | |||
11 | Amazon (2014 & 2018) | - | - | - | - | 评分 [0,5] | √ | √ | ||
12 | 55,187 | 9,911 | 1,445,622 | 99.74% | - | |||||
13 | Gowalla | 107,092 | 1,280,969 | 6,442,892 | 99.99% | 签到 | √ | √ | ||
14 | Last.FM | 1,892 | 17,632 | 92,834 | 99.72% | 点击 | √ | |||
15 | DIGINETICA | 204,789 | 184,047 | 993,483 | 99.99% | 点击 | √ | √ | ||
16 | Steam | 2,567,538 | 32,135 | 7,793,069 | 99.99% | 购买 | √ | √ | √ | |
17 | Ta Feng | 32,266 | 23,812 | 817,741 | 99.89% | 点击 | √ | √ | √ | √ |
18 | Foursquare | - | - | - | - | 签到 | √ | √ | ||
19 | Tmall | 963,923 | 2,353,207 | 44,528,127 | 99.99% | 点击/购买 | √ | √ | ||
20 | YOOCHOOSE | 9,249,729 | 52,739 | 34,154,697 | 99.99% | 点击/购买 | √ | √ | ||
21 | Retailrocket | 1,407,580 | 247,085 | 2,756,101 | 99.99% | 浏览/加入购物车/交易 | √ | |||
22 | LFM-1b | 120,322 | 3,123,496 | 1,088,161,692 | 99.71% | 点击 | √ | √ | √ | √ |
23 | MIND | - | - | - | - | 点击 | √ | |||
24 | BeerAdvocate | 33,388 | 66,055 | 1,586,614 | 99.9281% | 评分 [0,5] | √ | √ | ||
25 | Behance | 63,497 | 178,788 | 1,000,000 | 99.9912% | 点赞 | √ | √ | ||
26 | 大众点评 | 542,706 | 243,247 | 4,422,473 | 99.9967% | 评分 [0,5] | √ | √ | √ | |
27 | EndoMondo | 1,104 | 253,020 | 253,020 | 99.9094% | 运动日志 | √ | √ | √ | |
28 | 食品 | 226,570 | 231,637 | 1,132,367 | 99.9978% | 评分 [0,5] | √ | √ | ||
29 | GoodReads | 876,145 | 2,360,650 | 228,648,342 | 99.9889% | 评分 [0,5] | √ | √ | ||
30 | KGRec | - | - | - | - | 点击 | √ | |||
31 | ModCloth | 47,958 | 1,378 | 82,790 | 99.8747% | 评分 [0,5] | √ | √ | √ | |
32 | RateBeer | 29,265 | 110,369 | 2,924,163 | 99.9095% | 总体评分 [0,20] | √ | √ | √ | |
33 | RentTheRunway | 105,571 | 5,850 | 192,544 | 99.9688% | 评分 [0,10] | √ | √ | √ | √ |
34 | Twitch | 15,524,309 | 6,161,666 | 474,676,929 | 99.9995% | 点击 | √ | |||
35 | 亚马逊_M2 | 3,606,349 | 1,410,675 | 15,306,183 | - | 点击 | √ | √ | ||
36 | Music4All-Onion | 119,140 | 109,269 | 252,984,396 | - | 点击 | √ | √ | √ |
CTR数据集
序号 | 数据集 | 用户数 | 物品数 | 交互数 | 稀疏度 | 交互类型 | 时间戳 | 用户上下文 | 物品上下文 | 交互上下文 |
---|---|---|---|---|---|---|---|---|---|---|
1 | Criteo | - | - | 45,850,617 | - | 点击 | √ | |||
2 | Avazu | - | - | 40,428,967 | - | 点击 [0, 1] | √ | √ | ||
3 | iPinYou | 19,731,660 | 163 | 24,637,657 | 99.23% | 浏览/点击 | √ | √ | √ | |
4 | 钓鱼网站 | - | - | 11,055 | - | √ | ||||
5 | Adult | - | - | 32,561 | - | 收入>=50k [0, 1] | √ | |||
6 | 阿里巴巴-iFashion | 3,569,112 | 4,463,302 | 191,394,393 | 99.9988% | 点击 | √ | |||
7 | AliEC | 491,647 | 240,130 | 1,366,056 | 99.9988% | 点击 | √ | √ | √ |
知识感知数据集
这些知识感知推荐数据集基于KB4Rec,将推荐系统中的物品与Freebase中的实体关联起来。 请注意,Amazon-book数据集是2014年发布的版本。
原始数据集信息
序号 | 数据集 | 物品数 | 关联物品数 | 用户数 | 交互数 |
---|---|---|---|---|---|
1 | MovieLens | 27,278 | 25,503 | 138,493 | 20,000,263 |
2 | Amazon-book | 2,370,605 | 108,515 | 8,026,324 | 22,507,155 |
3 | LFM-1b (音轨) | 31,634,450 | 1,254,923 | 120,322 | 319,951,294 |
经过5-core过滤后(并在LFM-1b中过滤掉收听次数少于10次的音轨)
序号 | 数据集 | 物品数 | 关联物品数 | 用户数 | 交互数 |
---|---|---|---|---|---|
1 | MovieLens | 18,345 | 18,057 | 138,493 | 19,984,024 |
2 | Amazon-book | 367,982 | 34,476 | 603,668 | 8,898,041 |
3 | LFM-1b (音轨) | 615,823 | 337,349 | 79,133 | 15,765,756 |