实习生 · 万卷多模态语料库
英文🌎|简体中文🀄
实习生 · 万卷1.0
实习生 · 万卷1.0是实习生 · 万卷多模态语料库的首个开源版本,包括文本数据集、图文数据集和视频数据集三个部分,总数据量超过2TB。基于大模型数据联盟构建的语料库,上海人工智能实验室对部分数据进行了精细化清洗、去重和价值观对齐,形成了实习生 · 万卷1.0,具有多元集成、精细处理、价值观对齐、易用高效等四个特点。
-
在多元集成方面,实习生 · 万卷1.0包含文本、图像和视频等多模态数据,涵盖科技、文学、媒体、教育和法律等多个领域。它在提升知识内容、逻辑推理和泛化能力方面具有显著效果。
-
在精细处理方面,实习生 · 万卷1.0经过了语言筛选、文本提取、格式规范化、基于规则和模型的数据过滤和清洗、多尺度去重以及数据质量评估等精细的数据处理环节。因此,它能更好地满足后续模型训练的需求。
-
在价值观对齐方面,在构建实习生 · 万卷1.0的过程中,研究人员注重内容与中国主流价值观的对齐,通过算法和人工评估相结合的方式提高了语料库的纯度。
-
在易用高效方面,研究人员在实习生 · 万卷1.0中采用了统一的格式,并提供了详细的字段说明和工具指导,使其易于使用且高效。让它可以快速应用于多模态大语言模型(MLLMs)或大语言模型(LLM)的训练。
目前,实习生 · 万卷1.0已应用于实习生多模态和实习生浦语等大模型的训练。通过对高质量语料库的"消化",实习生系列模型在语义理解、知识问答、视觉理解和视觉问答等各种生成任务中表现出色。
论文:https://arxiv.org/pdf/2308.10755.pdf
实习生 · 万卷1.0 - 文本数据集
- 简介
实习生 · 万卷1.0文本数据集由网页、百科、图书、专利、教材和试题等不同来源的经过清洗的预训练语料组成。总数据量超过5亿条文档,数据大小超过1TB。该语料库将html、text、pdf和epub等各种格式的数据处理成统一字段的jsonl格式。经过精细化清洗、去重和价值观对齐后,形成了安全可靠、高质量的预训练语料库。
- 组成
- 样本
{
"id": "BkORdv3xK7IA0HG7pccr",
*诗作[222]
索菲娅·马克思笔记本中的记录
#### 生命
时光飞逝如流水;
逝去的永不归还。
生即是死,
生命不断消逝;
人们奋斗不止,
却难脱困境;
人生路尽,
终归虚无;
事业与追求
湮没于时光潮流。
精灵嘲笑人的事业;
因人欲强烈,
而人生路窄且迷茫;
得意后随之懊悔;
无尽悔恨
藏于心中;
人追求的目标
其实渺小;
若人生局限于此,
不过空虚游戏。
有人自诩不凡,
实则平庸;
此等人命运,
终将自我丑化。
卡尔·马克思
#### 查理大帝
高贵心灵深感动容,
美好心灵欣喜若狂,
如今蒙上阴霾,
野蛮之手亵渎圣洁。
格拉亚山崇高诗人,
曾满怀激情歌颂,
激昂歌声永不磨灭,
诗人沉醉幸福欢乐。
狄摩西尼热情澎湃,
曾滔滔雄辩宣讲,
面对人山人海,
大胆嘲讽菲力浦王。
那是崇高与美,
缪斯神圣光辉笼罩,
令缪斯子孙陶醉,
今被野蛮人摧毁。
查理大帝挥动魔杖,
唤醒缪斯重现光明;
美离开幽深墓穴,
艺术重放光芒。
他改变陈规陋习,
发挥教育神奇力量;
民众安居乐业,
法律成安全保障。
他征战无数,
尸横遍野血染疆场;
雄才大略英勇顽强,
胜利中隐含祸殃;
为善良人类赢得花冠,
胜过一切战功;
他战胜时代蒙昧,
获得崇高奖赏。
在无尽世界历史中,
他将永世不被遗忘,
历史为他编织桂冠,
永不湮没于时代激浪。
卡尔·马克思 1833年
#### 莱茵河女神
**叙事诗**
(见本卷第885—889页)
#### 盲女
**叙事诗**
(见本卷第852—858页)
#### 两重天
**乘马车赴柏林途中**
(见本卷第475—478页)
#### 父亲诞辰献诗。1836年
**(见本卷第845—846页)**
#### 席勒
**十四行诗两首**
(见本卷第846—847页)
#### 歌德
**十四行诗两首**
(见本卷第848—849页)
#### 女儿
**叙事诗**
(见本卷第838—841页)
Die unglückliche Dame
**Erzählgedicht**
(Siehe S. 533-537 in diesem Band)
Geschrieben von Karl Marx zwischen 1833 und ca. 1837
Erstmals im Original veröffentlicht in Marx-Engels-Gesamtausgabe, 1975, Historisch-kritische Ausgabe, Abteilung I, Band 1
Auf Russisch veröffentlicht in Marx-Engels-Gesamtausgabe, 1975, Moskauer Ausgabe, Band 40
Originalsprache: Deutsch
Übersetzt aus Marx-Engels-Gesamtausgabe, 1975, Historisch-kritische Ausgabe, Abteilung I, Band 1
---
**Anmerkung:**
[222] Diese Gedichte von Marx wurden von seiner Schwester Sophie in ein Notizbuch kopiert. Neben Marx' Gedichten enthält das Notizbuch auch Gedichte anderer Personen sowie persönliche Aufzeichnungen von Sophie und ihren Freunden und Verwandten. Mit Ausnahme von "Das Leben" und "Karl der Große" sind alle diese Gedichte von Marx in seinen Gedichtsammlungen und Sophies Erinnerungsalbum erschienen. Das Gedicht "Karl der Große" ist auf 1833 datiert, was zeigt, dass Marx bereits in seiner Gymnasialzeit mit dem Dichten begann. "Die blinde Sängerin" ist auf 1835 datiert. Die Gedichte, die Marx zum Geburtstag seines Vaters Heinrich Marx schrieb, müssen spätestens Anfang 1836 entstanden sein. - 913.
**- 字段**
** - id:** [字符串类型] 文档的唯一标识符。
** - content:** [字符串类型] 文档的内容,格式为普通文本格式或Markdown格式。
<br>
## Intern · WanJuan 1.0 - 图文数据集
- 简介
Intern · WanJuan 1.0 - 图文数据集的数据主要来源于公开网页,经过处理形成图文交错的文档。文档总数超过2200万,数据规模超过140GB(不含图片),涵盖新闻事件、人物、自然景观、社会生活等领域。数据采用统一的jsonl格式,其中图片以url形式给出。如需获取图片数据,可使用以下脚本:
https://github.com/opendatalab/image-downloader
- 组成
![](https://mmbiz.qpic.cn/sz_mmbiz_png/7yjDpC9UfD7vkz4XTP9dNyQZNeGmJjySTG634PTTIbmFIJlDZUfKGrXYibkgXCU3E58mrZIn0ibW0oia2mUOrv31Q/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1)
- 样例
![](https://mmbiz.qpic.cn/sz_mmbiz_png/7yjDpC9UfD7vkz4XTP9dNyQZNeGmJjySJWLdsY1qx1EAI8xAra8HnEunics0sqTQjNI6VhzM3SdINw3ojvtP9Uw/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1)
```json
{
"id": "BkKuk1zxK3YAbgNSWYik",
"img_list": [
{
"url": "https://yellow-cdn.veclightyear.com/835a84d5/18938f7b-4bcd-4ad2-8856-ae548628c906.jpg",
"sha256": "019cca88f37ae5ffe59ad48ad5c392fe64e489f08e841b6ea50c79c18f5c6ec3",
"caption": "",
"width": "400",
"height": "266"
}
],
![](https://yellow-cdn.veclightyear.com/835a84d5/18938f7b-4bcd-4ad2-8856-ae548628c906.jpg)
百年奋斗之路
启航新征程
走进觉悟社当年社员开会的房间,桌子中间摆放的一盘纸条格外引人注目,周恩来"伍豪"和邓颖超"逸豪"的笔名就诞生于此。
"为了斗争的需要,觉悟社社员们采取抓阄的办法,以号取名。"1月19日,天津觉悟社纪念馆助理馆员迟爱民讲述了102年前的情景:当时年纪最小的邓颖超抓到了最小数字1号,所以叫"逸豪"。周恩来抓到5号,就取名"伍豪"。
时间回到1919年那个思潮澎湃的年代。在天津,以周恩来为代表的一批以天下为己任的先进分子,在众多新思潮中艰难地探索革命真理。通过觉悟社的锻炼和洗礼,其主要成员成长为我国早期的共产主义者。周恩来也在这个时期成为马克思主义的宣传者。
诞生:冲破封建束缚探索革命真理
觉悟社成立于"五四运动"在天津发展到最高潮的阶段。
觉悟社纪念馆中的一张合影,记录下了这一张张充满青春朝气的脸庞。他们神色凝重,目光坚定,这些人就是觉悟社成立之初的部分社员。
"这个比一般学生爱国团体更加严密的组织的成立,源于之前一次赴京请愿斗争。"迟爱民介绍,1919年9月2日,周恩来等天津各界联合会、学生联合会、女界爱国同志会的先进青年在返津途中,经过交流,一致认为,应该成立一个研究新思潮,探索革命真理,冲破封建习俗束缚,由男女同学共同组建的团体。
1919年9月16日,在天津东南角草场庵天津学生联合会办公室里,革命青年团体觉悟社诞生了。出席成立会的男女各10名成员成为最初的社员,包括周恩来、邓颖超、马骏、刘清扬、郭隆真等。
周恩来执笔起草了《觉悟的宣言》。觉悟社成立后,以"革心"和"革新"的精神组织演讲,出版刊物《觉悟》,探讨研究新思潮,很快就成为天津学生爱国运动的中坚力量。
引领:觉悟社成立5天后李大钊应邀前来
在波澜起伏的斗争中,周恩来和觉悟社社员们迫切感到,要用先进思想武装头脑。
觉悟社社员谌小岑曾回忆道,在觉悟社成立后第5天,我国最早的马克思主义者、中国共产党先驱李大钊就应邀到觉悟社座谈。李大钊听完邓颖超对觉悟社的介绍后,对觉悟社深表赞许,他表示"觉悟社是男女平等、社交公开的先行"。
在李大钊的启发下,觉悟社成员阅读了李大钊发表在《新青年》上的《庶民的胜利》《布尔什维主义的胜利》《我的马克思主义观》等文章。还邀请徐谦、包世杰、钱玄同、刘半农等来演讲,并召开讨论会。
天津市委党校文史教研部副主任徐娜表示,觉悟社社员们学习、讨论中国最早的马列主义文献,并积极投身实践斗争,为他们选择信仰马克思主义、走上共产主义道路进行了最初的启蒙与引导。
影响:觉悟社多人加入中国共产党
1920年1月29日,在抵制日货的斗争中,周恩来、马骏等人被捕,成立仅4个月的觉悟社受到沉重打击。纪念馆展厅中的两本书《警厅拘留记》和《检厅日录》,记录了青年们斗争的艰难和残酷。身陷囹圄的周恩来先后用6个晚上,向狱友介绍马克思主义学说。出狱后,编写了3.5万字的《警厅拘留记》和《检厅日录》。在后来旅法期间,周恩来说"我的思想是颤动于狱中",可以说这是周
这是周恩来马克思主义世界观形成的重要时期。
1920年11月,随着周恩来、刘清扬、郭隆真等人前往法国勤工俭学,觉悟社的社员们开始分散,觉悟社的集体活动也随之停止……
尽管觉悟社存在的时间不长,但为一批年轻人树立马克思主义信仰奠定了坚实基础。徐娜表示,作为"五四"运动爆发后在天津影响最广泛、作用最突出的进步学生组织,觉悟社表现出反对封建主义、憎恨一切剥削和压迫的进步思想,为接受马克思主义做好了准备。随后,远赴欧洲勤工俭学的周恩来加入了中国共产党八个发起组之一的巴黎共产主义小组,成为中国共产党创建人之一。而其他觉悟社主要社员如马骏、邓颖超、郭隆真等也都加入了中国共产党,成为革命的骨干力量。
- 字段
- id: [字符串类型] 文档的唯一ID。
- img_list: [数组类型], 文档中包含的图片列表。每张图片的信息包括网络url、url的sha256、长度和宽度。
- content: [字符串类型] 文档的内容,格式为普通文本格式或Markdown格式。
<br>
## Intern · 万卷1.0 - 视频数据集
- 简介
Intern · 万卷1.0视频数据集主要来自中央广播电视总台和上海广播电视台。它包含各类节目视频,有1000多个视频文件,数据大小超过900GB。内容涵盖军事、文艺、体育、自然、真实社会、知识、视频艺术、媒体、美食、历史纪录片、科教等。
- 组成
![图片](https://mmbiz.qpic.cn/sz_mmbiz_png/7yjDpC9UfD7vkz4XTP9dNyQZNeGmJjySQnSGLrzp6tUVn2P5kZ5RuERiaibf5vSFibJUZtFWhT8rZmaslBTjicBI4Q/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1)
- 示例
![](https://mmbiz.qpic.cn/sz_mmbiz_png/7yjDpC9UfD7vkz4XTP9dNyQZNeGmJjyS9H6XnjNibfo5DJh7hscAGmeSvJ6ohVgnBAKk2blTSVIqNUKXicQ8984g/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1)
## 下载链接
要下载完整数据集,请访问:
[https://opendatalab.org.cn/WanJuan1.0](https://opendatalab.org.cn/OpenDataLab/WanJuan1_dot_0/tree/main?source=R2l0aHVi)
## 许可证
整个Intern · 万卷1.0采用CC BY 4.0许可协议。您可以自由分享和改编该数据集,但需遵守以下条件:
- 署名:您必须给予适当的署名,提供指向协议的链接,并说明是否对原始数据集进行了修改。您可以以任何合理的方式这样做,但不得以任何方式暗示许可人认可您或您的使用。
- 不得增加额外限制:您不得使用法律条款或技术措施来限制他人做协议允许的任何事情。
有关协议的完整内容,请访问[CC BY 4.0协议全文](https://creativecommons.org/licenses/by/4.0/)。
## 特别注意事项
请注意,该数据集的某些子集可能受其他协议约束。在使用特定子集之前,请务必仔细阅读相关协议,以确保合规使用。有关更详细的协议信息,请查看特定子集的相关文档或元数据。
作为非营利组织,OpenDataLab倡导和谐友好的开源交流环境。如果您在开源数据集中发现任何侵犯您合法权益的内容,可以发送邮件至(OpenDataLab@pjlab.org.cn),请在邮件中说明相关侵权事实的详细描述,并向我们提供相关所有权证明材料。我们将在3个工作日内启动调查处理机制,并采取必要措施处理(如下所列)。但您应确保投诉的真实性,否则应自行承担采取措施后的不利后果。
## 更新日志
2023-10-20:安全升级:进一步清理和提高语料库的纯度,升级后总文件大小为2047.6GB
2023-08-14:首次发布
## 引用
@misc{he2023wanjuan, title={WanJuan: A Comprehensive Multimodal Dataset for Advancing English and Chinese Large Models}, author={Conghui He and Zhenjiang Jin and Chao Xu and Jiantao Qiu and Bin Wang and Wei Li and Hang Yan and Jiaqi Wang and Dahua Lin}, year={2023}, eprint={2308.10755}, archivePrefix={arXiv}, primaryClass={cs.CL} }