transformers 项目介绍
👋 项目简介
transformers项目是由一位软件工程师Peter发起的,这是他进军transformers世界的新尝试。他热情邀请大家与他一起加入这个学习旅程。该课程正在不断完善中,具备免费和开源的特点,将由大家一同构建。在这个过程中,参与者将会探索重要概念,完成实践练习,并分析一些具有重大影响力的学术论文。同时,课程也会借助YouTube视频与Jupyter笔记本进行深入学习与实践。让我们携手踏入transformers的奇妙世界!🚀
🚀 课程内容
🔑 关键概念
- 编码器-解码器架构:transformers的重要组成,助力序列到序列的任务。
- 自注意力机制:模型能够根据输入序列自身的关联性进行信息处理。
- 多头注意力机制:提高模型捕捉不同位置关系的能力。
- 位置编码:在序列中引入位置信息,补足transformers的顺序处理能力。
- 键、查询与值:注意力机制中用于匹配和加权的基本元素。
- 词嵌入:将文字转换为向量表示,使语言信息更易于被模型理解。
- 动态填充:处理不同长度的输入序列,使其适应批处理需求。
- 标记化:将文本拆分为更小的单元,如单词或字符。
🛠️ 实践练习
- 从头开始实现自注意力机制。
- 从零实现多头注意力机制。
- 构建一个简单的transformer模型以完成序列到序列任务。
- 针对特定任务微调预训练模型,如BERT或GPT-2。
- 使用像GPT-2这样的预训练transformer进行文本生成。
- 在自定义数据集上训练ViT进行图像分类。
🗞️ 论文审读
参与者将在课程中共同阅读和讨论一些经典的学术论文,包括:
- 《Attention Is All You Need》 (2017)
- 《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》 (2018)
- 《ViT:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》 (2020)
- 《DETR: End-to-End Object Detection with Transformers》 (2020)
- 《CLIP: Learning Transferable Visual Models From Natural Language Supervision》 (2021)
- 《GPT-3: Language Models are Few-Shot Learners》 (2020)
🎬 即将上线的视频
课程发布计划中包括以下视频:
- 课程简介
- 自注意力机制详解
- 多头注意力机制解析
- 论文解析:《Attention Is All You Need》
🦸 贡献方式
该项目欢迎每一位拥有想法的参与者。无论是纠正错别字、添加内容,还是提出改进建议,大家都可以通过开设问题,帮助提升这个项目的质量。一起让transformers的学习体验更上一层楼!