SmallLanguageModel
这个仓库包含了从头开始构建你自己的语言模型所需的所有内容。只需按照说明进行操作。受Karpathy的nanoGPT和Shakespeare生成器启发,我创建了这个仓库来构建我自己的语言模型。它包含了从数据收集到模型的架构文件、分词器和训练文件的一切。
仓库结构
这个仓库包含以下内容:
- 数据收集器: 包含网页抓取的目录,以防你想从头开始收集数据而不是下载。
- 数据处理: 包含用于预处理某些文件类型的代码,如将parquet文件转换为.txt和.csv文件及文件追加代码。
- 模型: 包含训练你自己的模型所需的所有代码。一个BERT模型、GPT模型和Seq-2-Seq模型,以及分词器和运行文件。
前置条件
在设置SmallLanguageModel之前,请确保你已经安装了以下前置条件:
- Python 3.8或更高版本
- pip(Python包管理器)
如何使用:
按照以下步骤训练你自己的分词器或从训练好的模型生成输出:
-
克隆这个仓库:
git clone https://github.com/shivendrra/SmallLanguageModel-project cd SLM-clone
-
安装依赖:
pip install requirements.txt
-
训练: 阅读training.md获取更多信息。遵循其指示。
StarHistory
贡献
欢迎提交拉取请求。如果有重大更改,请先打开一个issue讨论你想更改的内容。 请确保适当更新测试。
许可
MIT许可。查看License.md了解更多信息。