Project Icon

Phi2-mini-Chinese

从零开始训练0.2B参数的中文语言模型,支持Flash Attention加速

项目包含从数据清洗、tokenizer训练、CLM预训练、SFT微调到RLHF优化的详细步骤,代码和模型已开源,可引用。支持Flash Attention加速,适用于大数据集处理。更多信息及模型权重在huggingface仓库。

Phi2-mini-Chinese 项目介绍

Phi2-mini-Chinese 是一个实验性项目,旨在从零开始训练自己的中文小模型。此项目主要适用于研究和实验目的,并开源了代码与模型权重。项目中使用的预训练数据量较少,如果对效果有更高要求,可以参考 ChatLM-mini-Chinese 项目。

实验性质的说明

此项目具有实验性质,可能会对训练数据、模型结构和文件目录结构等进行大幅度的修改。初始版本的模型可以在代码库中找到对应的 tag v1.0

支持功能

该项目提供了 flash attention 2 加速功能,能够提高模型的运行效率。

数据处理

数据清洗是模型训练的基础步骤。这个项目中所涉及的清洗步骤包括:

  • 在句末添加句号
  • 将繁体字转为简体字
  • 删除重复的标点符号
  • 进行 Unicode NFKC 标准化,特别是将全角字符转为半角字符以及处理网页数据中的特殊空格符等问题

关于具体的数据清洗方法,可以参考 ChatLM-mini-Chinese 项目。

分词器训练

Phi2-mini-Chinese 项目使用了字节级(byte level)BPE 分词器,同时也提供字符级(char level)分词器的训练代码。训练好的分词器需要确认是否包含常见的特殊符号,例如 \t\n 等。如果缺少,通过 add_tokens 函数进行添加。

由于分词器训练过程需要大量的内存:

  • 字节级分词器需要至少 32G 内存来训练 1 亿个字符。
  • 字符级分词器则需要相同内存来处理 6.5 亿个字符数据量。

对于大数据集,建议从数据集中进行采样来减小训练压力。

CLM 预训练

CLM 模型通过无监督学习方式对大量文本进行预训练。主要使用 Bell 开源的数据集。单个数据样本以一句话表示,过长的陈述可以分割成多个数据样本。在处理百科语料时,建议在每个词条后添加 '[EOS]' 标记。

指令微调(SFT)

SFT 主要使用了同样的开源数据集,数据格式如下所示:

text = f"##提问:\n{example['instruction']}\n##回答:\n{example['output'][EOS]"

模型在计算损失时将忽略从标记 "##回答:" 开始以前的部分。确保在句子的最后添加 EOS 标记,以便于模型在生成过程中判断何时结束。

RLHF 优化

采用 DPO(偏好优化)方法进行改进,优化过程通过构造数据集的三列信息:promptchosenrejected 来实现。

模型使用方法

普通对话能力

用户可通过 huggingface 仓库下载模型权重,并利用 Transformers 库加载模型进行推理。

下面是一个简单的代码示例:

from transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfig
import torch

device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")

tokenizer = AutoTokenizer.from_pretrained('charent/Phi2-Chinese-0.2B')
model = AutoModelForCausalLM.from_pretrained('charent/Phi2-Chinese-0.2B').to(device)

txt = '感冒了要怎么办?'
prompt = f"##提问:\n{txt}\n##回答:\n"

# greedy search
gen_conf = GenerationConfig(
    num_beams=1,
    do_sample=False,
    max_length=320,
    max_new_tokens=256,
    no_repeat_ngram_size=4,
    eos_token_id=tokenizer.eos_token_id,
    pad_token_id=tokenizer.pad_token_id,
)

tokend = tokenizer.encode_plus(text=prompt)
input_ids, attention_mask = torch.LongTensor([tokend.input_ids]).to(device), \
    torch.LongTensor([tokend.attention_mask]).to(device)

outputs = model.generate(
    inputs=input_ids,
    attention_mask=attention_mask,
    generation_config=gen_conf,
)

outs = tokenizer.decode(outputs[0].cpu().numpy(), clean_up_tokenization_spaces=True, skip_special_tokens=True,)
print(outs)

检索式生成(RAG)

具体代码可以在项目中的 rag_with_langchain.ipynb 文件中找到。

引用

如果该项目对您有所帮助,可以按以下格式进行引用:

@misc{Charent2023,
    author={Charent Chen},
    title={A small Chinese causal language model with 0.2B parameters base on Phi2},
    year={2023},
    publisher = {GitHub},
    journal = {GitHub repository},
    howpublished = {https://github.com/charent/Phi2-mini-Chinese},
}

其他事项

项目开发者不对由于开源模型和代码可能导致的数据安全、舆情风险或模型被误导、滥用产生的风险和责任进行担保。

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计 是一个多功能的在线设计和创意平台,提供广泛的设计工具和资源,以满足不同用户的需求。从专业的图形设计师到普通用户,无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑,稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合,帮助用户轻松实现创意设计。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号