Project Icon

safetensors

安全高效的张量存储格式 支持零拷贝和延迟加载

safetensors是一种新的张量存储格式,旨在安全高效地保存机器学习模型。与pickle相比,它提供了更好的安全性,同时通过零拷贝技术保持高性能。该库支持Python和Rust,提供简单的API用于张量的存储和加载。safetensors支持延迟加载、布局控制和多种数据类型,适用于大规模模型的存储和分发。在加载速度和内存效率方面表现优异,尤其适合分布式环境。

Hugging Face Safetensors 库

Python Pypi 文档 Codecov 下载量

Rust Crates.io 文档 Codecov 依赖状态

safetensors

Safetensors

这个仓库实现了一种新的简单格式,用于安全地存储张量(相对于pickle而言),同时仍然保持快速(零拷贝)。

安装

Pip

你可以通过pip管理器安装safetensors:

pip install safetensors

从源码安装

对于源码,你需要安装Rust

# 安装Rust
curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh
# 确保它是最新的并使用稳定版本
rustup update
git clone https://github.com/huggingface/safetensors
cd safetensors/bindings/python
pip install setuptools_rust
pip install -e .

入门

import torch
from safetensors import safe_open
from safetensors.torch import save_file

tensors = {
   "weight1": torch.zeros((1024, 1024)),
   "weight2": torch.zeros((1024, 1024))
}
save_file(tensors, "model.safetensors")

tensors = {}
with safe_open("model.safetensors", framework="pt", device="cpu") as f:
   for key in f.keys():
       tensors[key] = f.get_tensor(key)

Python文档

格式

  • 8字节:N,一个无符号小端64位整数,包含头部的大小
  • N字节:一个表示头部的JSON UTF-8字符串。
    • 头部数据必须以{字符(0x7B)开始。
    • 头部数据可以在末尾用空格(0x20)填充。
    • 头部是一个类似{"TENSOR_NAME": {"dtype": "F16", "shape": [1, 16, 256], "data_offsets": [BEGIN, END]}, "NEXT_TENSOR_NAME": {...}, ...}的字典,
      • data_offsets指向相对于字节缓冲区开始的张量数据位置(即不是文件中的绝对位置), BEGIN是起始偏移量,END是结束后的偏移量(因此总张量字节大小 = END - BEGIN)。
    • 允许使用特殊键__metadata__来包含自由格式的字符串到字符串映射。不允许使用任意JSON,所有值必须是字符串。
  • 文件的其余部分:字节缓冲区。

注意:

  • 不允许重复键。并非所有解析器都可能遵守这一点。
  • 一般来说,JSON的子集由这个库的serde_json隐式决定。任何晦涩的内容可能会在以后被修改,比如表示整数的奇怪方式、换行符和UTF-8字符串中的转义。这只会出于安全考虑而进行。
  • 不检查张量值,特别是NaN和+/-Inf可能存在于文件中。
  • 允许空张量(一个维度为0的张量)。它们不在数据缓冲区中存储任何数据,但在头部中保留大小。从传统张量库(torch、tensorflow、numpy等)的角度来看,它们并不带来太多价值,但被接受,因为它们是有效的张量。
  • 允许0阶张量(形状为[]的张量),它们仅仅是标量。
  • 字节缓冲区需要完全索引,不能包含空洞。这防止了创建多格式文件。
  • 字节序:小端序。
  • 顺序:'C'或行主序。

又一种格式?

这个crate的主要理由是消除在PyTorch中默认使用pickle的需求。 机器学习领域还有其他格式,以及更通用的格式。

让我们看看替代方案,以及为什么这种格式被认为是有趣的。 这是我非常个人且可能有偏见的观点:

格式安全零拷贝懒加载无文件大小限制布局控制灵活性Bfloat16/Fp8
pickle (PyTorch)🗸🗸🗸
H5 (Tensorflow)🗸🗸🗸~~
SavedModel (Tensorflow)🗸🗸🗸🗸
MsgPack (flax)🗸🗸🗸🗸
Protobuf (ONNX)🗸🗸
Cap'n'Proto🗸🗸~🗸🗸~
Arrow??????
Numpy (npy,npz)🗸??🗸
pdparams (Paddle)🗸🗸🗸
SafeTensors🗸🗸🗸🗸🗸🗸
  • 安全:我可以随意下载一个文件并期望不会运行任意代码吗?
  • 零拷贝:读取文件是否需要比原始文件更多的内存?
  • 懒加载:我可以在不加载所有内容的情况下检查文件吗?以及在不扫描整个文件的情况下只加载其中的某些张量(分布式设置)?
  • 布局控制:懒加载不一定足够,因为如果张量信息分散在文件中,即使信息可以懒加载,你可能也需要访问大部分文件来读取可用的张量(导致多次硬盘到内存的复制)。控制布局以保持对单个张量的快速访问很重要。
  • 无文件大小限制:文件大小是否有限制?
  • 灵活性:我可以在格式中保存自定义代码并在以后无需额外代码就能使用吗?(~表示我们可以存储纯张量以外的内容,但不包括自定义代码)
  • Bfloat16/Fp8:该格式是否原生支持bfloat16/fp8(意味着不需要奇怪的变通方法)?这在机器学习领域变得越来越重要。

主要对比

  • Pickle:不安全,可运行任意代码
  • H5:目前似乎不推荐用于TF/Keras。除此之外,看起来实际上是一个很好的选择。存在一些经典的使用后释放问题:https://www.cvedetails.com/vulnerability-list/vendor_id-15991/product_id-35054/Hdfgroup-Hdf5.html。在安全性方面与pickle有很大不同。此外,代码量为21万行,而本库目前仅约400行。
  • SavedModel:特定于Tensorflow(包含TF图信息)。
  • MsgPack:没有布局控制来实现懒加载(在分布式设置中加载特定部分很重要)
  • Protobuf:有2GB的硬性文件大小限制
  • Cap'n'proto:不支持Float16 链接,因此需要使用字节缓冲区的手动包装器。布局控制似乎可行但不简单,因为缓冲区有限制 链接
  • Numpy (npz):不支持bfloat16。容易受到zip炸弹攻击(DOS)。非零拷贝。
  • Arrow:不支持bfloat16

注意事项

  • 零拷贝:在机器学习中,没有真正的零拷贝格式,数据需要从硬盘传输到内存/GPU内存(这需要时间)。在CPU上,如果文件已经在缓存中,那么它可以真正实现零拷贝,而在GPU上没有这样的硬盘缓存,所以总是需要一次复制,但你可以避免在任何给定时间点在CPU上分配所有张量。SafeTensors对于头部不是零拷贝的。选择JSON是相当随意的,但由于反序列化所需时间远小于加载实际张量数据,而且可读性好,我选择了这种方式(而且空间远小于张量数据)。

  • 字节序:小端序。这可以在以后修改,但目前感觉真的没有必要。

  • 顺序:'C'或行主序。这似乎已经成为主流。如果需要,我们可以稍后添加该信息。

  • 步幅:没有步幅,所有张量在序列化之前需要打包。我还没有看到在序列化格式中存储步幅张量有用的情况。

优势

由于我们可以发明一种新格式,我们可以提出额外的优势:

  • 防止DOS攻击:我们可以精心设计格式,使得几乎不可能使用恶意文件对用户进行DOS攻击。目前,对头部大小有100MB的限制,以防止解析极大的JSON。此外,在读取文件时,保证文件中的地址不会以任何方式重叠,这意味着在加载文件时,内存中不应超过文件的大小。

  • 更快的加载:PyTorch似乎是主要机器学习格式中加载最快的。然而,它在CPU上似乎还有一次额外的复制,我们可以通过使用torch.UntypedStorage.from_file来绕过这一点。目前,与pickle相比,这个库的CPU加载时间非常快。GPU加载时间与PyTorch等效或更快。使用torch进行内存映射在CPU上先加载,然后将所有张量移动到GPU,似乎也somehow更快(与torch pickle中的行为类似)。

  • 懒加载:在分布式(多节点或多GPU)设置中,能够在各个模型上只加载部分张量是很好的。对于BLOOM,使用这种格式可以将在8个GPU上加载模型的时间从常规PyTorch权重的10分钟缩短到45秒。这真正加快了在模型上开发时的反馈循环。例如,当改变分布策略时(例如管道并行vs张量并行),你不必有单独的权重副本。

许可证:Apache-2.0

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能,包括文生视频、动态画面和形象生成等,帮助用户快速上手,创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台,用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品,帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型,为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能,满足事务性工作的高频需求,帮助撰稿人节省精力,提高效率,优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号