SafeTensors: 安全高效的张量存储与分发方案

safetensors

SafeTensors简介

SafeTensors是由Hugging Face开发的一种新的张量存储格式,旨在为机器学习模型提供一种安全且高效的权重保存和加载方案。它的主要目标是取代PyTorch中默认使用的pickle格式,同时保持快速的加载速度和零拷贝的特性。

Hugging Face Safetensors Library

SafeTensors的核心优势包括:

安全性: 与pickle格式不同,SafeTensors不会执行任意代码,从而避免了潜在的安全风险。
高效性: 支持零拷贝和懒加载,可以显著提高大型模型的加载速度。
跨平台兼容性: 同时支持Python和Rust实现,可以在不同的环境中使用。
文件大小无限制: 不像某些格式存在文件大小限制,SafeTensors可以处理任意大小的模型。
支持新兴数据类型: 原生支持bfloat16和fp8等新兴数据类型,无需额外的转换。

SafeTensors的技术细节

文件格式

SafeTensors文件由以下部分组成:

头部大小: 8字节的无符号小端64位整数,表示头部的大小。
JSON头部: 包含张量的元数据信息,如数据类型、形状和数据偏移量等。
数据缓冲区: 存储实际的张量数据。

这种设计允许快速访问文件中的特定张量,而无需加载整个文件,这对于分布式环境中的部分加载特别有用。

安全性考虑

SafeTensors格式的设计充分考虑了安全性:

不允许执行任意代码,避免了pickle等格式的安全隐患。
限制头部大小(最大100MB),防止解析过大的JSON导致的潜在DOS攻击。
保证文件中的地址不会重叠,避免在加载过程中超出文件大小的内存分配。

与其他格式的对比

SafeTensors并非是第一个尝试解决这个问题的格式。让我们来看看它与其他常见格式的对比:

格式	安全性	零拷贝	懒加载	无文件大小限制	布局控制	灵活性	Bfloat16/Fp8支持
pickle (PyTorch)	✗	✗	✗	🗸	✗	🗸	🗸
H5 (Tensorflow)	🗸	✗	🗸	🗸	~	~	✗
SavedModel (Tensorflow)	🗸	✗	✗	🗸	🗸	✗	🗸
MsgPack (flax)	🗸	🗸	✗	🗸	✗	✗	🗸
Protobuf (ONNX)	🗸	✗	✗	✗	✗	✗	🗸
SafeTensors	🗸	🗸	🗸	🗸	🗸	✗	🗸

从表中可以看出,SafeTensors在大多数关键特性上都表现出色,尤其是在安全性、效率和功能性的平衡上做得很好。

SafeTensors的使用

安装

SafeTensors可以通过pip轻松安装:

pip install safetensors

对于想要从源码安装的用户,需要先安装Rust环境:

# 安装Rust
curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh
# 确保使用最新的稳定版
rustup update

# 克隆仓库并安装
git clone https://github.com/huggingface/safetensors
cd safetensors/bindings/python
pip install setuptools_rust
pip install -e .

基本用法

以下是使用SafeTensors保存和加载张量的简单示例:

import torch
from safetensors import safe_open
from safetensors.torch import save_file

# 保存张量
tensors = {
   "weight1": torch.zeros((1024, 1024)),
   "weight2": torch.zeros((1024, 1024))
}
save_file(tensors, "model.safetensors")

# 加载张量
loaded_tensors = {}
with safe_open("model.safetensors", framework="pt", device="cpu") as f:
   for key in f.keys():
       loaded_tensors[key] = f.get_tensor(key)

这个例子展示了SafeTensors的简单性和直观性。它不仅易于使用,还能确保在加载过程中的安全性。

SafeTensors的性能优势

SafeTensors在性能方面表现出色,尤其是在处理大型模型时:

快速加载: 与pickle相比,SafeTensors在CPU上的加载速度极快。在GPU上,加载速度与PyTorch相当或更快。
内存效率: 通过使用torch.UntypedStorage.from_file,SafeTensors可以绕过CPU上的额外拷贝,进一步提高效率。
懒加载支持: 在分布式环境中,SafeTensors允许只加载部分张量,这大大加快了模型初始化速度。例如,使用SafeTensors格式可以将BLOOM模型在8个GPU上的加载时间从10分钟缩短到45秒。

Image 5: Downloads