sk2torch
sk2torch将scikit-learn模型转换为可以通过反向传播进行微调,甚至可以编译为TorchScript的PyTorch模块。
该项目解决的问题:
- scikit-learn无法在GPU上执行推理。像SVM这样的模型可以从快速GPU原语中获得很多好处,将模型转换为PyTorch可以立即访问这些原语。
- 虽然scikit-learn支持通过pickle进行序列化,但保存的模型无法在不同版本的库之间复现。另一方面,TorchScript提供了一种方便、安全的方式来保存模型及其对应的实现。生成的模型可以在任何安装了PyTorch的地方加载,甚至不需要导入sk2torch。
- 虽然某些模型如SVM和线性分类器在理论上是端到端可微的,但scikit-learn没有提供计算已训练模型梯度的机制。PyTorch几乎免费提供了这种功能。
查看使用方法获取使用该库的高级示例。查看工作原理了解支持哪些模块。
有趣的是,这里有一个通过对两类SVM的概率预测进行微分生成的向量场(由此脚本生成):
使用方法
首先,像往常一样使用scikit-learn训练模型:
from sklearn.linear_model import SGDClassifier
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
x, y = create_some_dataset()
model = Pipeline([
("center", StandardScaler(with_std=False)),
("classify", SGDClassifier()),
])
model.fit(x, y)
然后调用sk2torch.wrap
将模型转换为PyTorch等效模型:
import sk2torch
import torch
torch_model = sk2torch.wrap(model)
print(torch_model.predict(torch.tensor([[1., 2., 3.]]).double()))
您可以使用TorchScript保存模型:
import torch.jit
torch.jit.script(torch_model).save("path.pt")
# ... 加载模型时无需安装sk2torch
loaded_model = torch.jit.load("path.pt")
有关训练模型并使用其PyTorch转换的完整示例,请参见examples/svm_vector_field.py。
工作原理
sk2torch包含支持的scikit-learn模型的PyTorch重新实现。对于支持的估计器X
,sk2torch中的TorchX
类能够读取X
的属性并将它们转换为torch.Tensor
或简单的Python类型。TorchX
继承自torch.nn.Module
,并为X
的每个推理API(如predict
、decision_function
等)提供相应的方法。
支持哪些模块?获取最新列表的最简单方法是通过supported_classes()
函数,它返回所有可以用wrap()
包装的scikit-learn类:
>>> import sk2torch
>>> sk2torch.supported_classes()
[<class 'sklearn.tree._classes.DecisionTreeClassifier'>, <class 'sklearn.tree._classes.DecisionTreeRegressor'>, <class 'sklearn.dummy.DummyClassifier'>, <class 'sklearn.ensemble._gb.GradientBoostingClassifier'>, <class 'sklearn.preprocessing._label.LabelBinarizer'>, <class 'sklearn.svm._classes.LinearSVC'>, <class 'sklearn.svm._classes.LinearSVR'>, <class 'sklearn.neural_network._multilayer_perceptron.MLPClassifier'>, <class 'sklearn.kernel_approximation.Nystroem'>, <class 'sklearn.pipeline.Pipeline'>, <class 'sklearn.linear_model._stochastic_gradient.SGDClassifier'>, <class 'sklearn.preprocessing._data.StandardScaler'>, <class 'sklearn.svm._classes.SVC'>, <class 'sklearn.svm._classes.NuSVC'>, <class 'sklearn.svm._classes.SVR'>, <class 'sklearn.svm._classes.NuSVR'>, <class 'sklearn.compose._target.TransformedTargetRegressor'>]
与sklearn-onnx的比较
sklearn-onnx是一个开源包,用于将训练好的scikit-learn模型转换为ONNX。与sk2torch一样,sklearn-onnx重新实现了各种模型的推理函数,这意味着它也可以为支持的模块提供序列化和GPU加速。
自然地,这两个库都不会支持没有手动移植的模块。因此,两个库支持所有可用模型/方法的不同子集。例如,sk2torch支持SVC
概率预测方法predict_proba
和predict_log_prob
,而sklearn-onnx不支持。
虽然sklearn-onnx将模型导出为ONNX,但sk2torch将模型导出为具有熟悉方法名称的Python对象,这些对象可以进行微调、反向传播,并以用户友好的方式序列化。PyTorch比ONNX更通用,因为PyTorch模型可以根据需要转换为ONNX。