介绍
bge-large-en-v1.5-quant 是一个基于 ONNX 量化(INT8)的嵌入模型,主要通过 Sparsify 和 DeepSparseSentenceTransformers 进行加速与推理。这个模型旨在提升计算性能,同时保持高效的准确性。
主要特点
bge-large-en-v1.5-quant 的特点在于其稀疏性和量化技术的结合。模型使用 Neural Magic 的 DeepSparse 框架,可以在普通硬件上显著提升性能,比如在10核笔记本上提升4.8倍的延迟性能,而在16核的AWS实例上也能提升到3.5倍。
使用方法
要使用 bge-large-en-v1.5-quant,可以通过以下命令安装所需库:
pip install -U deepsparse-nightly[sentence_transformers]
接下来,使用 DeepSparseSentenceTransformer类通过以下代码进行句子嵌入的生成:
from deepsparse.sentence_transformers import DeepSparseSentenceTransformer
model = DeepSparseSentenceTransformer('neuralmagic/bge-large-en-v1.5-quant', export=False)
# 我们希望编码的句子列表
sentences = ['This framework generates embeddings for each input sentence',
'Sentences are passed as a list of string.',
'The quick brown fox jumps over the lazy dog.']
# 通过调用 model.encode() 对句子进行编码
embeddings = model.encode(sentences)
# 打印生成的嵌入
for sentence, embedding in zip(sentences, embeddings):
print("Sentence:", sentence)
print("Embedding:", embedding.shape)
print("")
测试结果
bge-large-en-v1.5-quant 经历了多种数据集的测试,如 MTEB 的AmazonCounterfactualClassification、BIOSSES、SICK-R 等。这些测试主要关注分类(Classification)和语义文本相似度(STS)等任务,具体结果表现在多项评估指标,如准确率、余弦相似度等,充分验证了模型在不同任务下的表现能力。
社区与支持
用户如有任何关于模型或稀疏化方法的问题,可以通过 社区Slack 向工程团队寻求帮助。这个社区是一个开放的交流平台,致力于帮助用户解决与Neural Magic相关的技术问题。
通过这些简单的步骤和工具,bge-large-en-v1.5-quant 可以为各种自然语言处理任务提供高效且强大的支持。