MistralLite - 适用于长文本处理与问答任务的优化语言模型

MistralLite项目介绍

什么是MistralLite？

MistralLite是一个经过精调的语言模型，基于Mistral-7B-v0.1模型开发。该模型增强了处理长文本上下文的能力，可以解析多达32,000个标记（tokens）。通过在微调过程中使用适应性旋转嵌入（Rotary Embedding）和滑动窗口技术，MistralLite在多个长文本检索和问答任务上表现显著提升，同时保持了原始模型的简单结构。

主要应用领域

MistralLite适用于多种需要处理长文本内容的应用，包括：

长文本行及主题检索
内容摘要提取
问题解答

技术特点

技术架构：MistralLite可以在单个AWS g5.2x实例上使用Sagemaker的Huggingface文本生成推理（TGI）端点进行部署，适合需要高性能的资源受限环境。
部署方式：支持通过TGI Docker容器直接服务，还可以通过vLLM等其他方式进行部署。
开发语言：模型使用英语进行开发。
支持的框架：包括HuggingFace Transformers和FlashAttention-2等。

模型与Mistral-7B-Instruct-v0.1的对比

MistralLite与Mistral-7B-Instruct-v0.1有相似之处，也有所不同：

模型	精调长文本	最大上下文长度	RotaryEmbedding适配	滑动窗口大小
Mistral-7B-Instruct-v0.1	最多8K标记	32K	rope_theta = 10000	4096
MistralLite	最多16K标记	32K	rope_theta = 1000000	16384

开发动机

自Mistral-7B-Instruct-v0.1发布以来，该模型以其在多种基准测试中的强大性能受到了广泛关注。然而，这些测试大多针对“短文本上下文”，在处理长文本任务上的性能尚未得到充分挖掘。从长文本任务的角度分析后发现，尽管其在小于4096个标记的长文本上性能尚可，但在更长文本上的表现有待提高。因此，我们对Mistral 7B模型进行精调，开发了MistralLite模型，显著改善了长文本处理能力。