#推测解码
REST - 创新检索式推测解码加速大语言模型生成
Github开源项目语言模型推理加速REST检索式生成推测解码
REST是一种创新检索式推测解码方法,利用数据存储检索草稿令牌以加速大语言模型生成。无需额外训练,可即插即用于现有语言模型。在HumanEval和MT-Bench测试中,REST展现显著速度提升,为提高大语言模型效率开辟新途径。
prompt-lookup-decoding - 提升输入相关任务解码效率的创新技术
Github开源项目性能优化LLM推测解码Prompt Lookup Decoding自回归解码
Prompt-lookup-decoding是一种创新解码技术,利用输入提示中的字符串匹配生成候选令牌序列,替代了传统投机解码中的草稿模型。该方法在输入相关任务中显著提升处理速度,同时保持输出质量。无需模型修改或额外数据存储,适用于各类解码器模型及解码策略。特别适合摘要、文档问答和多轮对话等存在高度n-gram重叠的任务,能有效提高处理效率。