#长序列处理

InfLLM - 优化大规模语言模型处理超长序列的无训练记忆方法
InfLLM大语言模型长序列处理记忆单元训练无关方法Github开源项目
InfLLM是一种新型无训练记忆方法,可有效处理超长序列。通过将远程上下文存储在额外的存储单元中并采用高效机制进行注意力计算,InfLLM在保持长距离依赖捕捉能力的同时,提高了处理效率。即使在序列长度达到1,024K的情况下,InfLLM仍表现优越,无需连续训练即可超越许多基线模型。
KoBigBird - 支持长序列处理的韩语预训练模型
KoBigBird预训练模型自然语言处理长序列处理韩语Github开源项目
KoBigBird是基于BigBird架构的韩语预训练模型,支持处理长达4096个token的序列。通过稀疏注意力机制,其计算复杂度从O(n²)降至O(n)。在短序列和长序列任务评估中,KoBigBird表现优异。项目包含使用指南、预训练方法和评估结果,为韩语自然语言处理提供支持。
infini-transformer - 针对无限长度上下文设计的高效Transformer模型
Infini-Transformer自然语言处理长序列处理注意力机制位置编码Github开源项目
Infini-Transformer是一种创新的Transformer模型,专门用于处理无限长度的上下文。该模型采用压缩性记忆机制和混合深度技术,能有效处理超长序列。Infini-Transformer支持文本分类、问答和语言生成等多种任务,并集成RoPE和YaRN等先进位置编码技术。这一模型为长文本处理和大规模语言任务提供了高效解决方案。
xlm-roberta-longformer-base-4096 - 支持超长序列处理的多语言Transformer模型
开源项目WikiText-103低资源语言问答任务模型HuggingfaceXLM-R Longformer长序列处理Github
该项目结合XLM-R与Longformer模型,提升了对多达4096个标记的处理能力,以提高低资源语言的处理效果。模型在WikiText-103语料库上进行预训练,适用于多语言问答任务。推荐使用NVIDIA Apex和大容量GPU以确保模型性能和效率。项目由Peltarion完成,提供相关代码和训练脚本供开发者参考。
long-t5-tglobal-base - LongT5模型:基于transient-global注意力的长序列文本转换器
注意力机制开源项目模型文本编码GithubLongT5长序列处理自然语言处理Huggingface
long-t5-tglobal-base是Google开发的基于T5架构的文本转换模型,专为处理长序列文本而设计。该模型采用transient-global注意力机制,支持高达16384个token的输入,在文本摘要和问答等任务中表现优异。通过类Pegasus的生成式预训练,long-t5-tglobal-base可针对特定任务进行微调,为长文本处理提供了高效解决方案。
bigbird-roberta-base - 高性能长序列文本处理的稀疏注意力Transformer模型
BigBird开源项目深度学习模型长序列处理Githubtransformer模型自然语言处理Huggingface
BigBird-RoBERTa-base是一种基于块稀疏注意力机制的Transformer模型,可处理长达4096个token的序列。该模型在Books、CC-News、Stories和Wikipedia等大规模数据集上预训练,大幅降低了计算成本。在长文档摘要和长上下文问答等任务中,BigBird-RoBERTa-base展现出优秀性能。模型支持灵活配置注意力类型,可在默认的块稀疏模式和全注意力模式间切换,为超长序列文本处理提供了高效方案。