#长上下文
InternLM - 支持1M上下文的聊天模型
InternLM2.5人工智能长上下文搜集信息增强学习Github开源项目
InternLM2.5系列采用最新技术,专注于AI研究和商业应用的长文本处理和逻辑推理,提供1M文本窗口处理能力和优化的指令遵循与用户互动体验。适合广泛的应用场景。
Chinese-LLaMA-Alpaca-2 - 基于Meta发布的可商用大模型Llama-2开的中文LLaMA&Alpaca大模型的第二期项目
Chinese-LLaMA-Alpaca-2大模型中文词表FlashAttention-2长上下文Github开源项目
Chinese-LLaMA-Alpaca-2项目基于Meta的Llama-2模型开发,提供了全新的中文LLaMA-2基座模型和Alpaca-2指令精调大模型,专注于优化中文词表和扩展模型训练。模型支持大规模中文数据增量训练,显著提升中文语义和指令理解能力。支持4K至64K上下文长度,实现人类偏好对齐,提供多种工具支持部署和应用推广。适用于企业和研究机构进行语言模型深度研发和实用应用,如对话系统和文本分析等。
gemma-2B-10M - Gemma 2B模型实现1000万token上下文处理 仅需32GB内存
Gemma 2B长上下文局部注意力内存优化推理优化Github开源项目
gemma-2B-10M项目采用递归局部注意力机制,在32GB内存限制下实现了处理1000万token上下文的能力。该项目为Gemma 2B模型提供CUDA优化的推理功能,显著提升了处理效率。项目设计简洁易用,便于开发者快速应用。虽然目前处于早期阶段,但在长文本处理领域展现出巨大潜力,有望推动相关技术的进步。
ChunkLlama - 双重块注意力技术实现大语言模型上下文窗口扩展
ChunkLlama大语言模型长上下文注意力机制无需训练Github开源项目
ChunkLlama项目开发了双重块注意力(DCA)技术,无需额外训练即可将大语言模型的上下文窗口扩展至原始长度的8倍以上。DCA可与主流外推技术和高效推理库兼容,支持Llama、Mistral等多种模型。实验表明,应用DCA后的Llama-2/3 70B模型能处理长达100k的上下文,并在长文本任务中表现出色。
CodeQwen1.5 - 多语言支持的高性能代码生成模型
CodeQwen1.5代码生成长上下文编程语言模型部署Github开源项目
CodeQwen1.5是一款专用于代码生成的大型语言模型,支持92种编程语言,具备64K tokens的长文本处理能力。该模型在代码生成、文本到SQL转换和bug修复等任务中表现优异,为开发者提供了高效的AI编码辅助工具。作为Qwen1.5的专用代码版本,CodeQwen1.5采用transformer架构,在多项基准测试中展现出卓越性能。
360zhinao - 支持超长上下文的开源大语言模型
360智脑大语言模型开源模型长上下文自然语言处理Github开源项目
360Zhinao是一系列开源大语言模型,包括基础模型和聊天模型。该项目利用3.4万亿高质量语料训练,在多项基准测试中表现优异。其聊天模型支持4K、32K和360K三种上下文长度,其中360K(约50万中文字符)为开源中文模型最长。此外,360Zhinao还发布了搜索和重排模型,在C-MTEB排行榜上表现出色。该项目持续更新,不断推进大语言模型技术发展。
LongCite-llama3.1-8b - LongCite-llama3.1-8b在长上下文问答中实现高效引用生成
长上下文开源项目模型GithubHuggingface细粒度引用Meta-Llama-3.1-8BLongCite-llama3.1-8b文本生成
LongCite-llama3.1-8b是基于Meta-Llama-3.1-8B训练的开源模型,专为长上下文问答中的引用生成而设计,支持128K标记的上下文窗口。项目采用transformers库,提供了Python示例代码用于展示模型部署与应用,并建议使用torch的bfloat16数据类型及自动设备映射功能。vllm项目的示例代码可供进一步探索高效部署模型。
jina-colbert-v1-en - JinaBERT基础的长文档检索用ColBERT模型
Jina-ColBERT模型Github开源项目检索性能长上下文Huggingface对比结果MSMARCO
Jina-ColBERT是一个基于JinaBERT的ColBERT模型,它能处理8k的上下文长度,实现快速准确的检索。与ColBERTv2相比,使用了jina-bert-v2-base-en为主干,并在MSMARCO数据集上训练,表现优于部分基准模型,尤其在长上下文环境中表现更佳,适用于长文档检索场景。
Phi-3.5-mini-instruct-bnb-4bit - 轻量级多语言模型支持高效微调和长文本理解
微调模型Phi-3.5长上下文开源项目HuggingfacetransformersGithub多语言
Phi-3.5-mini-instruct是一款轻量级开源语言模型,支持128K上下文长度。经过监督微调和优化,该模型在多语言能力和长文本理解方面表现出色。适用于内存受限环境、低延迟场景和推理任务,可作为AI系统的基础组件。在商业和研究领域都有广泛应用前景。
Llama-3-8B-Instruct-Gradient-1048k - 优化Llama-3上下文长度以提升AI应用性能
RoPE theta自定义AI模型Llama-3渐进训练长上下文HuggingfaceGithub开源项目模型
Llama-3模型经过Gradient的优化,具备长上下文处理能力,改善了对话功能。项目采用NTK感知插值技术优化RoPE theta,极大提高了训练速度和效率。模型在Q&A任务中表现优异,仅次于GPT-4和Yi,适用于多种业务中的自主助手。
Phi-3.5-mini-instruct - Unsloth加速技术让开源语言模型训练更高效
微调长上下文开源项目模型GithubHuggingfacePhi-3.5多语言Unsloth
Phi-3.5-mini-instruct是微软AI团队开发的开源语言模型,具备多语言理解、长文本处理和代码生成能力,支持128K上下文长度。结合Unsloth优化技术,模型训练速度提升2倍,内存占用降低50%。适合在资源受限环境下部署的AI应用开发,并提供Google Colab环境供快速测试验证。
CodeQwen1.5-7B-Chat-GGUF - 支持92种编程语言的强大代码生成模型
CodeQwen1.5长上下文开源项目代码生成模型Github多语言支持Huggingface语言模型
CodeQwen1.5是一个基于transformer的语言模型,专注于代码生成。它支持92种编程语言,并能处理长达64K标记的上下文,适用于文本到SQL转换和错误修正。
Yarn-Mistral-7b-128k - 基于Mistral-7B的128K长文本语言模型
长上下文大语言模型神经网络人工智能模型Yarn-MistralGithubHuggingface开源项目
这是一个基于Mistral-7B-v0.1的模型扩展,采用YaRN方法完成1500步长文本预训练,将上下文窗口扩展至128K tokens。模型在长短文本处理方面保持稳定表现,通过ARC-c、Hellaswag、MMLU和Truthful QA等基准测试验证,适用于长文本处理场景。
Llama-3-8B-Instruct-262k - 增强长距离上下文处理,支持自主助手功能
生成式模型Github定量模型开源项目长上下文自监督学习HuggingfaceLlama-3模型
Llama-3 8B-Instruct-262k通过优化RoPE theta,将上下文处理长度从8k扩展至超160k。由Gradient开发并借助Crusoe Energy的算力资源,展示了该模型在低训练条件下的长上下文处理能力,同时通过微调增强了其聊天功能。采用NTK-aware插值及数据驱动的RoPE theta优化,结合渐进式训练策略,在高性能集群中实现了多达262144 tokens的上下文扩展训练,并提供了多种量化版本以适应不同应用场景。
LLaMA-2-7B-32K - 基于Llama-2开发的32K长文本理解模型
Github模型开源项目语言模型深度学习长上下文HuggingfaceAI训练LLaMA-2
LLaMA-2-7B-32K是一个基于Llama-2开发的长文本语言模型,通过位置插值技术实现32K上下文长度。该模型采用预训练和指令微调策略,适用于多文档问答和长文本摘要等场景,支持API调用和本地部署。
internlm2-7b - 增强自然语言处理与长文本分析能力
长上下文开源项目模型Github开源HuggingfaceInternLM性能评测
InternLM2-7B是一款开源自然语言处理模型,以其卓越的语言能力及对20万字符长文本的支持在评测中表现优异。适用于领域适配与复杂任务,提供代码开放与商用使用许可,便于研究与开发者的灵活使用与集成。
相关文章