#大语言模型

Qwen2.5-Coder-7B-Instruct-AWQ - AWQ量化7B参数代码模型支持128K长文本处理
Qwen2.5-Coder人工智能代码生成Github模型开源项目大语言模型AWQ量化Huggingface
Qwen2.5-Coder-7B-Instruct-AWQ是一个AWQ量化的4比特指令微调模型,具有7B参数。该模型在代码生成、推理和修复方面表现出色,支持处理长达128K tokens的上下文。它采用28层、28个注意力头的因果语言模型架构,并应用RoPE、SwiGLU等技术。这一模型在提升编码能力的同时,保持了数学和通用领域的性能,为代码智能助手等应用提供了坚实基础。
Mistral-Nemo-Instruct-2407-bnb-4bit - 高效LLM微调框架提速2-5倍并减少70%内存使用
微调开源项目模型GithubHuggingface大语言模型加速训练Unsloth节省内存
该项目为Mistral、Gemma、Llama等大语言模型提供高效微调框架。利用Unsloth技术,训练速度提升2-5倍,内存使用减少70%。项目提供多个免费Google Colab笔记本,支持Llama-3 8b、Gemma 7b、Mistral 7b等模型训练。框架操作简单,适合初学者使用,支持将微调模型导出为GGUF、vLLM格式或上传至Hugging Face平台。
Reflection-70b-PreciseQuant-6bpw-gguf - 高精度量化模型 实现接近完美的性能保留
开源项目高精度性能优化Github模型HuggingfaceReflection-Llama-3.1-70B大语言模型模型量化
本项目提供Reflection-Llama-3.1-70B模型的高精度量化版本。采用精细调优的量化技术,将模型压缩至50GB,同时保持99.96%的困惑度性能。相较于常规FP8量化,精度显著提升。项目包含快速下载指南和运行说明,便于部署使用。
Qwen2.5-32B - 32B参数大语言模型支持128K上下文与多语言多领域能力
自然语言处理开源项目模型Github多语言支持HuggingfaceQwen2.5大语言模型长文本生成
Qwen2.5-32B是一款具有32B参数的基础大语言模型。该模型支持128K上下文长度和29种语言,在编码、数学等专业领域能力显著提升。模型采用64层transformers架构,具备40个Q注意力头和8个KV注意力头,在指令遵循、长文本生成和结构化数据处理方面表现出色,为后续微调和应用开发奠定了基础。
llava-v1.6-vicuna-7b - 基于Vicuna的开源多模态视觉语言模型
Github模型开源项目多模态图文理解LLaVAHuggingface视觉问答大语言模型
LLaVA-v1.6-vicuna-7b是一个基于Vicuna-7B开发的开源多模态模型,支持图像和文本的理解与处理。模型训练数据包含558K图文对和158K多模态指令等多样化数据集,通过12个基准测试验证其性能表现,可用于视觉语言研究与应用开发。
decapoda-research-llama-7B-hf - Meta AI开发的7B参数开源语言模型
机器学习Github语言训练模型开源项目Huggingface大语言模型LLaMA人工智能
LLaMA-7B是Meta AI开发的开源语言模型,基于Transformer架构,拥有70亿参数。该模型在多语言数据集上训练,主要针对英语优化,可用于自然语言处理研究,如问答和语言理解。LLaMA-7B适合研究人员探索大型语言模型的能力和局限性,但在实际应用中需要进行风险评估。本模型为基础模型,不建议直接用于下游任务。
Llama-3.2-3B - 利用优化技术实现提速和内存节省的开源语言模型项目
Llama 3.2算力优化模型Github开源项目大语言模型多语言处理模型微调Huggingface
这是一个基于Unsloth技术的大型语言模型优化项目。支持8种官方语言,采用改进的transformer架构和GQA技术。训练速度提升2.4倍,内存使用减少58%。提供Google Colab环境,支持对话、文本补全等场景的模型微调,适合各级用户。该项目基于Meta的原始模型,遵循社区许可协议。
Meta-Llama-3.1-405B-llamafile - Meta Llama 3.1 提供多平台兼容的开源语言模型
开源项目模型GithubHuggingface多语言大语言模型Meta安全性训练数据
Meta-Llama-3.1-405B是一个多语言开源模型,由Mozilla打包为llamafile格式,兼容Linux、MacOS、Windows等多操作系统。它提供128k的上下文窗口和强大的多语言处理能力,在行业基准测试中表现优异,适用于商业和研究用途。
Mistral-NeMo-Minitron-8B-Base - 高效压缩的大规模语言模型适用于多种自然语言生成任务
人工智能模型压缩模型Github开源项目大语言模型Mistral-NeMo自然语言处理Huggingface
Mistral-NeMo-Minitron-8B-Base是一个经过剪枝和蒸馏的基础文本生成模型。它采用4096维嵌入、32个注意力头、11520维MLP中间层和40层结构,结合分组查询注意力和旋转位置编码技术。该模型在MMLU等基准测试中表现优异,适用于多种自然语言生成任务。支持8k字符输入,可通过Transformers库轻松使用。
Qwen2.5-72B - 基于727亿参数的预训练语言模型 专注多语言与长文本处理
Qwen2.5多语言支持长文本生成模型Github开源项目大语言模型自然语言处理Huggingface
Qwen2.5-72B是一个拥有727亿参数的预训练语言模型,支持29种以上语言处理,可处理13万个token的上下文长度。模型专注于编码、数学运算和结构化数据理解,支持8K token文本生成。模型架构整合了RoPE、SwiGLU和RMSNorm技术,适用于后续的指令微调和应用开发。
internlm2-1_8b - 18亿参数开源语言模型支持20万字超长上下文输入
超长上下文大语言模型开源模型开源项目模型性能评测HuggingfaceInternLMGithub
InternLM2-1.8B是一个18亿参数的开源语言模型,包含基础模型、对话模型和RLHF对齐版本。它支持20万字的上下文输入,在长文本理解、推理、数学和编程方面表现优异。该模型开放学术研究使用,并提供免费商业授权申请渠道。
Qwen1.5-72B-Chat - 支持多语言的720亿参数开源语言模型
大语言模型开源项目自然语言处理Qwen1.5模型人工智能Huggingface多语言支持Github
Qwen1.5-72B-Chat作为Qwen2的预发布版本,集成了从5亿到720亿参数的8种规模模型。模型采用Transformer架构和SwiGLU激活函数,支持32K上下文长度和多语言处理。通过Hugging Face框架即可部署使用,同时提供GPTQ、AWQ等多种量化版本,可满足不同场景需求。
Meta-Llama-3.1-405B-Instruct-GGUF - Meta-Llama 3.1量化版大模型支持多语种文本生成
GGUFMeta-Llama-3.1-405B-Instruct量化模型大语言模型HuggingfaceGithub开源项目模型文本生成
Meta-Llama-3.1-405B-Instruct模型的GGUF量化版本支持英语、德语、法语在内的8种语言文本生成。通过2-bit和3-bit量化技术优化,可在llama.cpp、LM Studio等主流框架上运行,方便开发者进行本地部署和应用开发。
pythia-160m-deduped - 基于Pile数据集训练的160M参数语言模型
大语言模型可解释性研究Github开源项目自然语言处理Huggingface模型训练Pythia模型
Pythia-160M-deduped是一个经过去重Pile数据集训练的语言模型,总参数量为1.62亿。模型提供154个训练检查点,性能可与同规模的OPT和GPT-Neo相媲美。该项目主要面向语言模型可解释性研究,采用Apache 2.0协议开源,适合学术研究使用。
llmlingua-2-bert-base-multilingual-cased-meetingbank - 基于BERT的多语言提示词压缩模型
Huggingface开源项目LLMLingua-2模型提示词压缩Github数据处理文本优化大语言模型
LLMLingua-2-Bert是一个基于BERT多语言模型开发的提示词压缩工具,通过数据蒸馏技术实现任务无关的提示词压缩功能。该模型可识别并保留提示词中的关键信息,在维持原始语义的基础上减少token使用量。模型支持多语言处理,提供API接口,适用于需要控制提示词长度的各类AI应用场景。
gemma-1.1-7b-it - Google发布的高性能7B参数语言模型
模型评估Gemma人工智能训练数据模型Github开源项目大语言模型Huggingface
Gemma-1.1-7b-it作为Google最新发布的7B参数语言模型,通过强化学习和人类反馈方法训练,在模型质量、代码生成、事实准确性及多轮对话等方面都实现了显著提升。该模型能够支持问答、摘要和推理等多项任务,同时具备轻量化特点,可在普通笔记本电脑等设备上运行
SILMA-9B-Instruct-v1.0 - 阿拉伯语9B参数AI模型,广泛适应商业场景
阿拉伯语开源项目模型生成式AISILMA AIGithubHuggingface大语言模型业务应用
SILMA-9B-Instruct-v1.0是一个开放权重的阿拉伯语AI模型,基于Google Gemma基础,设计有9B参数。在阿拉伯语任务中的表现优异,经过MMLU、AlGhafa和ARC Challenge等多项基准测试,最高准确率达到91.26。该模型支持多GPU和量化版本,实现多设备高效运行,适合各种商业应用场景。
llama3-8B-DarkIdol-2.2-Uncensored-1048K-GGUF - 多语言支持的llama3-8B GGUF量化模型,提供多级压缩优化
开源项目量化模型Github模型Huggingfacellama3大语言模型GGUF权重压缩
llama3-8B GGUF量化模型支持英语、日语和中文,提供3.3GB至16.2GB多种压缩版本,适应不同硬件需求。Q4_K系列在性能和质量上表现均衡。模型基于transformers库开发,适用于角色扮演和偶像相关场景。用户可通过Hugging Face平台获取各版本及其性能对比信息。
MiniCPM3-4B - 轻量高效的开源模型支持长文本处理和函数调用
开源模型MiniCPM3Huggingface人工智能模型Github开源项目大语言模型机器学习
MiniCPM3-4B是一款开源语言模型,仅用4B参数就达到了接近GPT-3.5-Turbo的性能。它具备32k上下文窗口、函数调用和代码解释器等功能,在中英双语、数学和编程等多个基准测试中表现出色。通过创新的训练策略,MiniCPM3-4B实现了与7B-9B模型相当的能力,为资源受限的AI应用场景提供了高效选择。
pythia-12b-deduped - 面向解释性研究的大模型工具集
EleutherAIPythia文本预测Python模型Github开源项目大语言模型Huggingface
Pythia Scaling Suite是EleutherAI开发的用于解释性研究的大语言模型集合。该套件包含八种尺寸的模型,每种尺寸有去重和非去重版本,均在相同的数据集和顺序下训练,提供科学实验的受控环境,支持对大型语言模型的行为与功能研究。用户可以在Hugging Face上获取154个中间检查点,并通过开源代码库进行调整和扩展。
neural-chat-7b-v3-1 - 在英特尔Gaudi2上优化的mistralai 7B语言模型
模型微调Intel Gaudi 2模型Github开源项目数据集大语言模型量化推理Huggingface
neural-chat-7b-v3-1模型经过优化,利用mistralai/Mistral-7B-v0.1基础模型和DPO方法,适用于多种语言任务。结合Open-Orca/SlimOrca数据集,提升了ARC、HellaSwag与TruthfulQA等多项评估指标表现,并支持INT4、BF16等多种推理模式。非常适合高性能语言生成与处理应用,详细信息和使用指导可在GitHub和Hugging Face Leaderboard上查看。
EEVE-Korean-10.8B-v1.0 - 七阶段培训实现韩语大语言模型扩展的高效技术
词汇扩展技术大语言模型跨语言应用Github开源项目EEVE-Korean-10.8B-v1.0Huggingface韩语词汇拓展模型
通过子词嵌入与参数冻结的七阶训练,从英语模型有效扩展至韩语。该项目未进行指令微调,但在韩语任务中表现优异,并通过详细词汇扩展过程提升跨语言应用潜力。深入的词频分析和标记器训练确保模型拥有丰富的韩语词汇。了解更多技术细节,请查阅技术报告。
Hebrew-Mistral-7B - 面向希伯来语和英语的通用大型语言模型
Hebrew-Mistral-7BHuggingface开源项目模型希伯来语Github开源自然语言处理大语言模型
Hebrew-Mistral-7B是一款开源的大型语言模型,参数量达到70亿,专注于希伯来语和英语的语言理解与生成。基于Mistral-7B-v1.0,模型适用于多种自然语言处理任务,包含64,000个词元,提升了希伯来语和英语的语言处理能力。
SciPhi-Mistral-7B-32k - 基于Mistral-7B-v0.1增强科学推理与教育能力的AI模型
Transformer大语言模型教育能力开源项目SciPhi-Mistral-7B-32k模型HuggingfaceGithub科学推理
SciPhi-Mistral-7B-32k是从Mistral-7B-v0.1微调而来的大型语言模型,通过四轮微调和超过十亿个token的数据集,实现了卓越的科学推理及教育能力。其特点包括采用变压器架构、组内查询注意力、滑窗注意力,并支持字节回退BPE分词器。SciPhi-Self-RAG-Mistral-7B-32k当前可用,具体细节可查看相关文档。
Yi-34B-200K - 开源双语大模型 提升长文本理解能力
Huggingface开源项目双语模型GithubYi开源大语言模型Transformer
Yi-34B-200K是开源的双语大语言模型,专注于提升长文本理解。通过在长时间上下文数据上训练5亿个token,Yi-34B-200K的『寻针与草垛』测试表现从89.3%提高到99.8%。其独特的数据集和高效的训练管道,使Yi系列在语言理解、常识推理和阅读理解方面表现优异,超过其他开源模型。该模型适用于个人、学术和中小企业,性价比较高。
Qwen2.5-32B-Instruct-GPTQ-Int8 - 开源多语言大模型Qwen2.5 32B量化版支持超长文本处理
大语言模型Github开源项目文本生成量化多语言支持HuggingfaceQwen2.5模型
Qwen2.5-32B-Instruct-GPTQ-Int8是Qwen2.5系列的量化版本,通过GPTQ 8位量化技术实现高效部署。模型支持29种语言交互,具备128K超长上下文理解和8K文本生成能力。在编程、数学计算、文本理解等任务中表现优异,同时对结构化数据处理能力显著提升。该模型采用325亿参数规模,适合在资源受限环境中运行
Mistral-7B-Instruct-v0.3-GPTQ - Mistral 7B指令模型的4位量化优化版本
HuggingfaceGPTQ量化开源项目模型Github函数调用大语言模型指令微调Mistral-7B-Instruct-v0.3
Mistral-7B-Instruct-v0.3是一个经过GPTQ 4位量化的语言模型。基于Mistral-7B-v0.3开发,集成了32768词汇量、v3分词器和函数调用功能。模型可用于创意写作等任务,但由于缺少内容审核机制,在应用环境选择上需要谨慎评估。
gemma-2-27b - Google开源的轻量级高性能语言模型Gemma
HuggingfaceGemma人工智能模型Github开源项目大语言模型自然语言处理机器学习
Gemma-2-27b是Google基于Gemini技术推出的开源语言模型,采用解码器架构设计。模型支持问答、摘要、推理等多种文本生成任务,能在笔记本电脑等资源受限环境运行。模型参数量为270亿,采用130亿token训练数据,在MMLU等多项基准测试中表现优异。该项目开源了预训练和指令微调两个版本,并提供完整的部署和使用文档。
Meta-Llama-3-8B-Instruct-FP8 - FP8量化版Meta Llama 3实现内存占用减半
模型优化FP8量化vLLM模型Github开源项目Meta-Llama-3大语言模型Huggingface
这是一个通过8位浮点(FP8)量化技术优化的Meta Llama 3模型,在仅占用原模型一半存储空间和GPU内存的同时,保持了99.28%的性能水平。模型基于vLLM后端运行,支持英语对话场景下的商业及研究应用,可用于构建AI助手等应用。
deepseek-coder-7b-instruct-v1.5 - 基于2T代码数据训练的4K上下文智能编程模型
机器学习Github模型开源项目代码生成Huggingface大语言模型人工智能DeepSeek Coder
DeepSeek Coder是一个开源的代码生成语言模型,通过2T代码数据预训练和2B指令数据微调,具备4K上下文窗口。该模型支持代码生成与理解功能,开发者可通过Hugging Face平台便捷部署,并允许商业应用场景。
Llama-3.2-1B-Instruct-GGUF - 多语言大型语言模型提升对话与摘要任务表现
社区许可协议HuggingfaceLlama 3.2Meta模型Github开源项目大语言模型多语言
Meta的多语言大模型Llama 3.2支持多种语言,优化对话与摘要任务。模型提供1B和3B版本,通过监督微调和人类反馈强化学习提升互动有用性与安全性。采用优化的Transformer架构,并利用Grouped-Query Attention提升推理能力。开发者可以根据需求进行模型微调。模型发布于2024年9月25日,采用商用许可协议,建议在商业与研究中谨慎使用。
Meta-Llama-3-8B-GGUF - Meta Llama 3 8B模型的GGUF量化版本 支持8K上下文长度
大语言模型自然语言处理HuggingfaceGithubLlama 3开源项目人工智能模型Meta
Meta-Llama-3-8B-GGUF是Meta发布的Llama 3系列8B参数大语言模型的量化版本。模型针对对话场景优化,采用改进的Transformer架构,支持8K上下文长度,并使用GQA技术提升推理性能。通过监督微调和人类反馈强化学习,增强了安全性和实用性。该模型于2024年4月发布,基于公开数据训练,知识截止到2023年3月。
LLaMAntino-2-chat-13b-hf-UltraChat-ITA - 意大利语对话支持增强的大语言模型
LLaMAntino-2-chat-13b-UltraChat模型Github开源项目大语言模型意大利语自然语言处理AI研究Huggingface
这是一个经过指令微调的意大利语大语言模型。使用QLora技术训练,并基于UltraChat数据集的意大利语版本。项目开发由Leonardo超级计算机支持,并适用于多种意大利语对话场景的云端推理。
internlm2-chat-7b - 70亿参数大模型实现20万字超长文本理解及多场景智能对话
Github模型开源项目代码解释器Huggingface大语言模型人工智能InternLM2超长上下文
InternLM2-chat-7b作为书生·浦语第二代大模型的70亿参数版本,搭载20万字超长上下文理解技术,在复杂推理、数学运算、代码编程等核心任务上性能卓越。模型集成代码解释器和数据分析工具,通过增强型工具调用机制高效完成多步骤任务。在MMLU、AGIEval等主流评测基准上展现出同级别最优性能。该开源项目面向学术研究完全开放,同时提供免费商业授权渠道。
h2o-danube2-1.8b-chat - 1.8B参数的聊天模型,提升自然语言生成效果
H2O.ai变压器h2o-danube2-1.8b-chatGithub模型开源项目大语言模型文本生成Huggingface
H2O.ai推出1.8B参数的h2o-danube2-1.8b-chat模型,基于Llama 2架构,并经过H2O LLM Studio和Mistral分词器微调。该模型适用于多种文本生成应用,支持transformers库中的集成和量化、分片设置,提升计算效率。在基准测试中表现优异,并重视负责与道德使用,欢迎用户反馈以优化性能。
pythia-1.4b-deduped - 用于解释性研究的大规模语言模型套件
HuggingfaceEleutherAI大语言模型开源项目模型PythiaGithub模型训练去重数据集
Pythia Scaling Suite由多个大规模语言模型组成,旨在支持对模型可解释性的研究。其提供不同规模的模型版本,包括专为科研实验设计的1.4B去重模型,伴有154个训练检查点。虽不以下游应用为导向,但其性能在诸多方面可比拟甚至超越同类模型。适用于关注语言模型行为研究的科学工作者。