#大语言模型

Meta-Llama-3.1-405B-llamafile - Meta Llama 3.1 提供多平台兼容的开源语言模型

开源项目模型GithubHuggingface多语言大语言模型Meta安全性训练数据

Meta-Llama-3.1-405B是一个多语言开源模型，由Mozilla打包为llamafile格式，兼容Linux、MacOS、Windows等多操作系统。它提供128k的上下文窗口和强大的多语言处理能力，在行业基准测试中表现优异，适用于商业和研究用途。

Mistral-NeMo-Minitron-8B-Base - 高效压缩的大规模语言模型适用于多种自然语言生成任务

人工智能模型压缩模型Github开源项目大语言模型Mistral-NeMo自然语言处理Huggingface

Mistral-NeMo-Minitron-8B-Base是一个经过剪枝和蒸馏的基础文本生成模型。它采用4096维嵌入、32个注意力头、11520维MLP中间层和40层结构,结合分组查询注意力和旋转位置编码技术。该模型在MMLU等基准测试中表现优异,适用于多种自然语言生成任务。支持8k字符输入,可通过Transformers库轻松使用。

Qwen2.5-72B - 基于727亿参数的预训练语言模型专注多语言与长文本处理

Qwen2.5多语言支持长文本生成模型Github开源项目大语言模型自然语言处理Huggingface

Qwen2.5-72B是一个拥有727亿参数的预训练语言模型，支持29种以上语言处理，可处理13万个token的上下文长度。模型专注于编码、数学运算和结构化数据理解，支持8K token文本生成。模型架构整合了RoPE、SwiGLU和RMSNorm技术，适用于后续的指令微调和应用开发。

internlm2-1_8b - 18亿参数开源语言模型支持20万字超长上下文输入

超长上下文大语言模型开源模型开源项目模型性能评测HuggingfaceInternLMGithub

InternLM2-1.8B是一个18亿参数的开源语言模型，包含基础模型、对话模型和RLHF对齐版本。它支持20万字的上下文输入，在长文本理解、推理、数学和编程方面表现优异。该模型开放学术研究使用，并提供免费商业授权申请渠道。

Qwen1.5-72B-Chat - 支持多语言的720亿参数开源语言模型

大语言模型开源项目自然语言处理Qwen1.5模型人工智能Huggingface多语言支持Github

Qwen1.5-72B-Chat作为Qwen2的预发布版本，集成了从5亿到720亿参数的8种规模模型。模型采用Transformer架构和SwiGLU激活函数，支持32K上下文长度和多语言处理。通过Hugging Face框架即可部署使用，同时提供GPTQ、AWQ等多种量化版本，可满足不同场景需求。

Meta-Llama-3.1-405B-Instruct-GGUF - Meta-Llama 3.1量化版大模型支持多语种文本生成

GGUFMeta-Llama-3.1-405B-Instruct量化模型大语言模型HuggingfaceGithub开源项目模型文本生成

Meta-Llama-3.1-405B-Instruct模型的GGUF量化版本支持英语、德语、法语在内的8种语言文本生成。通过2-bit和3-bit量化技术优化，可在llama.cpp、LM Studio等主流框架上运行，方便开发者进行本地部署和应用开发。

pythia-160m-deduped - 基于Pile数据集训练的160M参数语言模型

大语言模型可解释性研究Github开源项目自然语言处理Huggingface模型训练Pythia模型

Pythia-160M-deduped是一个经过去重Pile数据集训练的语言模型,总参数量为1.62亿。模型提供154个训练检查点,性能可与同规模的OPT和GPT-Neo相媲美。该项目主要面向语言模型可解释性研究,采用Apache 2.0协议开源,适合学术研究使用。

llmlingua-2-bert-base-multilingual-cased-meetingbank - 基于BERT的多语言提示词压缩模型

Huggingface开源项目LLMLingua-2模型提示词压缩Github数据处理文本优化大语言模型

LLMLingua-2-Bert是一个基于BERT多语言模型开发的提示词压缩工具，通过数据蒸馏技术实现任务无关的提示词压缩功能。该模型可识别并保留提示词中的关键信息，在维持原始语义的基础上减少token使用量。模型支持多语言处理，提供API接口，适用于需要控制提示词长度的各类AI应用场景。

gemma-1.1-7b-it - Google发布的高性能7B参数语言模型

模型评估Gemma人工智能训练数据模型Github开源项目大语言模型Huggingface

Gemma-1.1-7b-it作为Google最新发布的7B参数语言模型,通过强化学习和人类反馈方法训练,在模型质量、代码生成、事实准确性及多轮对话等方面都实现了显著提升。该模型能够支持问答、摘要和推理等多项任务,同时具备轻量化特点,可在普通笔记本电脑等设备上运行

SILMA-9B-Instruct-v1.0 - 阿拉伯语9B参数AI模型，广泛适应商业场景

阿拉伯语开源项目模型生成式AISILMA AIGithubHuggingface大语言模型业务应用

SILMA-9B-Instruct-v1.0是一个开放权重的阿拉伯语AI模型，基于Google Gemma基础，设计有9B参数。在阿拉伯语任务中的表现优异，经过MMLU、AlGhafa和ARC Challenge等多项基准测试，最高准确率达到91.26。该模型支持多GPU和量化版本，实现多设备高效运行，适合各种商业应用场景。

llama3-8B-DarkIdol-2.2-Uncensored-1048K-GGUF - 多语言支持的llama3-8B GGUF量化模型，提供多级压缩优化

开源项目量化模型Github模型Huggingfacellama3大语言模型GGUF权重压缩

llama3-8B GGUF量化模型支持英语、日语和中文，提供3.3GB至16.2GB多种压缩版本，适应不同硬件需求。Q4_K系列在性能和质量上表现均衡。模型基于transformers库开发，适用于角色扮演和偶像相关场景。用户可通过Hugging Face平台获取各版本及其性能对比信息。

MiniCPM3-4B - 轻量高效的开源模型支持长文本处理和函数调用

开源模型MiniCPM3Huggingface人工智能模型Github开源项目大语言模型机器学习

MiniCPM3-4B是一款开源语言模型，仅用4B参数就达到了接近GPT-3.5-Turbo的性能。它具备32k上下文窗口、函数调用和代码解释器等功能，在中英双语、数学和编程等多个基准测试中表现出色。通过创新的训练策略，MiniCPM3-4B实现了与7B-9B模型相当的能力，为资源受限的AI应用场景提供了高效选择。

pythia-12b-deduped - 面向解释性研究的大模型工具集

EleutherAIPythia文本预测Python模型Github开源项目大语言模型Huggingface

Pythia Scaling Suite是EleutherAI开发的用于解释性研究的大语言模型集合。该套件包含八种尺寸的模型，每种尺寸有去重和非去重版本，均在相同的数据集和顺序下训练，提供科学实验的受控环境，支持对大型语言模型的行为与功能研究。用户可以在Hugging Face上获取154个中间检查点，并通过开源代码库进行调整和扩展。

neural-chat-7b-v3-1 - 在英特尔Gaudi2上优化的mistralai 7B语言模型

模型微调Intel Gaudi 2模型Github开源项目数据集大语言模型量化推理Huggingface

neural-chat-7b-v3-1模型经过优化，利用mistralai/Mistral-7B-v0.1基础模型和DPO方法，适用于多种语言任务。结合Open-Orca/SlimOrca数据集，提升了ARC、HellaSwag与TruthfulQA等多项评估指标表现，并支持INT4、BF16等多种推理模式。非常适合高性能语言生成与处理应用，详细信息和使用指导可在GitHub和Hugging Face Leaderboard上查看。

EEVE-Korean-10.8B-v1.0 - 七阶段培训实现韩语大语言模型扩展的高效技术

词汇扩展技术大语言模型跨语言应用Github开源项目EEVE-Korean-10.8B-v1.0Huggingface韩语词汇拓展模型

通过子词嵌入与参数冻结的七阶训练，从英语模型有效扩展至韩语。该项目未进行指令微调，但在韩语任务中表现优异，并通过详细词汇扩展过程提升跨语言应用潜力。深入的词频分析和标记器训练确保模型拥有丰富的韩语词汇。了解更多技术细节，请查阅技术报告。

Hebrew-Mistral-7B - 面向希伯来语和英语的通用大型语言模型

Hebrew-Mistral-7BHuggingface开源项目模型希伯来语Github开源自然语言处理大语言模型

Hebrew-Mistral-7B是一款开源的大型语言模型，参数量达到70亿，专注于希伯来语和英语的语言理解与生成。基于Mistral-7B-v1.0，模型适用于多种自然语言处理任务，包含64,000个词元，提升了希伯来语和英语的语言处理能力。

SciPhi-Mistral-7B-32k - 基于Mistral-7B-v0.1增强科学推理与教育能力的AI模型

Transformer大语言模型教育能力开源项目SciPhi-Mistral-7B-32k模型HuggingfaceGithub科学推理

SciPhi-Mistral-7B-32k是从Mistral-7B-v0.1微调而来的大型语言模型，通过四轮微调和超过十亿个token的数据集，实现了卓越的科学推理及教育能力。其特点包括采用变压器架构、组内查询注意力、滑窗注意力，并支持字节回退BPE分词器。SciPhi-Self-RAG-Mistral-7B-32k当前可用，具体细节可查看相关文档。

Yi-34B-200K - 开源双语大模型提升长文本理解能力

Huggingface开源项目双语模型GithubYi开源大语言模型Transformer

Yi-34B-200K是开源的双语大语言模型，专注于提升长文本理解。通过在长时间上下文数据上训练5亿个token，Yi-34B-200K的『寻针与草垛』测试表现从89.3%提高到99.8%。其独特的数据集和高效的训练管道，使Yi系列在语言理解、常识推理和阅读理解方面表现优异，超过其他开源模型。该模型适用于个人、学术和中小企业，性价比较高。

Qwen2.5-32B-Instruct-GPTQ-Int8 - 开源多语言大模型Qwen2.5 32B量化版支持超长文本处理

大语言模型Github开源项目文本生成量化多语言支持HuggingfaceQwen2.5模型

Qwen2.5-32B-Instruct-GPTQ-Int8是Qwen2.5系列的量化版本，通过GPTQ 8位量化技术实现高效部署。模型支持29种语言交互，具备128K超长上下文理解和8K文本生成能力。在编程、数学计算、文本理解等任务中表现优异，同时对结构化数据处理能力显著提升。该模型采用325亿参数规模，适合在资源受限环境中运行

Mistral-7B-Instruct-v0.3-GPTQ - Mistral 7B指令模型的4位量化优化版本

HuggingfaceGPTQ量化开源项目模型Github函数调用大语言模型指令微调Mistral-7B-Instruct-v0.3

Mistral-7B-Instruct-v0.3是一个经过GPTQ 4位量化的语言模型。基于Mistral-7B-v0.3开发，集成了32768词汇量、v3分词器和函数调用功能。模型可用于创意写作等任务，但由于缺少内容审核机制，在应用环境选择上需要谨慎评估。

gemma-2-27b - Google开源的轻量级高性能语言模型Gemma

HuggingfaceGemma人工智能模型Github开源项目大语言模型自然语言处理机器学习

Gemma-2-27b是Google基于Gemini技术推出的开源语言模型,采用解码器架构设计。模型支持问答、摘要、推理等多种文本生成任务,能在笔记本电脑等资源受限环境运行。模型参数量为270亿,采用130亿token训练数据,在MMLU等多项基准测试中表现优异。该项目开源了预训练和指令微调两个版本,并提供完整的部署和使用文档。

Meta-Llama-3-8B-Instruct-FP8 - FP8量化版Meta Llama 3实现内存占用减半

模型优化FP8量化vLLM模型Github开源项目Meta-Llama-3大语言模型Huggingface

这是一个通过8位浮点(FP8)量化技术优化的Meta Llama 3模型，在仅占用原模型一半存储空间和GPU内存的同时，保持了99.28%的性能水平。模型基于vLLM后端运行，支持英语对话场景下的商业及研究应用，可用于构建AI助手等应用。

deepseek-coder-7b-instruct-v1.5 - 基于2T代码数据训练的4K上下文智能编程模型

机器学习Github模型开源项目代码生成Huggingface大语言模型人工智能DeepSeek Coder

DeepSeek Coder是一个开源的代码生成语言模型，通过2T代码数据预训练和2B指令数据微调，具备4K上下文窗口。该模型支持代码生成与理解功能，开发者可通过Hugging Face平台便捷部署，并允许商业应用场景。

Llama-3.2-1B-Instruct-GGUF - 多语言大型语言模型提升对话与摘要任务表现

社区许可协议HuggingfaceLlama 3.2Meta模型Github开源项目大语言模型多语言

Meta的多语言大模型Llama 3.2支持多种语言，优化对话与摘要任务。模型提供1B和3B版本，通过监督微调和人类反馈强化学习提升互动有用性与安全性。采用优化的Transformer架构，并利用Grouped-Query Attention提升推理能力。开发者可以根据需求进行模型微调。模型发布于2024年9月25日，采用商用许可协议，建议在商业与研究中谨慎使用。

Meta-Llama-3-8B-GGUF - Meta Llama 3 8B模型的GGUF量化版本支持8K上下文长度

大语言模型自然语言处理HuggingfaceGithubLlama 3开源项目人工智能模型Meta

Meta-Llama-3-8B-GGUF是Meta发布的Llama 3系列8B参数大语言模型的量化版本。模型针对对话场景优化，采用改进的Transformer架构，支持8K上下文长度，并使用GQA技术提升推理性能。通过监督微调和人类反馈强化学习，增强了安全性和实用性。该模型于2024年4月发布，基于公开数据训练，知识截止到2023年3月。

LLaMAntino-2-chat-13b-hf-UltraChat-ITA - 意大利语对话支持增强的大语言模型

LLaMAntino-2-chat-13b-UltraChat模型Github开源项目大语言模型意大利语自然语言处理AI研究Huggingface

这是一个经过指令微调的意大利语大语言模型。使用QLora技术训练，并基于UltraChat数据集的意大利语版本。项目开发由Leonardo超级计算机支持，并适用于多种意大利语对话场景的云端推理。

internlm2-chat-7b - 70亿参数大模型实现20万字超长文本理解及多场景智能对话

Github模型开源项目代码解释器Huggingface大语言模型人工智能InternLM2超长上下文

InternLM2-chat-7b作为书生·浦语第二代大模型的70亿参数版本，搭载20万字超长上下文理解技术，在复杂推理、数学运算、代码编程等核心任务上性能卓越。模型集成代码解释器和数据分析工具，通过增强型工具调用机制高效完成多步骤任务。在MMLU、AGIEval等主流评测基准上展现出同级别最优性能。该开源项目面向学术研究完全开放，同时提供免费商业授权渠道。

h2o-danube2-1.8b-chat - 1.8B参数的聊天模型，提升自然语言生成效果

H2O.ai变压器h2o-danube2-1.8b-chatGithub模型开源项目大语言模型文本生成Huggingface

H2O.ai推出1.8B参数的h2o-danube2-1.8b-chat模型，基于Llama 2架构，并经过H2O LLM Studio和Mistral分词器微调。该模型适用于多种文本生成应用，支持transformers库中的集成和量化、分片设置，提升计算效率。在基准测试中表现优异，并重视负责与道德使用，欢迎用户反馈以优化性能。

pythia-1.4b-deduped - 用于解释性研究的大规模语言模型套件

HuggingfaceEleutherAI大语言模型开源项目模型PythiaGithub模型训练去重数据集

Pythia Scaling Suite由多个大规模语言模型组成，旨在支持对模型可解释性的研究。其提供不同规模的模型版本，包括专为科研实验设计的1.4B去重模型，伴有154个训练检查点。虽不以下游应用为导向，但其性能在诸多方面可比拟甚至超越同类模型。适用于关注语言模型行为研究的科学工作者。

Qwen2-1.5B-Instruct-GGUF - Qwen2提供出色的多语言支持与兼容性

Transformer架构多语言能力指令调优模型Qwen2Github开源项目大语言模型Huggingface

Qwen2系列涵盖基础及指令微调语言模型，参数规模从0.5亿到72亿，具有优秀的多语言、编码及推理能力。1.5B版本展示了卓越的语言理解与生成能力，可媲美专有模型。本地可通过llama.cpp运行，并兼容OpenAI API以简便方式访问。多种模式与量化选项，适应不同需求与应用场景。

Llama-3.1-Swallow-70B-Instruct-v0.1 - 强化日语和英语能力的多语言大型模型

日本语言能力开源项目指令微调模型HuggingfaceLlama 3.1 SwallowGithub大语言模型数据集

Llama 3.1 Swallow系列在增强日语和英语能力方面表现出色。基于Llama 3.1的模型结构，它不仅改进了对日语的处理能力，还保留了对英语的支持。利用包括日本网络、维基百科在内的语料，以2000亿个令牌进行训练，该模型在多个领域表现优异，包括文本生成、日英翻译和学术考试。不同的模型变体支持多种语言处理需求，提供灵活选择。

相关文章

Article Cover

NeMo-Curator学习资料汇总 - GPU加速的大语言模型数据处理工具包

Article Cover

OntoGPT学习资源汇总 - 基于LLM的本体论提取工具

Article Cover

torchchat入门指南 - PyTorch推出的本地LLM运行解决方案

Article Cover

ModelCache学习资料汇总 - 大语言模型语义缓存系统

Article Cover

MobiLlama入门学习资料 - 面向边缘设备的小型语言模型

Article Cover

OmniQuant入门学习资料-Omnidirectionally Calibrated Quantization for LLMs

Article Cover

large_language_model_training_playbook学习资料汇总 - 大型语言模型训练技巧与资源集锦

Article Cover

Oatmeal - 功能强大的终端LLM聊天工具 | 入门指南与资源汇总

Article Cover

SqueezeLLM学习资料汇总 - 高效压缩大语言模型的开源项目

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号