#大型语言模型

Llama-3-8B-Instruct-DPO-v0.2-GGUF - Llama-3-8B的GGUF格式量化模型

模型大型语言模型量化GGUFLlama-3开源项目Huggingface文本生成Github

Llama-3-8B-Instruct-DPO-v0.2模型的GGUF格式量化版本，提供2-bit至8-bit多级量化选项。该版本显著减小模型体积和内存需求，同时维持性能。采用ChatML提示模板，兼容多种GGUF格式支持工具，如llama.cpp和LM Studio。此轻量化版本使大型语言模型能在更多设备上本地运行，扩展了应用范围。

pythia-1.4b - 促进可解释性研究的大型语言模型工具集提供多个训练阶段检查点

模型大型语言模型GithubPythia开源项目Huggingface机器学习GPT-NeoX自然语言处理

Pythia-1.4B是EleutherAI开发的大型语言模型，作为Pythia模型套件的一部分，拥有12亿参数规模。该模型在Pile数据集上训练，提供143个中间检查点，便于研究模型训练过程中的行为变化。Pythia-1.4B基于GPT-NeoX框架，采用Apache 2.0许可证。这个模型主要用于语言模型可解释性研究，不适合直接用作商业产品。研究人员可利用Pythia-1.4B及其检查点进行科学实验，探索大型语言模型的功能和局限性。

bloom-7b1 - 支持57种语言的开源大型语言模型

Huggingface模型开源人工智能大型语言模型多语言Github开源项目BLOOM

BLOOM是BigScience项目开发的开源大型语言模型，支持45种自然语言和12种编程语言，拥有1760亿参数。该模型使用1.5TB预处理文本在法国超级计算机上训练，可用于文本生成、信息提取和问答等任务。BLOOM采用RAIL开放许可证，旨在推动语言模型公共研究，但不适用于高风险场景。

Meta-Llama-3-70B - Meta发布Llama 3开源大语言模型系列

Llama 3大型语言模型模型Github开源项目Huggingface自然语言处理人工智能Meta

Meta推出Llama 3大语言模型系列,包含8B和70B参数规模的预训练和指令微调版本。模型在对话任务中表现出色,性能超越多个现有开源聊天模型。Llama 3采用优化的Transformer架构,使用公开在线数据训练,注重提升模型的实用性和安全性。该模型适用于英语商业和研究用途,Meta提供了使用说明、评估结果及负责任的AI开发实践指南。

falcon-rw-1b - 基于网络数据训练的10亿参数语言模型

模型大型语言模型人工智能RefinedWebGithubFalcon-RW-1BHuggingface开源项目自然语言处理

Falcon-RW-1B是一个由TII开发的10亿参数因果解码器模型，基于3500亿个RefinedWeb高质量网络数据tokens训练而成。该模型以Apache 2.0许可证发布，主要用于研究纯网络数据对大型语言模型性能的影响。Falcon-RW-1B在多项任务中表现出与同等规模模型相当或更优的性能，为研究人员提供了探索语言模型能力和局限性的有力工具。

medllama3-v20 - 面向医疗领域的微调语言模型

Huggingface模型训练超参数Github大型语言模型开源项目微调Lora医疗数据

MedLLaMA3-v20是一个专注于医疗领域的大型语言模型，由Probe Medical和延世大学MAILAB共同开发。该模型利用公开医疗数据进行微调，旨在提升医疗相关任务的处理能力。模型采用多个LoRA目标进行训练，包括各种投影技术，以优化性能。作为英语医疗文本处理工具，MedLLaMA3-v20可能在医疗信息检索和诊断辅助等领域发挥作用。

Mistral-Nemo-Instruct-2407-GGUF - 多语言高性能指令型语言模型的GGUF量化方案

提示模板模型硬件需求模型量化大型语言模型GithubMistral-Nemo-Instruct-2407Huggingface开源项目

Mistral-Nemo-Instruct-2407-GGUF是Mistral AI和NVIDIA联合开发的指令微调大语言模型的量化版本。该模型支持多语言处理，性能优于同等规模模型。项目提供多种GGUF量化方案，文件大小从4.79GB到24.50GB不等，适用于不同硬件配置，方便在各类设备上部署。

bloom-1b7 - 开源多语言自然语言处理模型

Huggingface模型开源人工智能大型语言模型多语言Github开源项目BLOOM

BLOOM-1B7是BigScience项目开发的开源多语言预训练语言模型,支持45种自然语言和12种编程语言。该模型采用改进的Transformer架构,包含17亿参数,在1.5TB多语言语料上训练而成。BLOOM-1B7可用于文本生成、信息提取、问答等多种自然语言处理任务,为研究人员和开发者提供了探索大型语言模型特性的平台。模型遵循RAIL许可证,限制了在高风险场景中的使用,旨在推动语言模型的公共研究。

Qwen2.5-Coder-7B-Instruct - 卓越代码生成能力和128K长文本支持

模型大型语言模型人工智能GithubQwen2.5-Coder长文本处理Huggingface开源项目代码生成

Qwen2.5-Coder-7B-Instruct是基于Qwen2.5开发的代码专用大语言模型。该模型在代码生成、推理和修复方面表现出色，为代码智能体等实际应用奠定了坚实基础。模型支持处理高达128K tokens的长文本，拥有7.61B参数，采用因果语言模型架构。除了增强编码能力，它还在数学和通用任务中保持了优秀表现。开发者可通过简洁的代码示例快速上手使用此模型进行文本生成。

Minerva-350M-base-v1.0 - 意大利和英语数据驱动的开源LLM模型

Huggingface大型语言模型Minerva开源项目预训练模型Github意大利语偏见

Minerva-350M-base-v1.0是一个基于350百万参数的开源语言模型，使用意大利语和英语数据进行训练。这一模型由Sapienza NLP、FAIR及CINECA共同开发，提升双语文本生成。使用时需注意可能存在的偏见与不当内容。

quantized-models - 提供多源量化模型以提升大语言模型推理效率

quantized-models大型语言模型文本生成推理开源项目模型transformersGithubHuggingface量化模型

quantized-models项目整合了多种来源的量化模型，旨在提高大语言模型的推理效率。模型支持者包括TheBloke、LoneStriker、Meta Llama等，提供gguf、exl2格式的支持。用户可通过transformers库便捷地进行文本生成，这些模型按现状发布，需遵循其各自的许可协议。

Llama-3-Taiwan-8B-Instruct - 基于Llama-3架构的大规模双语语言模型专注中英文处理

Huggingface开源项目大型语言模型深度学习模型人工智能中文对话GithubLlama-3-Taiwan

Llama-3-Taiwan-8B是基于Llama-3架构开发的大规模双语语言模型,采用繁体中文和英文高质量语料进行训练。模型在法律、制造、医疗和电子等专业领域进行优化,支持8K上下文长度。通过繁体中文NLP基准测试验证,可应用于对话、生成、推理等多个场景。

llava-v1.6-vicuna-13b - 强大的图文多模态AI模型集成Vicuna-13b实现视觉智能对话

视觉问答开源项目LLaVA模型多模态大型语言模型Huggingface指令跟随Github

LLaVA-v1.6是基于Vicuna-13b微调的开源多模态AI模型，通过大规模图文对和指令数据训练而成。该模型擅长学术视觉问答和通用图像理解，支持自然的图文交互。采用transformer架构，为计算机视觉和自然语言处理研究提供了强大的视觉语言处理工具。

TIPO-500M - 增强文本到图像生成模型的性能与用户体验

提示优化开源项目模型Github生成模型Huggingface文本到图像TIPO大型语言模型

TIPO项目通过大型语言模型进行文本预采样，以优化文本到图像(T2I)系统的提示生成。这种创新框架能够精炼和扩展用户输入的提示，帮助生成优质图像。使用LLAMA架构的TIPO 200M和500M模型在多种数据集上进行训练，以提升生成质量。项目适配稳定扩散界面，经过多项生成任务的测试，表现卓越，为更多用户提供便捷的高品质图像生成体验。

Mistral-7B-Instruct-v0.2-llamafile - 高效多功能的开源语言模型

Github模型大型语言模型指令微调开源项目AI模型HuggingfaceMistral-7B-Instruct-v0.2自然语言处理

Mistral-7B-Instruct-v0.2是Mistral AI公司开发的改进版指令微调语言模型，拥有70亿参数。该模型支持多种量化格式和llamafile格式，可在CPU和GPU上高效运行，适用于对话、文本生成等多种场景。用户可根据设备选择合适的量化版本，通过命令行或Python代码轻松使用。模型在多项任务中表现优异，为开发者和研究者提供了强大的开源语言处理工具。

pythia-2.8b-v0 - 支持可解释性研究的多尺寸语言模型，适合科学研究应用

HuggingfaceEleutherAI机器学习可解释性大型语言模型开源项目模型PythiaGithub

Pythia模型套件旨在支持大型语言模型的可解释性研究，提供多种尺寸的模型以及去重和未去重的数据版本。尽管不以提升下游性能为主要目标，但测试显示在某些任务中表现卓越。基于Transformer架构的Pythia-2.8B可进行微调研究，适用于探索语言模型的训练过程和变化情况。项目采用Apache 2.0许可，模型及检查点可通过Hugging Face获取，促进语言模型的训练与科研开发。

Yi-9B-200K - Yi-9B-200K模型增强长文本处理，优化语言理解与推理

Yi系列大型语言模型开源项目模型Github开源Huggingface双语Transformer

Yi系列开源语言模型通过Yi-9B-200K提升长文本解析能力，表现于代码、数学和逻辑推理上尤为突出。该模型使用截至2023年6月的数据集训练，跨语言功能强大，适用于个人、学术和商业环境。

Qwen2.5-32B-AGI-Q6_K-GGUF - 通量计算优化的高性能大语言模型本地部署

Qwen2.5GGUFHuggingface大型语言模型开源项目模型转换模型Githubllama.cpp

该项目提供了GGUF格式转换的Qwen2.5-32B-AGI模型，支持通过llama.cpp实现本地高效部署和推理。模型采用Q6_K量化方案，在维持性能的同时显著减少资源消耗。项目支持通过brew快速安装llama.cpp或源码编译部署，并提供命令行界面和服务器模式两种运行选项，为本地化大模型应用提供灵活解决方案。

gemma-1.1-2b-it-GPTQ - 基于Gemma开发的轻量级量化模型实现本地高效部署

大型语言模型GemmaAI模型训练模型Github开源项目语言生成人工智能安全Huggingface

Gemma-1.1-2b-it的GPTQ量化版本实现了模型性能与资源消耗的平衡。通过支持4-bit、8-bit等多种量化精度和Flash Attention 2加速技术，使其能在普通笔记本电脑和台式机上高效运行。该模型可用于文本生成、问答、总结等自然语言处理任务，并针对不同计算设备提供了完整的部署优化方案。

h2ogpt-4096-llama2-7b-chat - 基于Meta Llama 2的开源增强对话模型

Llama 2大型语言模型人工智能模型Github开源项目自然语言处理h2oGPTHuggingface

该项目是对Meta Llama 2 7B Chat模型的优化升级版本。项目提供在线演示平台，可进行多个语言模型的性能对比和私人文档对话。通过h2oGPT平台可体验实时对话功能，并在模型排行榜中查看性能评估结果。

miqu-1-70b - 高性能70B大语言模型，支持32k上下文，采用Mistral格式

模型设置提示词格式HuggingfaceGithubmiqu 70b开源项目人工智能模型大型语言模型

miqu-1-70b是一款采用Mistral格式的大型语言模型，具有32k tokens的上下文处理能力。模型采用高频基础ROPE设置，无需额外调整即可发挥优秀性能。经过温度系数1和top_p 0.95的参数组合测试，该模型适用于广泛的自然语言处理任务。

CodeLlama-34b-Instruct-hf - Meta推出的34B参数代码生成语言模型

Huggingface大型语言模型人工智能程序开发开源项目代码生成模型Code LlamaGithub

CodeLlama-34b-Instruct-hf是Meta开发的代码生成语言模型,采用34B参数规模并经过指令微调。该模型支持代码补全和指令对话功能,适用于多种编程语言开发。作为Code Llama系列的一员,模型基于优化的Transformer架构,通过大规模代码数据集训练,可用于代码合成和理解任务。

ko-gemma-2-9b-it - 韩语大型语言模型，最新版本提升对话生成能力

大型语言模型Gemma谷歌模型Github韩国语开源项目文本生成Huggingface

Ko-Gemma-2-9B-IT 是基于 Google 技术的韩语对话生成模型，经过精心调整，优化人类反馈，适合各种文本生成任务。

Ministral-8B-Instruct-2410-GGUF - 多语言开源大模型的精简量化版本

llama.cpp量化开源项目推理模型GithubHuggingfaceMistral大型语言模型

本项目提供Mistral AI的Ministral-8B-Instruct-2410模型的多种量化版本。使用llama.cpp进行量化,包含从16GB的F16全精度版本到4.45GB的IQ4_XS版本,适合不同硬件和性能需求。量化模型采用imatrix选项和特定数据集生成,可在LM Studio运行。项目详细介绍了各版本的文件大小、特点及模型提示格式,方便用户选择合适的版本。

LIMA2-7b-hf - Llama 2语言模型的功能概述与应用

Huggingface安全性Github开源项目模型大型语言模型Llama 2Meta文本生成

Llama 2是由Meta推出的大型语言模型系列，具备7亿到70亿参数，专为对话场景设计。Llama 2在多项评测中表现优异，能够与闭源模型如ChatGPT媲美。该模型采用优化的transformer架构，通过监督微调和人类反馈的强化学习来提升效能。使用前需遵守Meta许可条款，支持用于英语的商业和研究。

llm-jp-1.3b-v1.0 - 大规模语言模型支持多语言和多种编程语言

Github开源项目训练数据LLM-jp大型语言模型自然语言处理Huggingface深度学习模型

此大规模语言模型由日本研发，支持多语言（含日语和英语）及多编程语言。采用Transformer架构，经过预训练和指令调优，适用于多种自然语言处理任务。模型在多个硬件和软件环境中优化，包括使用Megatron-DeepSpeed和TRL，可用于生成自然语言文本，应用广泛，性能优异。

Minerva-3B-base-v1.0 - 意大利语和英语文本生成的开源模型

开源项目模型意大利语MinervaGithubHuggingface大型语言模型预训练偏见

Minerva-3B-base-v1.0是由Sapienza NLP与FAIR及CINECA合作开发的开源大型语言模型，专门在意大利语和英语文本上进行预训练。其采用3亿参数和6600亿标记数设计，基于Mistral架构，可有效进行文本生成。同时指出，这一模型在推理速度和词汇处理方面表现优良，但也可能会生成偏见或不当内容，因此在使用时需注意。

RakutenAI-7B-chat - RakutenAI-7B模型的日本语言处理技术与性能表现

日本语言模型RakutenAI-7BMistralGithub开源项目指令微调大型语言模型Huggingface模型

RakutenAI-7B在日本语言理解测试中表现优异，并在英文项目中保持高竞争力。基于Mistral模型架构，该项目成功调整了Mistral-7B-v0.1的预训练权重，词汇表扩展至48k以优化日语字符处理率。独立评估显示其适用于对话应用的性能优越，评分为0.393和0.331，方法简便实用。

相关文章

Article Cover

AgentChain 学习资料汇总 - 大型语言模型驱动的多模态智能代理系统

Article Cover

SearchGPT入门学习资料 - 开源RAG搜索引擎项目

Article Cover

Awesome-LLM-KG学习资源汇总-大语言模型与知识图谱的融合

Article Cover

KG-LLM-Papers入门指南 - 知识图谱与大语言模型融合的前沿探索

Article Cover

generative_ai_with_langchain学习资料汇总 - 使用LangChain构建大型语言模型应用

Article Cover

EasyEdit学习资料汇总 - 一个易用的LLM知识编辑框架

Article Cover

GPT4RoI学习资料汇总 - 基于感兴趣区域的大型语言模型指令微调

Article Cover

Awesome-LLM4RS-Papers学习资料汇总 - 大语言模型增强推荐系统论文集锦

Article Cover

LangChain入门学习资料大全 - 构建和部署AI应用的开源框架

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号