#大型语言模型
DeepSeek-Coder-V2-Instruct - 高性能开源MoE代码语言模型支持338种编程语言
模型大型语言模型DeepSeek-Coder-V2开源项目Huggingface开源模型混合专家模型AI编程Github
DeepSeek-Coder-V2是一个开源的MoE代码语言模型,通过6万亿token的额外预训练,大幅提升了编码和数学推理能力。该模型支持338种编程语言,具有128K的上下文长度,在多项标准基准测试中表现优异。DeepSeek-Coder-V2不仅在代码相关任务中媲美GPT4-Turbo,还在某些方面超越了多个知名闭源模型。
Meta-Llama-3-8B - Meta发布的新一代大规模语言模型Llama 3
模型大型语言模型人工智能GithubLlama 3Huggingface开源项目Meta自然语言处理
Meta-Llama-3-8B是Meta发布的新一代大语言模型,拥有80亿参数规模。该模型在超过15万亿token的公开数据上预训练,经过指令微调后在对话任务中表现出色。模型采用优化的Transformer架构,支持8K上下文长度,在安全性和实用性方面进行了优化。适用于商业和研究用途,可用于开发聊天助手等多种自然语言生成应用。
Llama-2-7b-chat-hf - 开源对话模型 强大性能与安全性兼备
模型Llama 2大型语言模型人工智能GithubHuggingface开源项目Meta自然语言处理
Llama-2-7b-chat-hf是Meta开发的大型语言模型,针对对话场景进行了优化。该模型在多数基准测试中超越了其他开源聊天模型,其有用性和安全性与部分知名封闭源模型相当。模型基于transformer架构,通过监督微调和人类反馈强化学习提升了帮助性和安全性。Llama-2-7b-chat-hf支持多种商业和研究应用,适用于助手式聊天等任务。使用时需按特定格式输入以获得最佳性能。
Meta-Llama-3-70B-Instruct - Meta开发的700亿参数指令微调大语言模型用于对话和生成
模型大型语言模型人工智能GithubLlama 3Huggingface开源项目Meta自然语言处理
Meta-Llama-3-70B-Instruct是Meta公司开发的700亿参数大语言模型,经指令微调优化对话能力。模型支持8k上下文长度,采用GQA架构提升推理效率。在多项基准测试中表现出色,具有良好的实用性和安全性。该模型可用于构建对话助手等自然语言生成任务,支持商业和研究用途。模型提供商业许可,可通过Transformers或原生llama3代码库使用。
Llama-3.1-Nemotron-70B-Instruct-HF - NVIDIA定制Llama 3.1模型提升AI回答质量
Huggingface模型Llama-3.1-Nemotron-70B-Instruct人工智能大型语言模型Github开源项目自然语言处理NVIDIA
Llama-3.1-Nemotron-70B-Instruct-HF是NVIDIA基于Llama 3.1定制的大语言模型,旨在提高AI回答的实用性。该模型在Arena Hard、AlpacaEval 2 LC和MT-Bench等自动评估基准上表现优异,超越了GPT-4和Claude 3.5等主流模型。通过RLHF技术训练,该模型能够准确回答问题并提供有价值的回应。开发者可以使用Hugging Face Transformers库部署该模型,但需要至少2个80GB GPU支持。
gemma-2b-it - Google开源轻量级语言模型 适用于资源受限环境
模型大型语言模型人工智能GithubGemma开源项目Huggingface机器学习自然语言处理
Gemma-2b-it是Google开源的轻量级指令调优语言模型,采用2B参数设计。该模型支持问答、摘要和推理等多种文本生成任务,适用于笔记本电脑等资源受限环境。Gemma-2b-it在英语环境下表现出色,开放权重为AI创新提供更多可能。该模型基于Gemini技术,是Google推动AI民主化的重要举措。
Mistral-7B-Instruct-v0.3-GGUF - 高性能量化版指令微调大语言模型
提示模板模型量化Mistral-7B-Instruct-v0.3大型语言模型硬件要求GithubHuggingface开源项目
Mistral-7B-Instruct-v0.3 GGUF是一系列针对不同硬件条件优化的量化模型。支持32k上下文长度、扩展词表和函数调用,适用于对话等交互任务。模型大小从2.72GB到14.5GB不等,提供多种精度选择,平衡性能和资源消耗。GGUF格式便于在各类设备上高效部署和使用。
Llama-3-8B-Instruct-DPO-v0.2-GGUF - Llama-3-8B的GGUF格式量化模型
模型大型语言模型量化GGUFLlama-3开源项目Huggingface文本生成Github
Llama-3-8B-Instruct-DPO-v0.2模型的GGUF格式量化版本,提供2-bit至8-bit多级量化选项。该版本显著减小模型体积和内存需求,同时维持性能。采用ChatML提示模板,兼容多种GGUF格式支持工具,如llama.cpp和LM Studio。此轻量化版本使大型语言模型能在更多设备上本地运行,扩展了应用范围。
pythia-1.4b - 促进可解释性研究的大型语言模型工具集 提供多个训练阶段检查点
模型大型语言模型GithubPythia开源项目Huggingface机器学习GPT-NeoX自然语言处理
Pythia-1.4B是EleutherAI开发的大型语言模型,作为Pythia模型套件的一部分,拥有12亿参数规模。该模型在Pile数据集上训练,提供143个中间检查点,便于研究模型训练过程中的行为变化。Pythia-1.4B基于GPT-NeoX框架,采用Apache 2.0许可证。这个模型主要用于语言模型可解释性研究,不适合直接用作商业产品。研究人员可利用Pythia-1.4B及其检查点进行科学实验,探索大型语言模型的功能和局限性。
bloom-7b1 - 支持57种语言的开源大型语言模型
Huggingface模型开源人工智能大型语言模型多语言Github开源项目BLOOM
BLOOM是BigScience项目开发的开源大型语言模型,支持45种自然语言和12种编程语言,拥有1760亿参数。该模型使用1.5TB预处理文本在法国超级计算机上训练,可用于文本生成、信息提取和问答等任务。BLOOM采用RAIL开放许可证,旨在推动语言模型公共研究,但不适用于高风险场景。
Meta-Llama-3-70B - Meta发布Llama 3开源大语言模型系列
Llama 3大型语言模型模型Github开源项目Huggingface自然语言处理人工智能Meta
Meta推出Llama 3大语言模型系列,包含8B和70B参数规模的预训练和指令微调版本。模型在对话任务中表现出色,性能超越多个现有开源聊天模型。Llama 3采用优化的Transformer架构,使用公开在线数据训练,注重提升模型的实用性和安全性。该模型适用于英语商业和研究用途,Meta提供了使用说明、评估结果及负责任的AI开发实践指南。
falcon-rw-1b - 基于网络数据训练的10亿参数语言模型
模型大型语言模型人工智能RefinedWebGithubFalcon-RW-1BHuggingface开源项目自然语言处理
Falcon-RW-1B是一个由TII开发的10亿参数因果解码器模型,基于3500亿个RefinedWeb高质量网络数据tokens训练而成。该模型以Apache 2.0许可证发布,主要用于研究纯网络数据对大型语言模型性能的影响。Falcon-RW-1B在多项任务中表现出与同等规模模型相当或更优的性能,为研究人员提供了探索语言模型能力和局限性的有力工具。
medllama3-v20 - 面向医疗领域的微调语言模型
Huggingface模型训练超参数Github大型语言模型开源项目微调Lora医疗数据
MedLLaMA3-v20是一个专注于医疗领域的大型语言模型,由Probe Medical和延世大学MAILAB共同开发。该模型利用公开医疗数据进行微调,旨在提升医疗相关任务的处理能力。模型采用多个LoRA目标进行训练,包括各种投影技术,以优化性能。作为英语医疗文本处理工具,MedLLaMA3-v20可能在医疗信息检索和诊断辅助等领域发挥作用。
Mistral-Nemo-Instruct-2407-GGUF - 多语言高性能指令型语言模型的GGUF量化方案
提示模板模型硬件需求模型量化大型语言模型GithubMistral-Nemo-Instruct-2407Huggingface开源项目
Mistral-Nemo-Instruct-2407-GGUF是Mistral AI和NVIDIA联合开发的指令微调大语言模型的量化版本。该模型支持多语言处理,性能优于同等规模模型。项目提供多种GGUF量化方案,文件大小从4.79GB到24.50GB不等,适用于不同硬件配置,方便在各类设备上部署。
bloom-1b7 - 开源多语言自然语言处理模型
Huggingface模型开源人工智能大型语言模型多语言Github开源项目BLOOM
BLOOM-1B7是BigScience项目开发的开源多语言预训练语言模型,支持45种自然语言和12种编程语言。该模型采用改进的Transformer架构,包含17亿参数,在1.5TB多语言语料上训练而成。BLOOM-1B7可用于文本生成、信息提取、问答等多种自然语言处理任务,为研究人员和开发者提供了探索大型语言模型特性的平台。模型遵循RAIL许可证,限制了在高风险场景中的使用,旨在推动语言模型的公共研究。
Qwen2.5-Coder-7B-Instruct - 卓越代码生成能力和128K长文本支持
模型大型语言模型人工智能GithubQwen2.5-Coder长文本处理Huggingface开源项目代码生成
Qwen2.5-Coder-7B-Instruct是基于Qwen2.5开发的代码专用大语言模型。该模型在代码生成、推理和修复方面表现出色,为代码智能体等实际应用奠定了坚实基础。模型支持处理高达128K tokens的长文本,拥有7.61B参数,采用因果语言模型架构。除了增强编码能力,它还在数学和通用任务中保持了优秀表现。开发者可通过简洁的代码示例快速上手使用此模型进行文本生成。
Minerva-350M-base-v1.0 - 意大利和英语数据驱动的开源LLM模型
Huggingface大型语言模型Minerva开源项目预训练模型Github意大利语偏见
Minerva-350M-base-v1.0是一个基于350百万参数的开源语言模型,使用意大利语和英语数据进行训练。这一模型由Sapienza NLP、FAIR及CINECA共同开发,提升双语文本生成。使用时需注意可能存在的偏见与不当内容。
quantized-models - 提供多源量化模型以提升大语言模型推理效率
quantized-models大型语言模型文本生成推理开源项目模型transformersGithubHuggingface量化模型
quantized-models项目整合了多种来源的量化模型,旨在提高大语言模型的推理效率。模型支持者包括TheBloke、LoneStriker、Meta Llama等,提供gguf、exl2格式的支持。用户可通过transformers库便捷地进行文本生成,这些模型按现状发布,需遵循其各自的许可协议。
Llama-3-Taiwan-8B-Instruct - 基于Llama-3架构的大规模双语语言模型 专注中英文处理
Huggingface开源项目大型语言模型深度学习模型人工智能中文对话GithubLlama-3-Taiwan
Llama-3-Taiwan-8B是基于Llama-3架构开发的大规模双语语言模型,采用繁体中文和英文高质量语料进行训练。模型在法律、制造、医疗和电子等专业领域进行优化,支持8K上下文长度。通过繁体中文NLP基准测试验证,可应用于对话、生成、推理等多个场景。
llava-v1.6-vicuna-13b - 强大的图文多模态AI模型 集成Vicuna-13b实现视觉智能对话
视觉问答开源项目LLaVA模型多模态大型语言模型Huggingface指令跟随Github
LLaVA-v1.6是基于Vicuna-13b微调的开源多模态AI模型,通过大规模图文对和指令数据训练而成。该模型擅长学术视觉问答和通用图像理解,支持自然的图文交互。采用transformer架构,为计算机视觉和自然语言处理研究提供了强大的视觉语言处理工具。
TIPO-500M - 增强文本到图像生成模型的性能与用户体验
提示优化开源项目模型Github生成模型Huggingface文本到图像TIPO大型语言模型
TIPO项目通过大型语言模型进行文本预采样,以优化文本到图像(T2I)系统的提示生成。这种创新框架能够精炼和扩展用户输入的提示,帮助生成优质图像。使用LLAMA架构的TIPO 200M和500M模型在多种数据集上进行训练,以提升生成质量。项目适配稳定扩散界面,经过多项生成任务的测试,表现卓越,为更多用户提供便捷的高品质图像生成体验。
Mistral-7B-Instruct-v0.2-llamafile - 高效多功能的开源语言模型
Github模型大型语言模型指令微调开源项目AI模型HuggingfaceMistral-7B-Instruct-v0.2自然语言处理
Mistral-7B-Instruct-v0.2是Mistral AI公司开发的改进版指令微调语言模型,拥有70亿参数。该模型支持多种量化格式和llamafile格式,可在CPU和GPU上高效运行,适用于对话、文本生成等多种场景。用户可根据设备选择合适的量化版本,通过命令行或Python代码轻松使用。模型在多项任务中表现优异,为开发者和研究者提供了强大的开源语言处理工具。
pythia-2.8b-v0 - 支持可解释性研究的多尺寸语言模型,适合科学研究应用
HuggingfaceEleutherAI机器学习可解释性大型语言模型开源项目模型PythiaGithub
Pythia模型套件旨在支持大型语言模型的可解释性研究,提供多种尺寸的模型以及去重和未去重的数据版本。尽管不以提升下游性能为主要目标,但测试显示在某些任务中表现卓越。基于Transformer架构的Pythia-2.8B可进行微调研究,适用于探索语言模型的训练过程和变化情况。项目采用Apache 2.0许可,模型及检查点可通过Hugging Face获取,促进语言模型的训练与科研开发。
Yi-9B-200K - Yi-9B-200K模型增强长文本处理,优化语言理解与推理
Yi系列大型语言模型开源项目模型Github开源Huggingface双语Transformer
Yi系列开源语言模型通过Yi-9B-200K提升长文本解析能力,表现于代码、数学和逻辑推理上尤为突出。该模型使用截至2023年6月的数据集训练,跨语言功能强大,适用于个人、学术和商业环境。
Qwen2.5-32B-AGI-Q6_K-GGUF - 通量计算优化的高性能大语言模型本地部署
Qwen2.5GGUFHuggingface大型语言模型开源项目模型转换模型Githubllama.cpp
该项目提供了GGUF格式转换的Qwen2.5-32B-AGI模型,支持通过llama.cpp实现本地高效部署和推理。模型采用Q6_K量化方案,在维持性能的同时显著减少资源消耗。项目支持通过brew快速安装llama.cpp或源码编译部署,并提供命令行界面和服务器模式两种运行选项,为本地化大模型应用提供灵活解决方案。
gemma-1.1-2b-it-GPTQ - 基于Gemma开发的轻量级量化模型实现本地高效部署
大型语言模型GemmaAI模型训练模型Github开源项目语言生成人工智能安全Huggingface
Gemma-1.1-2b-it的GPTQ量化版本实现了模型性能与资源消耗的平衡。通过支持4-bit、8-bit等多种量化精度和Flash Attention 2加速技术,使其能在普通笔记本电脑和台式机上高效运行。该模型可用于文本生成、问答、总结等自然语言处理任务,并针对不同计算设备提供了完整的部署优化方案。
h2ogpt-4096-llama2-7b-chat - 基于Meta Llama 2的开源增强对话模型
Llama 2大型语言模型人工智能模型Github开源项目自然语言处理h2oGPTHuggingface
该项目是对Meta Llama 2 7B Chat模型的优化升级版本。项目提供在线演示平台,可进行多个语言模型的性能对比和私人文档对话。通过h2oGPT平台可体验实时对话功能,并在模型排行榜中查看性能评估结果。
miqu-1-70b - 高性能70B大语言模型,支持32k上下文,采用Mistral格式
模型设置提示词格式HuggingfaceGithubmiqu 70b开源项目人工智能模型大型语言模型
miqu-1-70b是一款采用Mistral格式的大型语言模型,具有32k tokens的上下文处理能力。模型采用高频基础ROPE设置,无需额外调整即可发挥优秀性能。经过温度系数1和top_p 0.95的参数组合测试,该模型适用于广泛的自然语言处理任务。
CodeLlama-34b-Instruct-hf - Meta推出的34B参数代码生成语言模型
Huggingface大型语言模型人工智能程序开发开源项目代码生成模型Code LlamaGithub
CodeLlama-34b-Instruct-hf是Meta开发的代码生成语言模型,采用34B参数规模并经过指令微调。该模型支持代码补全和指令对话功能,适用于多种编程语言开发。作为Code Llama系列的一员,模型基于优化的Transformer架构,通过大规模代码数据集训练,可用于代码合成和理解任务。
ko-gemma-2-9b-it - 韩语大型语言模型,最新版本提升对话生成能力
大型语言模型Gemma谷歌模型Github韩国语开源项目文本生成Huggingface
Ko-Gemma-2-9B-IT 是基于 Google 技术的韩语对话生成模型,经过精心调整,优化人类反馈,适合各种文本生成任务。
Ministral-8B-Instruct-2410-GGUF - 多语言开源大模型的精简量化版本
llama.cpp量化开源项目推理模型GithubHuggingfaceMistral大型语言模型
本项目提供Mistral AI的Ministral-8B-Instruct-2410模型的多种量化版本。使用llama.cpp进行量化,包含从16GB的F16全精度版本到4.45GB的IQ4_XS版本,适合不同硬件和性能需求。量化模型采用imatrix选项和特定数据集生成,可在LM Studio运行。项目详细介绍了各版本的文件大小、特点及模型提示格式,方便用户选择合适的版本。
LIMA2-7b-hf - Llama 2语言模型的功能概述与应用
Huggingface安全性Github开源项目模型大型语言模型Llama 2Meta文本生成
Llama 2是由Meta推出的大型语言模型系列,具备7亿到70亿参数,专为对话场景设计。Llama 2在多项评测中表现优异,能够与闭源模型如ChatGPT媲美。该模型采用优化的transformer架构,通过监督微调和人类反馈的强化学习来提升效能。使用前需遵守Meta许可条款,支持用于英语的商业和研究。
llm-jp-1.3b-v1.0 - 大规模语言模型支持多语言和多种编程语言
Github开源项目训练数据LLM-jp大型语言模型自然语言处理Huggingface深度学习模型
此大规模语言模型由日本研发,支持多语言(含日语和英语)及多编程语言。采用Transformer架构,经过预训练和指令调优,适用于多种自然语言处理任务。模型在多个硬件和软件环境中优化,包括使用Megatron-DeepSpeed和TRL,可用于生成自然语言文本,应用广泛,性能优异。
Minerva-3B-base-v1.0 - 意大利语和英语文本生成的开源模型
开源项目模型意大利语MinervaGithubHuggingface大型语言模型预训练偏见
Minerva-3B-base-v1.0是由Sapienza NLP与FAIR及CINECA合作开发的开源大型语言模型,专门在意大利语和英语文本上进行预训练。其采用3亿参数和6600亿标记数设计,基于Mistral架构,可有效进行文本生成。同时指出,这一模型在推理速度和词汇处理方面表现优良,但也可能会生成偏见或不当内容,因此在使用时需注意。
RakutenAI-7B-chat - RakutenAI-7B模型的日本语言处理技术与性能表现
日本语言模型RakutenAI-7BMistralGithub开源项目指令微调大型语言模型Huggingface模型
RakutenAI-7B在日本语言理解测试中表现优异,并在英文项目中保持高竞争力。基于Mistral模型架构,该项目成功调整了Mistral-7B-v0.1的预训练权重,词汇表扩展至48k以优化日语字符处理率。独立评估显示其适用于对话应用的性能优越,评分为0.393和0.331,方法简便实用。
相关文章
Phidata:8.3k星星!用GPT-4o创建具有长期记忆的 AI Agent
2024年08月03日
LLocalSearch:完全本地化的搜索Agent助手,自动整理全网搜索结果,已开源可立即体验!
2024年08月03日
Mem0: 为个性化AI打造智能记忆层
2024年08月29日
Mem0: 革新AI交互的智能记忆层
2024年08月29日
Mem0: 革新个性化AI的智能记忆层
2024年08月29日
StyleTTS2: 突破性的人类级语音合成技术
2024年08月30日
LLM微调技术全面指南:方法、最佳实践与应用
2024年08月30日
RAG技术综述:检索增强生成在人工智能内容生成中的应用与发展
2024年08月30日
FinRobot:这都开源!专为金融开发的AI代理,可以预测股票走向、生成金融分析报告
2024年08月03日