#语言模型

starchat2-15b-v0.1 - 基于StarCoder2微调的双能力开源语言模型

大模型语言模型Github开源项目代码生成StarChat2模型Huggingface人工智能

StarChat2-15b-v0.1是一款基于StarCoder2的开源语言模型，拥有160亿参数规模。该模型通过合成数据集微调，在MT Bench、IFEval聊天评测及HumanEval代码测试中展现了均衡性能。模型支持600多种编程语言，具备代码生成和对话交互功能。开发者可通过Transformers框架调用，需注意模型存在输出偏差等局限性。

bitnet_b1_58-large - BitNet b1.58复现项目展示1比特量化语言模型的效能

语言模型Github1比特量化开源项目BitNetHuggingface模型评估模型

本项目复现了BitNet b1.58的1比特量化语言模型，采用RedPajama数据集进行了1000亿token的训练。通过实施论文中提出的训练策略，项目成功重现了700M、1.3B和3B规模模型的性能。评估结果显示，在困惑度（PPL）和多项零样本任务中，复现模型与原论文报告的数据高度一致，证实了该方法在模型压缩和维持性能方面的有效性。项目还提供了详细的评估流程和命令，方便研究者进行复现和进一步探索。通过比较不同规模模型在各项任务上的表现，该研究为大规模语言模型的高效压缩和部署提供了valuable的实践参考。

SmolLM-135M-Instruct - 轻量级指令语言模型的高效实现

机器学习语言模型Github开源项目SmolLM模型Huggingface模型训练人工智能

SmolLM-135M-Instruct是一个1.35亿参数的轻量级指令语言模型。经过高质量教育数据训练和公开数据集微调后，模型具备基础知识问答、创意写作和Python编程能力。支持MLC、GGUF等多种本地部署方案，可通过Transformers框架调用。v0.2版本进一步优化了对话质量和任务完成能力。

EEVE-Korean-Instruct-10.8B-v1.0 - 韩语大语言模型EEVE-Korean-Instruct-10.8B采用DPO技术优化指令理解

Github开源项目模型语言模型多语言韩语HuggingfaceEEVE机器学习

EEVE-Korean-Instruct-10.8B-v1.0是一个针对韩语优化的大语言模型。该模型基于SOLAR-10.7B扩展韩语词汇表，并使用DPO技术进行指令微调。在多项基准测试中，模型平均得分达66.48分。训练数据包括韩语翻译版的SlimOrca-Dedup和ultrafeedback数据集。项目提供了API使用说明和模型评估结果，适用于需要高性能韩语语言处理的应用场景。

Llama-3-Open-Ko-8B-Instruct-preview - Llama-3基础上的韩语模型适用于对话和指导任务

预训练Github开源项目指令生成Llama-3-Open-Ko-8B-Instruct-preview模型语言模型Huggingface机器学习

Llama-3-Open-Ko-8B-Instruct-preview利用公开资源预训练，处理17.7B+文本标记，为韩语对话和指导提供新起点。TPUv5e-256支持下的训练采用Chat Vector方法，增强自然语言生成。尽管尚未微调韩语指令，该模型已展示可靠性和高效性

Arabic-Whisper-CodeSwitching-Edition - 针对阿拉伯语和英语混合语音的优化识别模型

代码转换Github开源项目阿拉伯语模型语言模型Huggingfacetransformers语音识别

本模型是经过精调的OpenAI Whisper Large v2版本，旨在提升阿拉伯语和英语混合语音的识别精度。基于阿拉伯-英语代码切换数据集训练，适用于处理多语言环境中的阿拉伯语和英语混合语音。虽然在该特定场景中表现优异，但在其它语言或单语言场景中性能可能有所下降。

data2vec-audio-base-960h - 利用自监督学习提升语音识别效率的开源框架

自动语音识别语言模型Github开源项目Transformer自监督学习HuggingfaceData2Vec模型

Data2Vec是一种开源模型，基于Librispeech数据集进行960小时的16kHz语音音频的预训练和微调，在语音识别领域表现优异。利用自监督学习与自蒸馏手段，Data2Vec准确提取上下文信息，优化了自动语音识别的表现。在LibriSpeech的测试中，取得了“clean”任务2.77和“other”任务7.08的词错误率（WER），体现了其在业内的竞争力。

granite-3.0-8b-instruct - 多领域AI助手构建的多语言文本生成模型

AI助手开源项目模型语言模型多语言HuggingfaceGranite-3.0-8B-Instruct文本生成Github

Granite-3.0-8B-Instruct是由Granite团队与IBM开发的8B参数文本生成模型，支持多种语言，适合构建应用于多领域的AI助手。其功能涵盖文本生成、分类、抽取、问答、检索增强生成(RAG)和代码任务。模型基于Decoder-Only Transformer架构，可通过开放源和内部合成数据集进行微调，支持多语言对话场景。

OpenELM-3B-Instruct-GGUF - 轻量级开源语言模型的多版本量化实现

语言模型Github开源项目GGUFHuggingface提示模板OpenELM模型量化模型

基于GGUF格式量化，提供从Q2到F16共16种量化版本。模型采用层级缩放策略优化参数分配，基于1.8万亿token数据训练，支持指令微调，可在3.14GB至7.72GB内存环境下运行。

MythoMax-L2-13b - 创新张量合并技术打造的AI语言模型

语言模型Github开源项目MythoMax模型角色扮演模型合并Huggingface人工智能

MythoMax-L2-13b通过张量类型合并技术，将MythoLogic-L2模型与Huginn模型进行融合。该模型采用Alpaca格式构建，每层应用独特比例实现结构一致性，支持角色扮演与故事创作等任务。目前已发布GGUF、GPTQ、AWQ等多种量化版本。

Qwen1.5-72B - 支持多语言与性能提升的单向解码模型

Transformer架构开源项目性能提升Qwen1.5模型语言模型Huggingface多语言支持Github

Qwen1.5是一种基于Transformer架构的单向解码语言模型，提供包括0.5B至72B的多种尺寸，以及一个14B的MoE版本。该模型支持多语言和稳定的32K上下文长度，并显著提高聊天模型的性能。其采用SwiGLU激活和改进的分词器，适合多语言应用。建议结合SFT、RLHF等后续训练使用，无需依赖远程代码，是一种实用的文本生成工具。

llama-3 - 提升对话生成效果的指令调优语言模型

Llama 3开源项目责任与安全模型Meta语言模型HuggingfaceGithub指导调整

Llama 3是由Meta开发的大型语言模型家族，提供8B和70B参数选项，经过预训练和指令调优，专为对话生成优化。模型采用Transformer架构，并通过监督微调和人类反馈强化学习，实现与人类偏好的对齐。Llama 3于2024年4月18日发布，提供商用许可证，用于商业与研究，需遵循相关使用政策。

Qwen1.5-14B-Chat-AWQ - 高性能AWQ量化技术多语言模型完美支持32K长上下文

Transformer架构开源项目Qwen1.5模型语言模型聊天模型Huggingface多语言支持Github

Qwen1.5系列的14B参数量化版本，采用AWQ技术实现高性能与低资源消耗的平衡。模型支持多语言处理，具备32K上下文长度能力，并改进了对话质量。无需额外代码即可使用，整合了SwiGLU激活和优化的注意力机制，简化了开发流程。作为Qwen2的预览版，该模型在多个方面展现了性能提升。

functionary-small-v2.5 - 支持智能函数调用的开源并行处理语言模型

OpenAI兼容开源项目模型语言模型FunctionaryHuggingface并行工具使用Github函数执行

Functionary-small-v2.5是一个专注于函数和插件处理的开源语言模型。它具备智能判断函数执行时机、并行串行处理、输出解析等核心能力，可根据实际需求自动触发函数调用。模型内置了并行工具处理、输出分析和代码解释等功能，是一个成熟的开源函数处理语言模型。

bloom-1b1 - BigScience开发的开源多语言预训练模型

开源项目模型语言模型多语言BLOOM人工智能Huggingface深度学习Github

BLOOM是BigScience开发的开源多语言预训练模型,支持45种自然语言和12种编程语言。模型基于Transformer架构,拥有1760亿参数,在3500亿词元上训练。主要用于文本生成和自然语言处理研究,具备多语言理解与生成能力。项目提供完整模型卡,详述技术规格、应用场景及使用限制。

wtp-canine-s-12l - 多语言支持增强文本划分精度

wtpsplit开源项目wtp-canine-s-12l技术模型语言模型多语言HuggingfaceGithub

该项目采用一种经过优化的多语言模型，提高了文本划分工具的精度和可用性，支持多达数十种语言，包括英语、法语、德语和中文等，以满足不同语言背景用户的需求。

OpenHermes-2-Mistral-7B - 基于Mistral-7B的高性能多任务语言模型

OpenHermes开源项目模型语言模型人工智能HuggingfaceMistralGithub

OpenHermes-2-Mistral-7B是一款经过精心微调的大语言模型,基于Mistral-7B架构开发。模型在GPT4All、AGIEval等多个基准测试中表现优异,具备出色的多任务处理能力。支持ChatML格式和系统提示,适用于多轮对话场景。项目开源多种量化版本,方便用户根据需求部署使用。

Ministral-8B-Instruct-2410-Q6_K-GGUF - Ministral-8B多语言GGUF格式大模型

非商业研究语言模型Github开源项目开源许可Huggingface商业授权Mistral AI模型

Ministral-8B-Instruct-2410模型的GGUF格式版本,通过llama.cpp实现。采用Q6_K量化方案,支持CLI命令行和服务器模式运行,可处理包括中文在内的10种主要语言。适用于个人和学术研究,提供详细安装使用说明和代码示例,便于快速部署。

shisa-gamma-7b-v1 - 英日双语优化的Japanese Stable LM语言模型

语言模型Github开源项目模型Huggingface机器学习日语模型Shisa-gamma-7b人工智能

shisa-gamma-7b-v1是基于Japanese Stable LM Base Gamma 7B的微调模型，经过数据集优化后在JA MT-Bench测试中取得了显著成果。该模型支持日语和英语双语处理，采用Apache-2.0许可证，适用于需要日英语言处理能力的开发场景。

Qwen2.5-72B-Instruct-GGUF - 新一代多语言模型，提升指令理解与长文本处理

长上下文支持Qwen多语言支持Github开源项目指令调优模型语言模型Huggingface

Qwen2.5系列模型通过改进的专家模型，增强编码和数学性能，支持29种语言，提供最长128K的上下文处理与8K tokens的生成能力。其提升的指令跟随与结构化数据生成能力适合多样化系统提示，使聊天机器人更准确。72B模型采用GGUF格式和现代架构技术，提供流畅对话体验。

Volare - Gemma优化版智能对话模型实现深度上下文理解

Gemma开源项目模型模型微调语言模型人工智能Huggingface意大利语Github

Volare是一个专注于上下文理解和RAG任务处理的开源对话模型，基于Gemma7B开发并经过优化。模型在多个标准测试集中展现出优秀性能，平均准确率超过55%。支持CPU/GPU环境运行且提供多种量化版本，能够灵活应用于各类文本处理场景。该项目由Moxoff团队开发，采用公开数据集训练，确保了模型的可靠性和实用性。

opt-13b - Meta AI开源的大规模预训练语言模型

深度学习Huggingface人工智能开源项目模型Github语言模型自然语言处理OPT

OPT是由Meta AI推出的开源大语言模型系列,在性能和规模上可比肩GPT-3。这个模型主要基于英语文本训练,采用因果语言建模方法,整合了先进的数据收集和训练技术。它的开源特性使研究人员能够深入研究大语言模型,支持文本生成和下游任务等多种应用场景。

Yi-1.5-9B - 融合代码、数学与推理能力的开源语言大模型

深度学习Huggingface人工智能开源项目模型Yi-1.5Github语言模型自然语言处理

Yi-1.5作为Yi系列模型的迭代版本，基于500B语料预训练和300万样本微调，具备语言理解、常识推理和阅读理解等基础能力，并强化了代码、数学和推理功能。模型提供6B、9B和34B三种参数规模，支持4K至32K上下文长度，预训练数据量为3.6T tokens。在基准测试中，Yi-1.5系列模型与同规模开源模型相比表现出竞争力。

Qwen1.5-32B - 提供稳定多语言支持的Transformer语言模型

语言模型Qwen1.5-32B模型性能提高Transformer架构多语言支持模型Github开源项目Huggingface

Qwen1.5是基于Transformer架构的语言模型，支持多语言和多种模型尺寸，适合不同需求。相比前版本，该模型显著提升了聊天性能，并在所有尺寸中稳定支持32K上下文长度，且无需信任远程代码，使用更加便捷。经过大量数据预训练，具备强大文本生成能力，用户可通过后续训练进一步提升性能。详细信息可在Hugging Face和项目博客中查看。

Delexa-7b - 多基准测试中展现出色表现的开源语言模型探索

评估结果开源项目模型GithubHuggingfaceAI推理Delexa-7b文本生成语言模型

Delexa-7b是开源的大型语言模型，在通用语言任务中表现优越。其在多项基准测试中，包括HellaSwag Challenge，获得了86.49%的准确率。该模型支持生成特定内容，并具备不生成非法内容的能力。在llm-judge平台上的初步评估中，Delexa-7b取得了8.143750的平均得分。其应用领域涵盖STEM推理和AI开发实验，需注意在使用时避免可能的有害生成内容。

indobert-base-p2 - IndoBERT：印尼语自然语言处理的先进模型

自然语言处理开源项目IndoBERTGithub机器学习Huggingface模型印尼语语言模型

IndoBERT是一个基于BERT的尖端模型，专为印度尼西亚语言设计。它通过遮蔽语言模型和句子预测进行预训练。使用Indo4B数据集，该模型在Base和Large架构中实现，参数从11.7M到335.2M不等，适用于多种自然语言处理任务。用户可以使用Transformers库轻松加载IndoBERT，提取上下文表示，增强印尼语处理的准确性和效率，广泛适用于研究和实践。

AraT5-MSAizer - 先进AI模型实现多种阿拉伯方言到标准阿拉伯语的转换

语言模型现代标准阿拉伯语AraT5-MSAizer阿拉伯语方言模型Github开源项目机器翻译Huggingface

AraT5-MSAizer是一款基于UBC-NLP/AraT5v2-base-1024模型优化的语言转换工具，致力于将五种主要阿拉伯方言转换为现代标准阿拉伯语(MSA)。该模型利用MADAR、North Levantine Corpus和PADIC等高质量语料库进行训练，并通过OPUS数据集的反向翻译扩充了训练数据。在官方评估中，AraT5-MSAizer在BLEU和Comet DA指标上分别达到0.2179和0.0016，展示了其在阿拉伯方言标准化方面的实用价值。

dolphin-2.9.4-llama3.1-8b-gguf - Llama3.1衍生的开放对话模型Dolphin 2.9.4

Huggingface机器学习Meta-Llama开源项目模型Github语言模型人工智能助手模型训练

Dolphin 2.9.4是基于Meta Llama3.1 8b模型优化的GGUF格式对话助手。它支持多语言指令理解和代码编程，具有8192序列长度和128K上下文窗口，采用ChatML提示模板。该模型支持函数调用，在BBH、GPQA等评测中表现良好。作为未经审查的模型，它能更自由地回应请求，但在实际应用中建议添加内容过滤机制。

pythia-1b-deduped - Pythia模型家族为大规模语言模型的可解释性研究提供了全面支持

HuggingfaceEleutherAI开源项目模型PythiaGithub数据集语言模型科研

Pythia Scaling Suite由EleutherAI开发，专注于大规模语言模型可解释性研究，包含16个模型，这些模型使用相同的数据集并提供154个中间检查点，托管于Hugging Face。尽管未专门针对下游性能优化，Pythia模型的表现仍可与OPT和GPT-Neo套件媲美甚至超越，适用于科研和实验用途，并支持进一步微调。

h2o-danube3-4b-chat - H2O.ai推出支持离线运行的4亿参数聊天模型

使用注意事项Huggingface参数h2o-danube3-4b-chatGithub开源项目模型transformers语言模型

h2o-danube3-4b-chat是由H2O.ai推出的4亿参数聊天模型，采用Llama 2架构，并经过H2O LLM Studio微调。该模型支持在手机设备上离线运行，使用Mistral tokenizer，支持32,000词汇量和8,192上下文长度。其在🤗 Open LLM Leaderboard上的表现具竞争力，并支持量化和多GPU分片，便于加载与使用。

ruadapt_llama3_instruct_lep_saiga_kto_ablitirated - 基于LEP和KTO技术的俄语适配大语言模型

俄语适配机器学习Github模型开源项目语言模型LLaMaHuggingface自然语言处理

ruadapt_llama3_instruct_lep_saiga_kto_ablitirated是一个基于LLaMA 3和Learned Embedding Propagation (LEP)技术的大语言模型。它通过KTO和abliteration技术，在saiga_preferences数据集上训练，支持俄语和英语。模型运用先进的分词技术优化俄语适配，为自然语言处理提供新方案。这一创新模型特别适用于需要高质量俄语理解和生成的NLP任务，如机器翻译、文本分类和问答系统等。

Llama-3-Swallow-8B-Instruct-v0.1 - 利用Meta Llama 3进行日语数据增强的持续预训练

Llama3Huggingface开源项目模型预训练Github语言模型Meta Llama日语能力

Llama-3-Swallow-8B-Instruct-v0.1是基于Meta Llama 3的语言模型，专注于日语的持续预训练和多项任务优化。通过监督微调和Chat Vector，模型在日语和英语任务中表现突出，包括选择题问答和代码生成。此模型由东京工业大学和合作机构开发，得到日本先进工业科学技术研究所的支持，旨在加强语言模型的生成、摘要及翻译能力。

Qwen1.5-14B - 基于Transformer的多语言大模型支持32K上下文长度

HuggingfaceQwen1.5开源项目模型多语言支持大规模预训练Github语言模型自然语言处理

Qwen1.5作为Qwen2的预览版，是一个支持多语言的大规模语言模型。该模型提供多种规模版本，支持长文本理解，具备增强的聊天能力和改进的多语言处理功能。模型在技术架构上采用了先进的Transformer结构，并针对自然语言和代码处理进行了优化。

AMD-Llama-135m - 轻量级语言模型实现高效推理加速

语言模型神经网络Huggingface预训练AMD-Llama-135mGithub模型开源项目机器学习

AMD-Llama-135m是一个基于LLama2架构的135M参数语言模型，在AMD Instinct MI250加速器上训练。该模型与huggingface transformers兼容，并使用LLama2相同的分词器。模型可独立使用，也可作为LLama2和CodeLlama的推理加速辅助模型。经SlimPajama和Project Gutenberg数据集预训练，以及StarCoder Python代码数据集微调后，模型在多项NLP基准测试中表现优异。通过推理加速技术，吞吐量可提升至3.88倍。

MistralRP-Noromaid-NSFW-Mistral-7B-GGUF - 基于Mistral-7B的角色扮演与NSFW模型合并项目

语言模型Mistralmergekit模型合并预训练模型Github开源项目Huggingface

这是一个使用mergekit工具开发的模型融合项目，通过SLERP方法将Mistral-RP和NSFW-Noromaid两个预训练模型合并。项目采用Alpaca提示模板，整合了角色扮演与NSFW内容特性，适用于相关场景的语言生成任务。

bert-base-greek-uncased-v1 - 基于BERT的希腊语语言模型实现

自然语言处理开源项目模型GithubHuggingface希腊语GreekBERT语言模型BERT

bert-base-greek-uncased-v1项目是一种基于BERT的希腊语语言模型，通过希腊语维基百科、欧盟议会文本和OSCAR语料库进行预训练，适用于PyTorch和TensorFlow 2平台。该模型现已集成于Hugging Face的Transformers库，并支持希腊语文本预处理以去除重音符号和转换为小写。这款模型在命名实体识别和自然语言推理任务上表现优越，是研究人员和开发人员的有效工具。

相关文章

Article Cover

Cheshire Cat: 一个强大的AI助手开发框架

Article Cover

CAMEL: 探索多智能体系统的前沿技术

Article Cover

RWKV-Runner：一款强大的RWKV语言模型管理与启动工具

Article Cover

MatMul-Free LLM：革新大型语言模型的计算方式

Article Cover

Chronos: 革命性的时间序列预测模型

Article Cover

xLSTM: 扩展长短期记忆网络的革新性突破

Article Cover

Dolma:开源大规模语言模型预训练数据集与工具包

Article Cover

RAPTOR: 一种创新的递归抽象处理技术

Article Cover

StableLM: Stability AI的开源大型语言模型

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号