#语言模型
starchat2-15b-v0.1 - 基于StarCoder2微调的双能力开源语言模型
大模型语言模型Github开源项目代码生成StarChat2模型Huggingface人工智能
StarChat2-15b-v0.1是一款基于StarCoder2的开源语言模型,拥有160亿参数规模。该模型通过合成数据集微调,在MT Bench、IFEval聊天评测及HumanEval代码测试中展现了均衡性能。模型支持600多种编程语言,具备代码生成和对话交互功能。开发者可通过Transformers框架调用,需注意模型存在输出偏差等局限性。
bitnet_b1_58-large - BitNet b1.58复现项目展示1比特量化语言模型的效能
语言模型Github1比特量化开源项目BitNetHuggingface模型评估模型
本项目复现了BitNet b1.58的1比特量化语言模型,采用RedPajama数据集进行了1000亿token的训练。通过实施论文中提出的训练策略,项目成功重现了700M、1.3B和3B规模模型的性能。评估结果显示,在困惑度(PPL)和多项零样本任务中,复现模型与原论文报告的数据高度一致,证实了该方法在模型压缩和维持性能方面的有效性。项目还提供了详细的评估流程和命令,方便研究者进行复现和进一步探索。通过比较不同规模模型在各项任务上的表现,该研究为大规模语言模型的高效压缩和部署提供了valuable的实践参考。
SmolLM-135M-Instruct - 轻量级指令语言模型的高效实现
机器学习语言模型Github开源项目SmolLM模型Huggingface模型训练人工智能
SmolLM-135M-Instruct是一个1.35亿参数的轻量级指令语言模型。经过高质量教育数据训练和公开数据集微调后,模型具备基础知识问答、创意写作和Python编程能力。支持MLC、GGUF等多种本地部署方案,可通过Transformers框架调用。v0.2版本进一步优化了对话质量和任务完成能力。
EEVE-Korean-Instruct-10.8B-v1.0 - 韩语大语言模型EEVE-Korean-Instruct-10.8B采用DPO技术优化指令理解
Github开源项目模型语言模型多语言韩语HuggingfaceEEVE机器学习
EEVE-Korean-Instruct-10.8B-v1.0是一个针对韩语优化的大语言模型。该模型基于SOLAR-10.7B扩展韩语词汇表,并使用DPO技术进行指令微调。在多项基准测试中,模型平均得分达66.48分。训练数据包括韩语翻译版的SlimOrca-Dedup和ultrafeedback数据集。项目提供了API使用说明和模型评估结果,适用于需要高性能韩语语言处理的应用场景。
Llama-3-Open-Ko-8B-Instruct-preview - Llama-3基础上的韩语模型适用于对话和指导任务
预训练Github开源项目指令生成Llama-3-Open-Ko-8B-Instruct-preview模型语言模型Huggingface机器学习
Llama-3-Open-Ko-8B-Instruct-preview利用公开资源预训练,处理17.7B+文本标记,为韩语对话和指导提供新起点。TPUv5e-256支持下的训练采用Chat Vector方法,增强自然语言生成。尽管尚未微调韩语指令,该模型已展示可靠性和高效性
Arabic-Whisper-CodeSwitching-Edition - 针对阿拉伯语和英语混合语音的优化识别模型
代码转换Github开源项目阿拉伯语模型语言模型Huggingfacetransformers语音识别
本模型是经过精调的OpenAI Whisper Large v2版本,旨在提升阿拉伯语和英语混合语音的识别精度。基于阿拉伯-英语代码切换数据集训练,适用于处理多语言环境中的阿拉伯语和英语混合语音。虽然在该特定场景中表现优异,但在其它语言或单语言场景中性能可能有所下降。
data2vec-audio-base-960h - 利用自监督学习提升语音识别效率的开源框架
自动语音识别语言模型Github开源项目Transformer自监督学习HuggingfaceData2Vec模型
Data2Vec是一种开源模型,基于Librispeech数据集进行960小时的16kHz语音音频的预训练和微调,在语音识别领域表现优异。利用自监督学习与自蒸馏手段,Data2Vec准确提取上下文信息,优化了自动语音识别的表现。在LibriSpeech的测试中,取得了“clean”任务2.77和“other”任务7.08的词错误率(WER),体现了其在业内的竞争力。
granite-3.0-8b-instruct - 多领域AI助手构建的多语言文本生成模型
AI助手开源项目模型语言模型多语言HuggingfaceGranite-3.0-8B-Instruct文本生成Github
Granite-3.0-8B-Instruct是由Granite团队与IBM开发的8B参数文本生成模型,支持多种语言,适合构建应用于多领域的AI助手。其功能涵盖文本生成、分类、抽取、问答、检索增强生成(RAG)和代码任务。模型基于Decoder-Only Transformer架构,可通过开放源和内部合成数据集进行微调,支持多语言对话场景。
OpenELM-3B-Instruct-GGUF - 轻量级开源语言模型的多版本量化实现
语言模型Github开源项目GGUFHuggingface提示模板OpenELM模型量化模型
基于GGUF格式量化,提供从Q2到F16共16种量化版本。模型采用层级缩放策略优化参数分配,基于1.8万亿token数据训练,支持指令微调,可在3.14GB至7.72GB内存环境下运行。
MythoMax-L2-13b - 创新张量合并技术打造的AI语言模型
语言模型Github开源项目MythoMax模型角色扮演模型合并Huggingface人工智能
MythoMax-L2-13b通过张量类型合并技术,将MythoLogic-L2模型与Huginn模型进行融合。该模型采用Alpaca格式构建,每层应用独特比例实现结构一致性,支持角色扮演与故事创作等任务。目前已发布GGUF、GPTQ、AWQ等多种量化版本。
Qwen1.5-72B - 支持多语言与性能提升的单向解码模型
Transformer架构开源项目性能提升Qwen1.5模型语言模型Huggingface多语言支持Github
Qwen1.5是一种基于Transformer架构的单向解码语言模型,提供包括0.5B至72B的多种尺寸,以及一个14B的MoE版本。该模型支持多语言和稳定的32K上下文长度,并显著提高聊天模型的性能。其采用SwiGLU激活和改进的分词器,适合多语言应用。建议结合SFT、RLHF等后续训练使用,无需依赖远程代码,是一种实用的文本生成工具。
llama-3 - 提升对话生成效果的指令调优语言模型
Llama 3开源项目责任与安全模型Meta语言模型HuggingfaceGithub指导调整
Llama 3是由Meta开发的大型语言模型家族,提供8B和70B参数选项,经过预训练和指令调优,专为对话生成优化。模型采用Transformer架构,并通过监督微调和人类反馈强化学习,实现与人类偏好的对齐。Llama 3于2024年4月18日发布,提供商用许可证,用于商业与研究,需遵循相关使用政策。
Qwen1.5-14B-Chat-AWQ - 高性能AWQ量化技术多语言模型 完美支持32K长上下文
Transformer架构开源项目Qwen1.5模型语言模型聊天模型Huggingface多语言支持Github
Qwen1.5系列的14B参数量化版本,采用AWQ技术实现高性能与低资源消耗的平衡。模型支持多语言处理,具备32K上下文长度能力,并改进了对话质量。无需额外代码即可使用,整合了SwiGLU激活和优化的注意力机制,简化了开发流程。作为Qwen2的预览版,该模型在多个方面展现了性能提升。
functionary-small-v2.5 - 支持智能函数调用的开源并行处理语言模型
OpenAI兼容开源项目模型语言模型FunctionaryHuggingface并行工具使用Github函数执行
Functionary-small-v2.5是一个专注于函数和插件处理的开源语言模型。它具备智能判断函数执行时机、并行串行处理、输出解析等核心能力,可根据实际需求自动触发函数调用。模型内置了并行工具处理、输出分析和代码解释等功能,是一个成熟的开源函数处理语言模型。
bloom-1b1 - BigScience开发的开源多语言预训练模型
开源项目模型语言模型多语言BLOOM人工智能Huggingface深度学习Github
BLOOM是BigScience开发的开源多语言预训练模型,支持45种自然语言和12种编程语言。模型基于Transformer架构,拥有1760亿参数,在3500亿词元上训练。主要用于文本生成和自然语言处理研究,具备多语言理解与生成能力。项目提供完整模型卡,详述技术规格、应用场景及使用限制。
wtp-canine-s-12l - 多语言支持增强文本划分精度
wtpsplit开源项目wtp-canine-s-12l技术模型语言模型多语言HuggingfaceGithub
该项目采用一种经过优化的多语言模型,提高了文本划分工具的精度和可用性,支持多达数十种语言,包括英语、法语、德语和中文等,以满足不同语言背景用户的需求。
OpenHermes-2-Mistral-7B - 基于Mistral-7B的高性能多任务语言模型
OpenHermes开源项目模型语言模型人工智能HuggingfaceMistralGithub
OpenHermes-2-Mistral-7B是一款经过精心微调的大语言模型,基于Mistral-7B架构开发。模型在GPT4All、AGIEval等多个基准测试中表现优异,具备出色的多任务处理能力。支持ChatML格式和系统提示,适用于多轮对话场景。项目开源多种量化版本,方便用户根据需求部署使用。
Ministral-8B-Instruct-2410-Q6_K-GGUF - Ministral-8B多语言GGUF格式大模型
非商业研究语言模型Github开源项目开源许可Huggingface商业授权Mistral AI模型
Ministral-8B-Instruct-2410模型的GGUF格式版本,通过llama.cpp实现。采用Q6_K量化方案,支持CLI命令行和服务器模式运行,可处理包括中文在内的10种主要语言。适用于个人和学术研究,提供详细安装使用说明和代码示例,便于快速部署。
shisa-gamma-7b-v1 - 英日双语优化的Japanese Stable LM语言模型
语言模型Github开源项目模型Huggingface机器学习日语模型Shisa-gamma-7b人工智能
shisa-gamma-7b-v1是基于Japanese Stable LM Base Gamma 7B的微调模型,经过数据集优化后在JA MT-Bench测试中取得了显著成果。该模型支持日语和英语双语处理,采用Apache-2.0许可证,适用于需要日英语言处理能力的开发场景。
Qwen2.5-72B-Instruct-GGUF - 新一代多语言模型,提升指令理解与长文本处理
长上下文支持Qwen多语言支持Github开源项目指令调优模型语言模型Huggingface
Qwen2.5系列模型通过改进的专家模型,增强编码和数学性能,支持29种语言,提供最长128K的上下文处理与8K tokens的生成能力。其提升的指令跟随与结构化数据生成能力适合多样化系统提示,使聊天机器人更准确。72B模型采用GGUF格式和现代架构技术,提供流畅对话体验。
Volare - Gemma优化版智能对话模型实现深度上下文理解
Gemma开源项目模型模型微调语言模型人工智能Huggingface意大利语Github
Volare是一个专注于上下文理解和RAG任务处理的开源对话模型,基于Gemma7B开发并经过优化。模型在多个标准测试集中展现出优秀性能,平均准确率超过55%。支持CPU/GPU环境运行且提供多种量化版本,能够灵活应用于各类文本处理场景。该项目由Moxoff团队开发,采用公开数据集训练,确保了模型的可靠性和实用性。
opt-13b - Meta AI开源的大规模预训练语言模型
深度学习Huggingface人工智能开源项目模型Github语言模型自然语言处理OPT
OPT是由Meta AI推出的开源大语言模型系列,在性能和规模上可比肩GPT-3。这个模型主要基于英语文本训练,采用因果语言建模方法,整合了先进的数据收集和训练技术。它的开源特性使研究人员能够深入研究大语言模型,支持文本生成和下游任务等多种应用场景。
Yi-1.5-9B - 融合代码、数学与推理能力的开源语言大模型
深度学习Huggingface人工智能开源项目模型Yi-1.5Github语言模型自然语言处理
Yi-1.5作为Yi系列模型的迭代版本,基于500B语料预训练和300万样本微调,具备语言理解、常识推理和阅读理解等基础能力,并强化了代码、数学和推理功能。模型提供6B、9B和34B三种参数规模,支持4K至32K上下文长度,预训练数据量为3.6T tokens。在基准测试中,Yi-1.5系列模型与同规模开源模型相比表现出竞争力。
Qwen1.5-32B - 提供稳定多语言支持的Transformer语言模型
语言模型Qwen1.5-32B模型性能提高Transformer架构多语言支持模型Github开源项目Huggingface
Qwen1.5是基于Transformer架构的语言模型,支持多语言和多种模型尺寸,适合不同需求。相比前版本,该模型显著提升了聊天性能,并在所有尺寸中稳定支持32K上下文长度,且无需信任远程代码,使用更加便捷。经过大量数据预训练,具备强大文本生成能力,用户可通过后续训练进一步提升性能。详细信息可在Hugging Face和项目博客中查看。
Delexa-7b - 多基准测试中展现出色表现的开源语言模型探索
评估结果开源项目模型GithubHuggingfaceAI推理Delexa-7b文本生成语言模型
Delexa-7b是开源的大型语言模型,在通用语言任务中表现优越。其在多项基准测试中,包括HellaSwag Challenge,获得了86.49%的准确率。该模型支持生成特定内容,并具备不生成非法内容的能力。在llm-judge平台上的初步评估中,Delexa-7b取得了8.143750的平均得分。其应用领域涵盖STEM推理和AI开发实验,需注意在使用时避免可能的有害生成内容。
indobert-base-p2 - IndoBERT:印尼语自然语言处理的先进模型
自然语言处理开源项目IndoBERTGithub机器学习Huggingface模型印尼语语言模型
IndoBERT是一个基于BERT的尖端模型,专为印度尼西亚语言设计。它通过遮蔽语言模型和句子预测进行预训练。使用Indo4B数据集,该模型在Base和Large架构中实现,参数从11.7M到335.2M不等,适用于多种自然语言处理任务。用户可以使用Transformers库轻松加载IndoBERT,提取上下文表示,增强印尼语处理的准确性和效率,广泛适用于研究和实践。
AraT5-MSAizer - 先进AI模型实现多种阿拉伯方言到标准阿拉伯语的转换
语言模型现代标准阿拉伯语AraT5-MSAizer阿拉伯语方言模型Github开源项目机器翻译Huggingface
AraT5-MSAizer是一款基于UBC-NLP/AraT5v2-base-1024模型优化的语言转换工具,致力于将五种主要阿拉伯方言转换为现代标准阿拉伯语(MSA)。该模型利用MADAR、North Levantine Corpus和PADIC等高质量语料库进行训练,并通过OPUS数据集的反向翻译扩充了训练数据。在官方评估中,AraT5-MSAizer在BLEU和Comet DA指标上分别达到0.2179和0.0016,展示了其在阿拉伯方言标准化方面的实用价值。
dolphin-2.9.4-llama3.1-8b-gguf - Llama3.1衍生的开放对话模型Dolphin 2.9.4
Huggingface机器学习Meta-Llama开源项目模型Github语言模型人工智能助手模型训练
Dolphin 2.9.4是基于Meta Llama3.1 8b模型优化的GGUF格式对话助手。它支持多语言指令理解和代码编程,具有8192序列长度和128K上下文窗口,采用ChatML提示模板。该模型支持函数调用,在BBH、GPQA等评测中表现良好。作为未经审查的模型,它能更自由地回应请求,但在实际应用中建议添加内容过滤机制。
pythia-1b-deduped - Pythia模型家族为大规模语言模型的可解释性研究提供了全面支持
HuggingfaceEleutherAI开源项目模型PythiaGithub数据集语言模型科研
Pythia Scaling Suite由EleutherAI开发,专注于大规模语言模型可解释性研究,包含16个模型,这些模型使用相同的数据集并提供154个中间检查点,托管于Hugging Face。尽管未专门针对下游性能优化,Pythia模型的表现仍可与OPT和GPT-Neo套件媲美甚至超越,适用于科研和实验用途,并支持进一步微调。
h2o-danube3-4b-chat - H2O.ai推出支持离线运行的4亿参数聊天模型
使用注意事项Huggingface参数h2o-danube3-4b-chatGithub开源项目模型transformers语言模型
h2o-danube3-4b-chat是由H2O.ai推出的4亿参数聊天模型,采用Llama 2架构,并经过H2O LLM Studio微调。该模型支持在手机设备上离线运行,使用Mistral tokenizer,支持32,000词汇量和8,192上下文长度。其在🤗 Open LLM Leaderboard上的表现具竞争力,并支持量化和多GPU分片,便于加载与使用。
ruadapt_llama3_instruct_lep_saiga_kto_ablitirated - 基于LEP和KTO技术的俄语适配大语言模型
俄语适配机器学习Github模型开源项目语言模型LLaMaHuggingface自然语言处理
ruadapt_llama3_instruct_lep_saiga_kto_ablitirated是一个基于LLaMA 3和Learned Embedding Propagation (LEP)技术的大语言模型。它通过KTO和abliteration技术,在saiga_preferences数据集上训练,支持俄语和英语。模型运用先进的分词技术优化俄语适配,为自然语言处理提供新方案。这一创新模型特别适用于需要高质量俄语理解和生成的NLP任务,如机器翻译、文本分类和问答系统等。
Llama-3-Swallow-8B-Instruct-v0.1 - 利用Meta Llama 3进行日语数据增强的持续预训练
Llama3Huggingface开源项目模型预训练Github语言模型Meta Llama日语能力
Llama-3-Swallow-8B-Instruct-v0.1是基于Meta Llama 3的语言模型,专注于日语的持续预训练和多项任务优化。通过监督微调和Chat Vector,模型在日语和英语任务中表现突出,包括选择题问答和代码生成。此模型由东京工业大学和合作机构开发,得到日本先进工业科学技术研究所的支持,旨在加强语言模型的生成、摘要及翻译能力。
Qwen1.5-14B - 基于Transformer的多语言大模型 支持32K上下文长度
HuggingfaceQwen1.5开源项目模型多语言支持大规模预训练Github语言模型自然语言处理
Qwen1.5作为Qwen2的预览版,是一个支持多语言的大规模语言模型。该模型提供多种规模版本,支持长文本理解,具备增强的聊天能力和改进的多语言处理功能。模型在技术架构上采用了先进的Transformer结构,并针对自然语言和代码处理进行了优化。
AMD-Llama-135m - 轻量级语言模型实现高效推理加速
语言模型神经网络Huggingface预训练AMD-Llama-135mGithub模型开源项目机器学习
AMD-Llama-135m是一个基于LLama2架构的135M参数语言模型,在AMD Instinct MI250加速器上训练。该模型与huggingface transformers兼容,并使用LLama2相同的分词器。模型可独立使用,也可作为LLama2和CodeLlama的推理加速辅助模型。经SlimPajama和Project Gutenberg数据集预训练,以及StarCoder Python代码数据集微调后,模型在多项NLP基准测试中表现优异。通过推理加速技术,吞吐量可提升至3.88倍。
MistralRP-Noromaid-NSFW-Mistral-7B-GGUF - 基于Mistral-7B的角色扮演与NSFW模型合并项目
语言模型Mistralmergekit模型合并预训练模型Github开源项目Huggingface
这是一个使用mergekit工具开发的模型融合项目,通过SLERP方法将Mistral-RP和NSFW-Noromaid两个预训练模型合并。项目采用Alpaca提示模板,整合了角色扮演与NSFW内容特性,适用于相关场景的语言生成任务。
bert-base-greek-uncased-v1 - 基于BERT的希腊语语言模型实现
自然语言处理开源项目模型GithubHuggingface希腊语GreekBERT语言模型BERT
bert-base-greek-uncased-v1项目是一种基于BERT的希腊语语言模型,通过希腊语维基百科、欧盟议会文本和OSCAR语料库进行预训练,适用于PyTorch和TensorFlow 2平台。该模型现已集成于Hugging Face的Transformers库,并支持希腊语文本预处理以去除重音符号和转换为小写。这款模型在命名实体识别和自然语言推理任务上表现优越,是研究人员和开发人员的有效工具。
相关文章