#语言模型

falcon-40b - 性能领先的开源大规模语言模型
语言模型Huggingface模型Falcon-40B开源人工智能Github开源项目自然语言处理
Falcon-40B是TII开发的400亿参数因果解码器模型,在1万亿个token的RefinedWeb数据集上训练。作为目前性能最佳的开源模型,它超越了LLaMA和StableLM等竞品。该模型采用优化的推理架构,集成FlashAttention和multiquery技术。Falcon-40B以Apache 2.0许可证发布,支持商业应用。主要支持英语、德语、西班牙语和法语,可用于多种自然语言处理任务。
Llama-3-Open-Ko-8B - 高性能开源韩语大型语言模型
语言模型开源AILlama-3Huggingface模型Github韩语预训练开源项目自然语言处理
Llama-3-Open-Ko-8B是一个基于Llama-3-8B进行持续预训练的开源韩语语言模型。该模型使用60GB以上的去重文本训练,包含超过17.7B个token,采用优化的Transformer架构,支持8k上下文长度。它适用于商业和研究目的,可用于助手式聊天等多种自然语言生成任务。开发者使用时需遵循相关许可和负责任的AI开发原则。
opus-mt-tr-en - 基于OPUS数据集的土耳其语英语机器翻译模型
语言模型机器翻译HuggingfaceOPUS-MT模型数据集Github开源项目BLEU评分
opus-mt-tr-en是一个基于Transformer架构的土耳其语到英语机器翻译模型。该模型使用OPUS数据集训练,通过normalization和SentencePiece进行预处理。在多个测试集上表现优异,Tatoeba测试集上的BLEU分数达63.5。模型权重可供下载,便于研究人员和开发者进行评估和应用。
EXAONE-3.0-7.8B-Instruct - 高性能双语指令微调大语言模型
EXAONE-3.0-7.8B-Instruct语言模型Huggingface模型指令微调Github开源项目开源许可性能评估
EXAONE-3.0-7.8B-Instruct是LG AI Research开发的英韩双语生成模型,拥有78亿参数。经过8万亿token的预训练和指令微调后,该模型在多项基准测试中表现出色,与同等规模的顶级开源模型相媲美。它不仅支持英语和韩语的对话生成,还可应用于广泛的自然语言处理任务,为推动人工智能研究生态系统的发展做出了贡献。
Starling-LM-7B-alpha - 开源模型在 MT Bench 测试中接近 GPT-4 水平
Starling-LM-7B-alpha模型Github开源项目语言模型Huggingface机器学习自然语言处理人工智能
Starling-LM-7B-alpha 是一个基于人工智能反馈强化学习(RLAIF)训练的开源大语言模型。该模型利用 GPT-4 标注的 Nectar 数据集和创新的奖励训练策略,在 MT Bench 测试中获得 8.09 分,性能仅次于 GPT-4 和 GPT-4 Turbo。研究团队已开源相关数据集、模型和在线演示。Starling-LM-7B-alpha 在多项基准测试中展现出优异性能,显示了其作为开源模型的巨大潜力。
opus-mt-ja-en - 基于OPUS数据集的日英神经机器翻译模型
模型日英翻译Github机器翻译开源项目语言模型Huggingfaceopus-mt-ja-en自然语言处理
该模型采用transformer-align架构,基于OPUS多语言平行语料库训练而成。预处理阶段使用了文本标准化和SentencePiece分词技术。在Tatoeba日英翻译测试集上,模型展现了优秀的性能,BLEU得分为41.7,chr-F得分为0.589。项目开源了模型权重和测试集译文,便于进行进一步的研究和应用。
Llama-3.1-SauerkrautLM-8b-Instruct - Spectrum微调的德英双语Llama模型
语言模型模型多语言Spectrum微调人工智能GithubLlama-3.1Huggingface开源项目
Llama-3.1-SauerkrautLM-8b-Instruct是基于Meta-Llama-3.1-8B-Instruct的微调模型,采用Spectrum技术优化25%的层,显著提升德英语能力。该模型在多项基准测试中表现优异,展示了高效微调大型语言模型的潜力,适用于各种需要德英双语能力的应用场景。
Nous-Hermes-Llama2-13b - 开源语言模型专注长回复与准确性
语言模型Llama-2Huggingface模型机器学习人工智能Github开源项目自然语言处理
Nous-Hermes-Llama2-13b是基于Llama 2微调的开源语言模型,采用30万条指令进行训练。该模型以生成长篇回复和较低的幻觉率为特点,在AGI-Eval等多项基准测试中表现优异。它可用于创意写作、指令理解等多种语言任务,为开发者和研究人员提供了一个强大的开源语言工具。
L3-Umbral-Mind-RP-v3.0-8B - 专为重度主题角色扮演优化的开源AI语言模型
模型Llama-3语言模型开源项目Huggingface合并模型角色扮演Github心理健康
L3-Umbral-Mind-RP-v3.0-8B是一个开源AI语言模型,专门针对重度主题角色扮演进行优化。该模型能更准确地模拟涉及心理疾病、自残、创伤和自杀等敏感话题的对话情境,避免过于乐观或轻描淡写的表述。通过合并多个预训练模型,这个8B参数的模型特别适合救赎/反向救赎类型的角色扮演场景。为获得最佳效果,建议使用星号或引号的RP格式。
Llama-3.2-3B-Instruct-Q8_0-GGUF - Llama 3.2系列8位量化指令型语言模型
语言模型模型llama.cppGithubLlama-3Huggingface开源项目MetaGGUF
Llama-3.2-3B-Instruct-Q8_0-GGUF是Meta的Llama 3.2系列中经8位量化并转换为GGUF格式的指令微调模型。支持多语言文本生成,可通过llama.cpp在CPU或GPU上运行。模型提供命令行和服务器使用方式,适用于对话和文本生成任务。作为轻量级但功能强大的语言模型,适合开发者和研究人员使用。
Hermes-3-Llama-3.1-8B - 先进的通用语言AI系统 具备高级代理能力和优秀的多轮对话表现
语言模型模型ChatML函数调用人工智能GithubHermes 3Huggingface开源项目
Hermes-3-Llama-3.1-8B是Nous Research开发的新一代通用语言模型。该模型在Hermes 2基础上全面升级,显著提升了代理能力、角色扮演、推理、多轮对话和长文本处理能力。Hermes 3注重用户对齐,提供灵活的引导和控制功能。此外,模型还增强了函数调用、结构化输出、通用助手和代码生成等实用技能。
TinyLlama-1.1B-intermediate-step-1431k-3T - 快速训练的轻量级1.1B参数Llama模型
语言模型模型性能评估TinyLlama预训练GithubHuggingface开源项目
TinyLlama-1.1B是一个在3万亿个token上预训练的小型Llama模型。采用Llama 2架构,该模型用16个A100 GPU在90天内完成训练,展现高效性。紧凑设计适合资源受限场景,在多项基准测试中表现不俗,可轻松集成到基于Llama的开源项目中。
SuperNova-Medius-GGUF - 跨架构蒸馏技术打造的14B参数高性能语言模型
语言模型模型SuperNova-Medius人工智能Github知识蒸馏Huggingface开源项目自然语言处理
SuperNova-Medius-GGUF是一款14B参数的语言模型,采用跨架构蒸馏技术融合Qwen2.5-72B-Instruct和Llama-3.1-405B-Instruct的优势。该模型在指令遵循和复杂推理方面表现优异,适用于客户支持、内容创作和技术辅助等场景。经多项基准测试,SuperNova-Medius性能超越同类模型,在保持资源效率的同时提供强大功能,为组织提供高质量生成式AI应用解决方案。
OpenHermes-2.5-Mistral-7B - Mistral-7B微调模型 OpenHermes-2.5 展现强大通用及编程能力
语言模型模型Mistral-7B人工智能Github聊天机器人OpenHermesHuggingface开源项目
OpenHermes-2.5-Mistral-7B是Mistral-7B的改进版本,通过100万条高质量数据训练而成。模型在GPT4All、AGIEval和TruthfulQA等基准测试中表现出色,同时提升了代码生成能力。它使用ChatML格式,支持系统提示和多轮对话。凭借在通用任务和编程领域的优异表现,OpenHermes-2.5成为一个全面而强大的开源语言模型选择。
Vikhr-7B-instruct_0.4 - 俄英双语指令微调大模型新版本提升性能
Vikhr语言模型模型俄语开源Github指令微调Huggingface开源项目
Vikhr-7B-instruct_0.4是一款针对俄语和英语优化的指令微调大语言模型。新版本通过增加SFT训练数据,大幅提升了JSON处理和多轮对话的稳定性,尤其在处理长上下文和复杂提示时表现出色。模型采用Flash Attention 2技术,支持Google Colab使用,并提供GGUF格式。项目包含详细的使用示例和学术引用信息,方便研究人员和开发者快速上手。
Llama-3.1-Nemotron-70B-Instruct-HF-GGUF - Llama-3.1-Nemotron-70B多级量化模型适配不同硬件
语言模型模型量化Llama-3.1-Nemotron-70B-Instruct-HF人工智能GithubGPUHuggingface开源项目
该项目为Llama-3.1-Nemotron-70B-Instruct-HF模型提供多种量化版本,涵盖Q8_0至IQ1_M级别。针对不同硬件和性能需求,项目提供详细的文件选择指南,并包含模型提示格式及下载方法说明。用户可根据设备选择适合的版本,便于快速部署和使用。
Llama-3.2-1B-Instruct-GGUF - Llama 3.2模型的多精度量化版本
语言模型模型量化开源人工智能GithubLlamaHuggingface开源项目
Llama-3.2-1B-Instruct-GGUF是Llama 3.2模型的量化版本,使用llama.cpp和imatrix方法进行处理。该项目提供从f16到Q3_K_XL多种精度选项,文件大小在0.80GB至2.48GB之间。这些模型支持多语言处理,适合在资源受限的设备上运行,用户可根据需求选择合适版本以平衡性能和资源占用。
gemma-2-9b-it-GGUF - Gemma轻量级语言模型提供多种文本生成功能
语言模型文本生成Huggingface模型人工智能Github开源项目Gemma量化
gemma-2-9b-it-GGUF是Gemma系列轻量级开源语言模型的GGUF格式版本。这个由Google开发的模型适用于问答、摘要和推理等多种文本生成任务。其体积小巧,易于在资源有限的环境中部署,使先进AI技术更加普及。项目提供多种量化版本,可满足不同硬件配置需求。
Phi-3-medium-128k-instruct - 14B参数轻量级开源大语言模型支持128K上下文
语言模型Huggingface模型Phi-3基准测试人工智能Github开源项目推理能力
Phi-3-medium-128k-instruct是微软开发的14B参数轻量级开源大语言模型,支持128K上下文长度。该模型在常识、语言理解、数学、编程、长文本处理和逻辑推理等方面表现优异,与同等规模及更大模型相比表现出色。经过指令微调和偏好优化,适用于多种商业和研究场景,尤其适合资源受限环境、低延迟场景和需要强大推理能力的应用。
RADAR-Vicuna-7B - 对抗学习训练的AI文本识别模型
语言模型Huggingface模型AI文本检测对抗学习GithubRADAR开源项目RoBERTa
RADAR-Vicuna-7B是一款基于RoBERTa架构的AI文本检测模型,通过检测器与改写器的对抗学习方式训练而成。该模型利用OpenWebText数据集,能够有效识别大型语言模型生成的文本。RADAR采用创新的对抗训练方法提升检测能力,但仅限非商业用途。研究人员和开发者可通过Google Colab或Hugging Face API轻松使用该模型进行AI文本识别。
robeczech-base - 专为捷克语开发的单语RoBERTa模型
模型Github开源项目语言模型HuggingfaceRoBERTaCzech自然语言处理RobeCzech
RobeCzech是布拉格查理大学开发的捷克语RoBERTa模型,在4900M个token的语料库上预训练。它采用52,000词汇量的字节级BPE分词器,在形态分析、依存句法分析、命名实体识别和语义解析等任务中表现优异。该模型为捷克语自然语言处理研究和应用提供了有力支持,可用于多种下游任务。
opus-mt-en-fi - 开源神经机器翻译模型实现英语到芬兰语的准确转换
语言模型机器翻译HuggingfaceOPUS-MT模型Github开源项目英语到芬兰语BLEU评分
opus-mt-en-fi是一个开源的英语到芬兰语翻译模型,基于transformer架构。该模型使用OPUS数据集和bt-news数据进行训练,采用normalization和SentencePiece进行预处理。在newstest2019-enfi测试集上,模型实现了25.7的BLEU分数和0.578的chr-F分数,显示出较高的翻译准确度。模型提供原始权重下载和测试集翻译结果,方便研究者和开发者使用和评估。
deberta-v3-base-prompt-injection-v2 - DeBERTa-v3微调模型实现高精度提示注入检测
语言模型Huggingface模型prompt injectionGithub开源项目LLM安全文本分类DeBERTa-v3-base
deberta-v3-base-prompt-injection-v2是一个基于DeBERTa-v3-base微调的模型,专注于检测和分类英语提示注入攻击。模型在后训练数据集上达到95.25%的准确率,可有效分类输入是否存在注入。该模型由Protect AI开发,利用多个公开数据集训练而成,旨在提升语言模型应用的安全性。需注意的是,模型不适用于越狱攻击检测和非英语提示处理。
mistral-7b-instruct-v0.3-bnb-4bit - Unsloth:加速大型语言模型微调的开源项目
语言模型模型GithubUnsloth效率提升微调内存优化Huggingface开源项目
mistral-7b-instruct-v0.3-bnb-4bit项目利用Unsloth技术提高大型语言模型的微调效率。该开源工具可将Mistral、Gemma和Llama 2等模型的微调速度提升2-5倍,同时减少70%的内存使用。项目提供多个针对不同模型的免费Colab笔记本,支持对话式和文本补全等微调任务,便于初学者实现高效模型优化。
Sheared-LLaMA-1.3B - 高效压缩训练的小型语言模型
模型开源项目语言模型HuggingfaceSheared-LLaMA结构化剪枝Github预训练下游任务
Sheared-LLaMA-1.3B是一个基于LLaMA2-7B模型裁剪并预训练的小型语言模型。该项目仅使用50B token进行训练,却在推理、阅读理解等多项下游任务中展现出优异表现,平均性能超过了同等规模的OPT-1.3B和Pythia-1.4B模型。这一模型保留了LLaMA的词表,在有限计算资源条件下实现高效训练,为大型语言模型的压缩和轻量化研究提供了新的思路。
NemoMix-Unleashed-12B-GGUF - NemoMix-Unleashed-12B模型的多种量化版本
模型量化GGUF开源项目语言模型Huggingface机器学习NemoMix-Unleashed-12BGithub
NemoMix-Unleashed-12B-GGUF项目提供了多种NemoMix-Unleashed-12B模型的量化版本。这些版本采用llama.cpp进行处理,精度范围从F16到IQ2_M,文件大小在4.44GB至24.50GB之间。项目详细介绍了各量化类型、文件大小及使用建议,便于用户根据硬件选择合适版本。同时提供下载指南和性能比较资料,方便模型部署和评估。
biomed_roberta_base - RoBERTa衍生模型在生物医学NLP任务中展现优异性能
语言模型Huggingface模型预训练Github开源项目自然语言处理生物医学RoBERTa
BioMed-RoBERTa-base是一个针对生物医学领域优化的语言模型,基于RoBERTa-base架构,通过对268万篇科学论文全文的持续预训练而成。该模型在文本分类、关系提取和命名实体识别等多项生物医学NLP任务中表现出色,比基础RoBERTa模型有显著提升。这为生物医学领域的自然语言处理研究提供了一个强大的预训练工具。
gemma-7b-it - 轻量级开源语言模型支持多种文本生成任务
语言模型Huggingface模型机器学习人工智能Github开源项目自然语言处理Gemma
Gemma-7b-it是一款7B参数的指令调优语言模型,属于Google推出的轻量级开源模型系列。该模型支持问答、摘要和推理等多种文本生成任务,体积小巧易部署,适合在资源受限环境中使用。Gemma-7b-it采用先进训练技术,在多项基准测试中表现优异,同时注重道德和安全性。这款模型为NLP开发者和研究人员提供了一个功能强大且灵活的工具。
llama-3.2-Korean-Bllossom-3B - 基于Llama 3.2的韩英双语增强语言模型
语言模型模型Bllossom-3BGithubLLaMA英语开源项目Huggingface韩语
llama-3.2-Korean-Bllossom-3B是基于Llama 3.2-3B的韩英双语增强模型。通过150GB精选韩语数据的全面微调和指令调优,该模型在保持英语能力的同时显著提升了韩语表现。在LogicKor基准测试中,它创下了3B-5B规模模型的最高分。这个开源模型支持商业使用,为韩语自然语言处理任务提供了有力支持。
Meta-Llama-3.1-70B-Instruct-FP8 - Meta-Llama-3.1-70B模型的FP8量化版本 提升效率降低资源需求
语言模型Huggingface模型FP8量化人工智能Github开源项目vLLMMeta-Llama-3.1-70B-Instruct
Meta-Llama-3.1-70B-Instruct模型的FP8量化版本,通过将权重和激活量化为8位浮点数,大幅降低了模型体积和GPU内存需求。支持多语言商业和研究应用,在OpenLLM基准测试中平均得分84.29,性能接近原始模型。可通过vLLM后端高效部署,适用于智能对话等多种场景。
T0pp - 多任务语言模型展现跨任务零样本泛化能力
语言模型T0零样本学习多任务学习Huggingface模型Github开源项目自然语言处理
T0是一系列基于T5的编码器-解码器模型,通过多任务微调实现零样本跨任务泛化。该模型在多项自然语言处理任务中表现优于GPT-3,参数量仅为其1/16。T0能够根据自然语言指令完成情感分析、阅读理解、逻辑推理等未见任务。研究还评估了模型在性别偏见识别和复现方面的表现。
opus-mt-hi-en - 基于OPUS数据集的印地语-英语开源机器翻译模型
语言模型机器翻译Huggingface模型数据集Github开源项目opus-mt-hi-enBLEU评分
opus-mt-hi-en是一个开源的印地语到英语机器翻译模型,基于transformer-align架构构建。该模型使用OPUS数据集训练,采用规范化和SentencePiece进行预处理。在Tatoeba测试集上,模型达到40.4的BLEU分数。项目提供预训练权重下载,便于用户部署和使用。此外,模型还在newsdev2014和newstest2014等测试集上进行了评估,为研究人员提供了性能参考。
chunk-english-fast - Flair框架驱动的高效英语短语切分模型
语言模型Huggingface模型Github开源项目序列标注自然语言处理Flair分词
chunk-english-fast是一款基于Flair框架的英语短语切分模型。该模型在CoNLL-2000数据集上实现了96.22%的F1分数,能够精确识别句子中的名词短语、动词短语等10种不同结构。模型采用Flair嵌入和LSTM-CRF架构,通过简洁的Python接口即可轻松实现短语切分,为各类自然语言处理任务提供有力支持。
SmolLM-135M - 小型高效语言模型的新标杆,性能出色,尺寸便携
SmolLM语言模型Huggingface模型机器学习人工智能Github开源项目自然语言处理
SmolLM-135M是SmolLM系列中的小型语言模型,基于Cosmo-Corpus数据集训练。该模型仅有135M参数,但在常识推理和世界知识等基准测试中表现优异。SmolLM-135M提供全精度、半精度和量化版本,可灵活部署于各种硬件环境。作为高效小型语言模型的代表,SmolLM-135M在保持小巧体积的同时,展现出强大的文本生成能力。
legal-bert-base-uncased - 法律领域专用预训练语言模型
语言模型Huggingface模型司法文本法律自然语言处理Github预训练模型开源项目LEGAL-BERT
LEGAL-BERT是一系列针对法律领域优化的BERT模型,基于12GB多样化英语法律文本预训练而成。它涵盖立法、法院案例和合同等内容,在法律特定任务中表现优于通用BERT。此外,项目提供了一个仅为BERT-BASE大小33%的轻量级模型,在保持竞争力的同时提高了效率。LEGAL-BERT旨在促进法律NLP研究、计算法律和法律技术应用的发展。
Phi-3.5-MoE-instruct - 轻量级高性能多语言开源模型
模型开源项目语言模型Phi-3.5-MoEHuggingface长文本处理推理能力Github多语言
Phi-3.5-MoE-instruct是一款高性能开源多语言模型。采用混合专家架构,仅用6.6B活跃参数即可实现优异性能。支持128K上下文长度,在推理、数学和代码生成等方面表现出色。模型专注高质量推理数据,经过严格微调和安全增强,适用于商业和研究领域。