#语言模型

Mistral-7B-OpenOrca - 基于Mistral微调的高效开源大语言模型

Github人工智能语言模型HuggingfaceMistral模型训练开源项目模型OpenOrca

Mistral-7B-OpenOrca是一个使用OpenOrca数据集对Mistral 7B进行微调的开源大语言模型。模型在HuggingFace基准测试中展现出优秀性能，支持ChatML格式，适配消费级GPU硬件。此外还提供多种量化版本选择，便于部署和使用。

gbert-large - 提升德语文本处理效能的高性能BERT模型

语言模型性能deepsetGerman BERTHaystack模型Github开源项目Huggingface

gbert-large为由原德语BERT与dbmdz BERT团队开发的德语BERT语言模型，在GermEval系列测试中展现优异性能，如GermEval18粗分类80.08分。探索其他模型如gbert-base与gelectra系列。

opus-mt-fr-de - transformer-align架构的法德翻译模型，适用于新闻政治等多领域

opus-mt-fr-de机器翻译语言模型神经网络Github模型数据集Huggingface开源项目

该法德翻译模型基于transformer-align架构，使用OPUS数据集训练。模型在多个测试集上表现出色，Tatoeba测试集达49.1 BLEU分，新闻领域测试集普遍达22-28 BLEU分，在euelections_dev2019测试集上达26.4 BLEU分。采用normalization和SentencePiece预处理，适用于新闻、政治等多领域翻译。模型权重和测试集翻译结果可供下载使用。

Llama-2-7B-GGUF - Meta开源的大型语言模型GGUF量化格式版本

Llama 2Meta语言模型GGUF模型开源GithubHuggingface开源项目

Llama 2 7B GGUF是Meta开源语言模型的优化版本，采用llama.cpp团队开发的GGUF量化格式。该版本提供2-8比特多种量化选项，支持CPU和GPU推理，可满足不同场景的部署需求。项目包含模型下载、运行指南以及主流框架的集成方法，方便开发者快速上手使用。

openchat-3.5-0106 - 基于Mistral的7B开源语言模型在多项测试中超越大型模型

语言模型开源项目基准测试模型人工智能GithubOpenChat开源Huggingface

OpenChat-3.5-0106是基于Mistral-7B架构开发的开源语言模型,具备编程、数学推理和对话等功能。模型支持8192上下文长度,提供编程专用和通用两种模式。在HumanEval、GSM8K等基准测试中,该模型展现出超越部分大型商业模型的性能。此外,模型还集成了实验性的评估器功能

bigyi-15b - 合并模型技术的进步：探索创新设计

bigyi-15b开源项目上下文合并方法模型语言模型HuggingfacemergekitGithub

Bigyi-15b融合了若干预训练语言模型，利用mergekit工具及passthrough合并方法，以01-ai/Yi-9B为核心，具备4k上下文处理能力。此模型增强了在多应用场景中的表现，比如复杂数值计算与自然语言生成，同时优化了信息匹配准确性。

Semantic-Textual-Relatedness-Spanish - 基于Sentence-Transformers的西班牙语语义关联分析模型

Github语言模型HuggingfaceSemEval文本相关性开源项目模型语义相似度sentence-transformers

基于sentence-transformers框架开发的西班牙语语义关联分析模型，可将文本映射至256维向量空间，实现文本聚类和语义搜索功能。模型采用Transformer架构与CosineSimilarity损失函数，在SemEval-2024评测中获得0.677的Spearman相关系数。

Llama-3.2-1B-Instruct-q4f32_1-MLC - 基于MLC格式的Llama指令微调对话模型支持多平台轻量级部署

语言模型Llama人工智能Github开源框架模型MLCHuggingface开源项目

基于Meta Llama-3.2-1B-Instruct转换的MLC格式模型，采用q4f32_1量化方案，针对MLC-LLM和WebLLM项目进行优化。模型提供命令行交互、REST服务部署和Python API调用功能，可灵活应用于各类场景。具备快速部署和高效对话能力，适合构建轻量级AI对话应用。

bert-base-polish-cased-v1 - 专门针对波兰语的BERT预训练基础模型

语言模型BERT波兰语开源项目模型机器学习Github自然语言处理Huggingface

bert-base-polish-cased-v1作为专门针对波兰语开发的BERT预训练语言模型，通过HuggingFace transformers库提供，采用了全词掩码技术，支持大小写敏感。模型训练语料包含经过去重的OpenSubtitles数据集、ParaCrawl语料库、波兰议会语料库和波兰维基百科等资源。在KLEJ基准测试中展现出良好的波兰语理解效果，特别适合序列分类和标记分类等自然语言处理任务。

Qwen1.5-7B-Chat - 基于Transformer架构的多语言语言模型支持32K上下文

语言模型开源项目深度学习模型Qwen1.5人工智能Github自然语言处理Huggingface

Qwen1.5-7B-Chat是Qwen2的beta版本，采用Transformer架构的仅解码器语言模型。相比前代版本，新增了8种规模的模型选择，优化了聊天模型性能，增加了多语言支持，实现了32K上下文长度。模型经过大规模数据预训练，结合监督微调和直接偏好优化完成训练。

SOLAR-10.7B-v1.0 - 深度扩展技术驱动的大语言模型实现超30B参数级性能

大模型语言模型人工智能模型深度学习GithubSOLAR-10.7BHuggingface开源项目

SOLAR-10.7B采用深度扩展(DUS)技术开发，通过整合Mistral 7B权重和持续预训练，实现10.7B参数达到30B级模型性能。在H6评测中得分74.20，高于Mixtral-8x7B等大型模型。模型以Apache-2.0许可开源发布，提供完整预训练版本。

Llama3-8B-1.58-100B-tokens - 基于BitNet架构的Llama3 8B量化版本

BitNetLlama3-8B-1.58语言模型量化模型Github模型训练开源项目Huggingface

这是一个基于BitNet 1.58b架构的语言模型，通过对Llama-3-8B-Instruct进行微调开发。模型在FineWeb-edu数据集上完成了1000亿token的训练，采用1e-5学习率。测评显示其部分性能指标接近原版Llama3 8B，体现了极限量化在大型语言模型领域的应用潜力。

dictabert-joint - 基于BERT的希伯来语多任务自然语言处理模型

语法分析语言模型Github模型希伯来语自然语言处理DictaBERTHuggingface开源项目

DictaBERT-joint是一个针对希伯来语的多任务语言处理模型，集成了前缀分割、形态消歧、词形还原、句法分析和命名实体识别功能。模型提供JSON、UD和IAHLT-UD三种数据格式输出，支持按需初始化不同任务模块。

OLMo-7B-0724-Instruct-hf - 改进自然语言处理任务的问答精度与模型性能

语言模型Github开源项目OLMo自然语言处理Huggingface训练数据模型评估模型

OLMo 7B Instruct是由Allen Institute for AI与多家机构于2024年7月发布的更新版语言模型。此版本通过微调技术优化基础模型的问答能力，基于Dolma和Tulu 2 SFT混合数据集进行训练，提高了绩效和安全性。其自回归Transformer结构适用于精确的英文自然语言处理任务。

Barcenas-Llama3-8b-ORPO - ORPO方法优化的Llama 3对话模型

机器学习Github语言模型ORPOHuggingfaceLlama 3开源项目模型人工智能模型

Barcenas-Llama3-8b-ORPO是一款经ORPO方法优化的语言模型，基于Llama-3-SauerkrautLM-8b-Instruct开发。通过整合dolphin-sft数据集和GPT-4增强的对话数据，该模型在对话交互方面实现了显著提升。这一开源项目源自墨西哥新莱昂州，为AI开发者提供了新的模型选择。

SmolLM-360M-Instruct - 轻量级指令对话模型实现快速本地部署

语言模型人工智能Github模型SmolLM自然语言处理模型训练开源项目Huggingface

SmolLM-360M-Instruct采用360M参数构建，通过日常对话、编程指令等数据集完成微调。模型支持MLC、GGUF等多种本地部署方案，在AlpacaEval测评中相比前代提升至63.3%的胜率。目前可应用于知识问答、创意写作和基础Python编程等场景。

tweet-topic-21-multi - 适用于英文多标签话题分类的推文模型

多标签分类推文Huggingfacetweet-topic-21-multi开源项目模型Github语言模型社交关注

tweet-topic-21-multi模型基于TimeLMs语言模型开发，通过对2018年1月至2021年12月间发布的超过1.24亿条推文进行训练，实现了多标签话题分类功能。模型采用11,267条推文进行微调，涵盖艺术文化、商业、科技、体育等多种话题，适用于需要高精度英文文本多标签分类的任务。

ghost-7b-alpha - 先进的语言生成工具，具备优化推理和多任务处理能力

Huggingface开源项目模型开源模型Github多任务知识语言模型工具支持Ghost 7B Alpha

Ghost 7B Alpha源自Mistral 7B的微调，涵盖70亿参数，专注于改进推理能力、多任务处理和工具集成。模型主要优化英语和越南语，可用于虚拟助手、代码生成、翻译及问答系统等应用。作为一个高效且经济的开放模型，它提供多种分发选项以适应多样化需求。

Qwen2.5-Math-1.5B-Instruct - 阿里巴巴数学大语言模型支持中英双语计算推理

Qwen2.5-Math语言模型数学模型人工智能模型Github机器学习开源项目Huggingface

Qwen2.5-Math-1.5B-Instruct是一个专注于数学问题求解的大语言模型，能同时处理中文和英文数学题目。模型集成了思维链推理和工具辅助计算功能，在MATH基准测试中取得79.7分的成绩。基于Hugging Face框架开发，方便开发者快速部署和应用到教育等实际场景中。

Llama-3.2-3B-Instruct-GGUF - Llama 3.2多语言模型的高效量化部署方案

Llama 3.2语言模型多语言模型Github量化模型机器学习开源项目Huggingface

Llama 3.2系列多语言模型的GGUF量化版本，针对对话、检索和摘要任务进行优化。通过多种量化方案实现4.66GB至9.38GB的灵活内存占用，适合在资源受限环境部署。该模型在主流行业基准测试中展现了良好性能。

falcon-11B - 11种语言支持的大规模语言模型，基于5000亿数据训练打造

Falcon2-11B语言模型人工智能Github模型自然语言处理机器学习开源项目Huggingface

Falcon2-11B是一个110亿参数的因果解码器模型，由TII开发并在5000亿个RefinedWeb tokens上训练。该模型支持11种语言，采用Flash-Attention 2技术，具有8192tokens的上下文长度。模型在多个基准测试中表现优异，适用于语言模型研究、文本生成、摘要和对话等任务的微调。

opus-mt-en-cs - 基于Transformer的英捷机器翻译模型在Tatoeba测试集获得46.1 BLEU分数

语言模型开源项目机器翻译BLEU评分模型数据集评估Githubopus-mtHuggingface

这是OPUS项目开发的基于transformer-align架构的英捷翻译模型。模型使用normalization和SentencePiece预处理方法，在newstest2013-2019等多个新闻测试集上获得20-26的BLEU评分，在Tatoeba测试集达到46.1 BLEU分数。模型开放测试评估数据和原始权重下载，支持英语到捷克语的机器翻译任务。

TowerInstruct-Mistral-7B-v0.2 - Mistral架构多语言翻译模型实现十种语言互译及语言处理

MistralHuggingface语言模型TowerInstruct模型Github机器学习开源项目多语言翻译

TowerInstruct-Mistral-7B-v0.2是一款经TowerBlocks数据集微调的7B参数语言模型。该模型支持英语、德语、法语等十种主要语言，具备句子及段落翻译、术语识别翻译、上下文感知翻译等核心能力。同时集成自动后期编辑、命名实体识别、语法纠错和释义生成等功能。与13B版本相比，保持相近性能的同时将模型规模减半。

MicroLlama - 预算内的大规模语言模型构建：300M Llama模型的探索

开源项目huggingface模型Github开源Huggingface文本生成MicroLlama语言模型

该项目在有限预算内，通过全面开源的方法构建了一个300M Llama语言模型。尽管性能不及更大型的模型，但以不到500美元的投入，在多数据集上表现出色，并在与类似参数的BERT模型比较时展现优势。项目使用Vast.ai的计算资源和AWS S3存储，对TinyLlama模型进行了调整，重点优化Slimpajama数据集。这一项目展示了低成本大规模模型开发的潜力，并为细化应用如轻量级聊天机器人提供了坚实基础。

Qwen1.5-4B-Chat - 支持多语种与长上下文的高级语言模型

开源项目模型Github多语言支持性能提升HuggingfaceTransformerQwen1.5语言模型

Qwen1.5是一种基于变压器架构的语言模型，提供八种型号，支持多语言处理和32K字符的上下文长度。这一版本在聊天模型的人类偏好方面表现显著提升，且不需要信任远程代码。改进涉及高级激活函数、注意力机制和多语言适应分词器。模型已在Hugging Face Transformers库上线，建议使用最新版本以避免可能错误。适用于多种文本生成任务，包含多种量化轻量化模型以满足不同需求。

pythia-2.8b - 大规模语言模型研究工具包,提供多尺度模型和训练检查点

PyTorch机器学习人工智能语言模型GithubPythiaHuggingface开源项目模型

Pythia-2.8B是EleutherAI开发的大规模语言模型研究套件中的一员，专注于促进模型可解释性研究。该模型包含25亿参数，基于Transformer架构，使用Pile数据集训练。提供154个训练检查点，便于深入分析模型演化过程。尽管主要用于研究，其性能与同等规模的OPT和GPT-Neo模型相当。Pythia-2.8B采用Apache 2.0许可证，可通过Hugging Face Transformers库轻松部署。

Video-LLaVA-7B-hf - 基于LLM的统一视觉模型实现图像和视频的智能处理

多模态模型语言模型Github视觉识别开源项目Video-LLaVA视频分析Huggingface模型

Video-LLaVA是一个基于Vicuna-13b的开源多模态模型，通过统一的视觉表示编码器实现图像和视频内容的并行处理。该模型采用语言对齐投影方式，无需图像-视频配对数据即可完成训练。模型支持图像和视频的混合输入，可应用于内容理解、问答和描述等视觉分析任务。

calm3-22b-chat - 基于22亿参数的日英双语对话模型，专为智能交互优化

CALM3-22B-Chat开源项目自然语言处理模型语言模型Huggingface日语对话系统Github

CALM3-22B-Chat是一个基于2.0万亿tokens训练的大规模语言模型，专为对话场景优化。该模型具有220亿参数，支持日英双语交互，最大上下文长度16384。采用ChatML格式，支持流式输出，适合构建智能对话系统。由CyberAgent开发，Apache-2.0许可证开源，为开发者提供强大的自然语言处理能力。

prometheus-8x7b-v2.0 - 基于Mistral的开源评估型语言模型

Prometheus 2语言模型Github开源项目RLHF人工智能评估Huggingface机器学习模型

Prometheus-8x7b-v2.0是一个基于Mistral-Instruct构建的开源评估型语言模型，通过30万条标注数据训练而成。该模型支持绝对评分和相对排名两种方式，可对其他语言模型进行细粒度评估，是GPT-4评估功能的开源替代方案。模型提供完整的使用文档，适用于语言模型性能比较和评估研究。

phobert-large - 越南语PhoBERT模型优化实现多项NLP任务性能突破

语言模型Github开源项目RoBERTaPhoBERT越南语处理自然语言处理Huggingface模型

PhoBERT是首个公开的大规模越南语单语预训练模型，基于RoBERTa优化BERT，超越以往多语言和单语方法，显著提升词类标注、依赖解析、命名实体识别和自然语言推理等越南语NLP任务效果。

tokyotech-llm-Llama-3.1-Swallow-8B-Instruct-v0.1-gguf - 基于Llama 3.1的日英双语指令模型GGUF版本支持高效本地部署

语言模型GithubLlama-3.1开源项目模型Huggingface机器学习日语模型人工智能

该项目是tokyotech-llm团队开发的Llama-3.1-Swallow-8B-Instruct模型的GGUF格式版本。原模型基于Llama 3.1架构，使用imatrix日语数据集训练，支持日英双语交互。GGUF格式优化了模型的本地部署效率，特别适合在llama.cpp框架下运行。模型可用于日语对话、任务执行等多种场景，具有良好的指令理解能力。

orca_mini_3b - 基于Orca方法优化的OpenLLaMA解释型语言模型

语言模型Github开源项目模型自然语言处理Huggingface深度学习OpenLLaMa人工智能

orca_mini_3b是一个在OpenLLaMA-3B架构基础上开发的语言模型，结合WizardLM、Alpaca和Dolly-V2数据集进行训练，采用Orca论文提出的数据构建方法。模型在ARC、HellaSwag、MMLU等多个基准测试中表现稳定，可通过Google Colab的T4 GPU免费部署运行。该模型主要特点是具备强大的解释能力，能够提供详细的推理过程。

alias-gpt2-small-x21 - 文本生成工具，提高自然语言处理效果

语言模型偏见与公平Github开源项目文本生成alias-gpt2-small-x21HuggingfaceApache 2.0模型

alias-gpt2-small-x21是由Stanford CRFM开发的文本生成模型，延续了GPT-2的能力，适用于多种自然语言处理任务。需注意模型中的偏见和风险，不应用于产生敌意环境，并需考虑其碳排放的环境影响。

Llama-3.2-3B-GGUF - 高性能多语言型大语言模型支持8种语言

Github机器学习开源项目模型语言模型多语言人工智能HuggingfaceLlama 3.2

Llama-3.2-3B是Meta开发的多语言大型语言模型,支持8种语言,适用于对话和代理任务。本项目使用llama.cpp对原模型进行量化,保留了128k上下文长度和分组查询注意力等特性。该模型在行业基准测试中表现优异,可用于聊天、知识检索、摘要等自然语言生成任务,适合商业和研究使用。

multitask-text-and-chemistry-t5-base-augm - 多任务文本与化学T5适用于化学与自然语言的多领域模型

IBM研究院多任务开源项目Multitask Text and Chemistry T5模型语言模型Huggingface化学Github

Multitask Text and Chemistry T5是一个基于Transformer的多任务语言模型，应用于化学和自然语言领域的多种任务。它以t5-small为预训练基础，并通过增强数据集进行训练。2023年发布，该模型由IBM Research与丹麦技术大学合作开发并集成于GT4SD。应用领域包括正向反应预测、逆合成、分子注释、文本条件的生成和段落到动作的转换。

Rocinante-12B-v1.1-GGUF - 基于12B参数的开源文本生成语言模型

Rocinante聊天模板语言模型Github开源项目文本生成模型Huggingface人工智能

Rocinante-12B-v1.1-GGUF是一个基于12B参数的开源语言模型，支持ChatML、Alpaca和Mistral等多种聊天模板。该模型具备丰富的词汇量和叙事能力，通过调整采样参数可实现不同风格的文本生成。项目开源并提供多种量化版本，适合用于文本创作和对话生成等场景。

相关文章

Article Cover

Cheshire Cat: 一个强大的AI助手开发框架

Article Cover

CAMEL: 探索多智能体系统的前沿技术

Article Cover

RWKV-Runner：一款强大的RWKV语言模型管理与启动工具

Article Cover

MatMul-Free LLM：革新大型语言模型的计算方式

Article Cover

Chronos: 革命性的时间序列预测模型

Article Cover

xLSTM: 扩展长短期记忆网络的革新性突破

Article Cover

Dolma:开源大规模语言模型预训练数据集与工具包

Article Cover

RAPTOR: 一种创新的递归抽象处理技术

Article Cover

StableLM: Stability AI的开源大型语言模型

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号