#语言模型
Mistral-7B-OpenOrca - 基于Mistral微调的高效开源大语言模型
Github人工智能语言模型HuggingfaceMistral模型训练开源项目模型OpenOrca
Mistral-7B-OpenOrca是一个使用OpenOrca数据集对Mistral 7B进行微调的开源大语言模型。模型在HuggingFace基准测试中展现出优秀性能,支持ChatML格式,适配消费级GPU硬件。此外还提供多种量化版本选择,便于部署和使用。
gbert-large - 提升德语文本处理效能的高性能BERT模型
语言模型性能deepsetGerman BERTHaystack模型Github开源项目Huggingface
gbert-large为由原德语BERT与dbmdz BERT团队开发的德语BERT语言模型,在GermEval系列测试中展现优异性能,如GermEval18粗分类80.08分。探索其他模型如gbert-base与gelectra系列。
opus-mt-fr-de - transformer-align架构的法德翻译模型,适用于新闻政治等多领域
opus-mt-fr-de机器翻译语言模型神经网络Github模型数据集Huggingface开源项目
该法德翻译模型基于transformer-align架构,使用OPUS数据集训练。模型在多个测试集上表现出色,Tatoeba测试集达49.1 BLEU分,新闻领域测试集普遍达22-28 BLEU分,在euelections_dev2019测试集上达26.4 BLEU分。采用normalization和SentencePiece预处理,适用于新闻、政治等多领域翻译。模型权重和测试集翻译结果可供下载使用。
Llama-2-7B-GGUF - Meta开源的大型语言模型GGUF量化格式版本
Llama 2Meta语言模型GGUF模型开源GithubHuggingface开源项目
Llama 2 7B GGUF是Meta开源语言模型的优化版本,采用llama.cpp团队开发的GGUF量化格式。该版本提供2-8比特多种量化选项,支持CPU和GPU推理,可满足不同场景的部署需求。项目包含模型下载、运行指南以及主流框架的集成方法,方便开发者快速上手使用。
openchat-3.5-0106 - 基于Mistral的7B开源语言模型在多项测试中超越大型模型
语言模型开源项目基准测试模型人工智能GithubOpenChat开源Huggingface
OpenChat-3.5-0106是基于Mistral-7B架构开发的开源语言模型,具备编程、数学推理和对话等功能。模型支持8192上下文长度,提供编程专用和通用两种模式。在HumanEval、GSM8K等基准测试中,该模型展现出超越部分大型商业模型的性能。此外,模型还集成了实验性的评估器功能
bigyi-15b - 合并模型技术的进步:探索创新设计
bigyi-15b开源项目上下文合并方法模型语言模型HuggingfacemergekitGithub
Bigyi-15b融合了若干预训练语言模型,利用mergekit工具及passthrough合并方法,以01-ai/Yi-9B为核心,具备4k上下文处理能力。此模型增强了在多应用场景中的表现,比如复杂数值计算与自然语言生成,同时优化了信息匹配准确性。
Semantic-Textual-Relatedness-Spanish - 基于Sentence-Transformers的西班牙语语义关联分析模型
Github语言模型HuggingfaceSemEval文本相关性开源项目模型语义相似度sentence-transformers
基于sentence-transformers框架开发的西班牙语语义关联分析模型,可将文本映射至256维向量空间,实现文本聚类和语义搜索功能。模型采用Transformer架构与CosineSimilarity损失函数,在SemEval-2024评测中获得0.677的Spearman相关系数。
Llama-3.2-1B-Instruct-q4f32_1-MLC - 基于MLC格式的Llama指令微调对话模型支持多平台轻量级部署
语言模型Llama人工智能Github开源框架模型MLCHuggingface开源项目
基于Meta Llama-3.2-1B-Instruct转换的MLC格式模型,采用q4f32_1量化方案,针对MLC-LLM和WebLLM项目进行优化。模型提供命令行交互、REST服务部署和Python API调用功能,可灵活应用于各类场景。具备快速部署和高效对话能力,适合构建轻量级AI对话应用。
bert-base-polish-cased-v1 - 专门针对波兰语的BERT预训练基础模型
语言模型BERT波兰语开源项目模型机器学习Github自然语言处理Huggingface
bert-base-polish-cased-v1作为专门针对波兰语开发的BERT预训练语言模型,通过HuggingFace transformers库提供,采用了全词掩码技术,支持大小写敏感。模型训练语料包含经过去重的OpenSubtitles数据集、ParaCrawl语料库、波兰议会语料库和波兰维基百科等资源。在KLEJ基准测试中展现出良好的波兰语理解效果,特别适合序列分类和标记分类等自然语言处理任务。
Qwen1.5-7B-Chat - 基于Transformer架构的多语言语言模型 支持32K上下文
语言模型开源项目深度学习模型Qwen1.5人工智能Github自然语言处理Huggingface
Qwen1.5-7B-Chat是Qwen2的beta版本,采用Transformer架构的仅解码器语言模型。相比前代版本,新增了8种规模的模型选择,优化了聊天模型性能,增加了多语言支持,实现了32K上下文长度。模型经过大规模数据预训练,结合监督微调和直接偏好优化完成训练。
SOLAR-10.7B-v1.0 - 深度扩展技术驱动的大语言模型实现超30B参数级性能
大模型语言模型人工智能模型深度学习GithubSOLAR-10.7BHuggingface开源项目
SOLAR-10.7B采用深度扩展(DUS)技术开发,通过整合Mistral 7B权重和持续预训练,实现10.7B参数达到30B级模型性能。在H6评测中得分74.20,高于Mixtral-8x7B等大型模型。模型以Apache-2.0许可开源发布,提供完整预训练版本。
Llama3-8B-1.58-100B-tokens - 基于BitNet架构的Llama3 8B量化版本
BitNetLlama3-8B-1.58语言模型量化模型Github模型训练开源项目Huggingface
这是一个基于BitNet 1.58b架构的语言模型,通过对Llama-3-8B-Instruct进行微调开发。模型在FineWeb-edu数据集上完成了1000亿token的训练,采用1e-5学习率。测评显示其部分性能指标接近原版Llama3 8B,体现了极限量化在大型语言模型领域的应用潜力。
dictabert-joint - 基于BERT的希伯来语多任务自然语言处理模型
语法分析语言模型Github模型希伯来语自然语言处理DictaBERTHuggingface开源项目
DictaBERT-joint是一个针对希伯来语的多任务语言处理模型,集成了前缀分割、形态消歧、词形还原、句法分析和命名实体识别功能。模型提供JSON、UD和IAHLT-UD三种数据格式输出,支持按需初始化不同任务模块。
OLMo-7B-0724-Instruct-hf - 改进自然语言处理任务的问答精度与模型性能
语言模型Github开源项目OLMo自然语言处理Huggingface训练数据模型评估模型
OLMo 7B Instruct是由Allen Institute for AI与多家机构于2024年7月发布的更新版语言模型。此版本通过微调技术优化基础模型的问答能力,基于Dolma和Tulu 2 SFT混合数据集进行训练,提高了绩效和安全性。其自回归Transformer结构适用于精确的英文自然语言处理任务。
Barcenas-Llama3-8b-ORPO - ORPO方法优化的Llama 3对话模型
机器学习Github语言模型ORPOHuggingfaceLlama 3开源项目模型人工智能模型
Barcenas-Llama3-8b-ORPO是一款经ORPO方法优化的语言模型,基于Llama-3-SauerkrautLM-8b-Instruct开发。通过整合dolphin-sft数据集和GPT-4增强的对话数据,该模型在对话交互方面实现了显著提升。这一开源项目源自墨西哥新莱昂州,为AI开发者提供了新的模型选择。
SmolLM-360M-Instruct - 轻量级指令对话模型实现快速本地部署
语言模型人工智能Github模型SmolLM自然语言处理模型训练开源项目Huggingface
SmolLM-360M-Instruct采用360M参数构建,通过日常对话、编程指令等数据集完成微调。模型支持MLC、GGUF等多种本地部署方案,在AlpacaEval测评中相比前代提升至63.3%的胜率。目前可应用于知识问答、创意写作和基础Python编程等场景。
tweet-topic-21-multi - 适用于英文多标签话题分类的推文模型
多标签分类推文Huggingfacetweet-topic-21-multi开源项目模型Github语言模型社交关注
tweet-topic-21-multi模型基于TimeLMs语言模型开发,通过对2018年1月至2021年12月间发布的超过1.24亿条推文进行训练,实现了多标签话题分类功能。模型采用11,267条推文进行微调,涵盖艺术文化、商业、科技、体育等多种话题,适用于需要高精度英文文本多标签分类的任务。
ghost-7b-alpha - 先进的语言生成工具,具备优化推理和多任务处理能力
Huggingface开源项目模型开源模型Github多任务知识语言模型工具支持Ghost 7B Alpha
Ghost 7B Alpha源自Mistral 7B的微调,涵盖70亿参数,专注于改进推理能力、多任务处理和工具集成。模型主要优化英语和越南语,可用于虚拟助手、代码生成、翻译及问答系统等应用。作为一个高效且经济的开放模型,它提供多种分发选项以适应多样化需求。
Qwen2.5-Math-1.5B-Instruct - 阿里巴巴数学大语言模型支持中英双语计算推理
Qwen2.5-Math语言模型数学模型人工智能模型Github机器学习开源项目Huggingface
Qwen2.5-Math-1.5B-Instruct是一个专注于数学问题求解的大语言模型,能同时处理中文和英文数学题目。模型集成了思维链推理和工具辅助计算功能,在MATH基准测试中取得79.7分的成绩。基于Hugging Face框架开发,方便开发者快速部署和应用到教育等实际场景中。
Llama-3.2-3B-Instruct-GGUF - Llama 3.2多语言模型的高效量化部署方案
Llama 3.2语言模型多语言模型Github量化模型机器学习开源项目Huggingface
Llama 3.2系列多语言模型的GGUF量化版本,针对对话、检索和摘要任务进行优化。通过多种量化方案实现4.66GB至9.38GB的灵活内存占用,适合在资源受限环境部署。该模型在主流行业基准测试中展现了良好性能。
falcon-11B - 11种语言支持的大规模语言模型,基于5000亿数据训练打造
Falcon2-11B语言模型人工智能Github模型自然语言处理机器学习开源项目Huggingface
Falcon2-11B是一个110亿参数的因果解码器模型,由TII开发并在5000亿个RefinedWeb tokens上训练。该模型支持11种语言,采用Flash-Attention 2技术,具有8192tokens的上下文长度。模型在多个基准测试中表现优异,适用于语言模型研究、文本生成、摘要和对话等任务的微调。
opus-mt-en-cs - 基于Transformer的英捷机器翻译模型在Tatoeba测试集获得46.1 BLEU分数
语言模型开源项目机器翻译BLEU评分模型数据集评估Githubopus-mtHuggingface
这是OPUS项目开发的基于transformer-align架构的英捷翻译模型。模型使用normalization和SentencePiece预处理方法,在newstest2013-2019等多个新闻测试集上获得20-26的BLEU评分,在Tatoeba测试集达到46.1 BLEU分数。模型开放测试评估数据和原始权重下载,支持英语到捷克语的机器翻译任务。
TowerInstruct-Mistral-7B-v0.2 - Mistral架构多语言翻译模型实现十种语言互译及语言处理
MistralHuggingface语言模型TowerInstruct模型Github机器学习开源项目多语言翻译
TowerInstruct-Mistral-7B-v0.2是一款经TowerBlocks数据集微调的7B参数语言模型。该模型支持英语、德语、法语等十种主要语言,具备句子及段落翻译、术语识别翻译、上下文感知翻译等核心能力。同时集成自动后期编辑、命名实体识别、语法纠错和释义生成等功能。与13B版本相比,保持相近性能的同时将模型规模减半。
MicroLlama - 预算内的大规模语言模型构建:300M Llama模型的探索
开源项目huggingface模型Github开源Huggingface文本生成MicroLlama语言模型
该项目在有限预算内,通过全面开源的方法构建了一个300M Llama语言模型。尽管性能不及更大型的模型,但以不到500美元的投入,在多数据集上表现出色,并在与类似参数的BERT模型比较时展现优势。项目使用Vast.ai的计算资源和AWS S3存储,对TinyLlama模型进行了调整,重点优化Slimpajama数据集。这一项目展示了低成本大规模模型开发的潜力,并为细化应用如轻量级聊天机器人提供了坚实基础。
Qwen1.5-4B-Chat - 支持多语种与长上下文的高级语言模型
开源项目模型Github多语言支持性能提升HuggingfaceTransformerQwen1.5语言模型
Qwen1.5是一种基于变压器架构的语言模型,提供八种型号,支持多语言处理和32K字符的上下文长度。这一版本在聊天模型的人类偏好方面表现显著提升,且不需要信任远程代码。改进涉及高级激活函数、注意力机制和多语言适应分词器。模型已在Hugging Face Transformers库上线,建议使用最新版本以避免可能错误。适用于多种文本生成任务,包含多种量化轻量化模型以满足不同需求。
pythia-2.8b - 大规模语言模型研究工具包,提供多尺度模型和训练检查点
PyTorch机器学习人工智能语言模型GithubPythiaHuggingface开源项目模型
Pythia-2.8B是EleutherAI开发的大规模语言模型研究套件中的一员,专注于促进模型可解释性研究。该模型包含25亿参数,基于Transformer架构,使用Pile数据集训练。提供154个训练检查点,便于深入分析模型演化过程。尽管主要用于研究,其性能与同等规模的OPT和GPT-Neo模型相当。Pythia-2.8B采用Apache 2.0许可证,可通过Hugging Face Transformers库轻松部署。
Video-LLaVA-7B-hf - 基于LLM的统一视觉模型实现图像和视频的智能处理
多模态模型语言模型Github视觉识别开源项目Video-LLaVA视频分析Huggingface模型
Video-LLaVA是一个基于Vicuna-13b的开源多模态模型,通过统一的视觉表示编码器实现图像和视频内容的并行处理。该模型采用语言对齐投影方式,无需图像-视频配对数据即可完成训练。模型支持图像和视频的混合输入,可应用于内容理解、问答和描述等视觉分析任务。
calm3-22b-chat - 基于22亿参数的日英双语对话模型,专为智能交互优化
CALM3-22B-Chat开源项目自然语言处理模型语言模型Huggingface日语对话系统Github
CALM3-22B-Chat是一个基于2.0万亿tokens训练的大规模语言模型,专为对话场景优化。该模型具有220亿参数,支持日英双语交互,最大上下文长度16384。采用ChatML格式,支持流式输出,适合构建智能对话系统。由CyberAgent开发,Apache-2.0许可证开源,为开发者提供强大的自然语言处理能力。
prometheus-8x7b-v2.0 - 基于Mistral的开源评估型语言模型
Prometheus 2语言模型Github开源项目RLHF人工智能评估Huggingface机器学习模型
Prometheus-8x7b-v2.0是一个基于Mistral-Instruct构建的开源评估型语言模型,通过30万条标注数据训练而成。该模型支持绝对评分和相对排名两种方式,可对其他语言模型进行细粒度评估,是GPT-4评估功能的开源替代方案。模型提供完整的使用文档,适用于语言模型性能比较和评估研究。
phobert-large - 越南语PhoBERT模型优化实现多项NLP任务性能突破
语言模型Github开源项目RoBERTaPhoBERT越南语处理自然语言处理Huggingface模型
PhoBERT是首个公开的大规模越南语单语预训练模型,基于RoBERTa优化BERT,超越以往多语言和单语方法,显著提升词类标注、依赖解析、命名实体识别和自然语言推理等越南语NLP任务效果。
tokyotech-llm-Llama-3.1-Swallow-8B-Instruct-v0.1-gguf - 基于Llama 3.1的日英双语指令模型GGUF版本 支持高效本地部署
语言模型GithubLlama-3.1开源项目模型Huggingface机器学习日语模型人工智能
该项目是tokyotech-llm团队开发的Llama-3.1-Swallow-8B-Instruct模型的GGUF格式版本。原模型基于Llama 3.1架构,使用imatrix日语数据集训练,支持日英双语交互。GGUF格式优化了模型的本地部署效率,特别适合在llama.cpp框架下运行。模型可用于日语对话、任务执行等多种场景,具有良好的指令理解能力。
orca_mini_3b - 基于Orca方法优化的OpenLLaMA解释型语言模型
语言模型Github开源项目模型自然语言处理Huggingface深度学习OpenLLaMa人工智能
orca_mini_3b是一个在OpenLLaMA-3B架构基础上开发的语言模型,结合WizardLM、Alpaca和Dolly-V2数据集进行训练,采用Orca论文提出的数据构建方法。模型在ARC、HellaSwag、MMLU等多个基准测试中表现稳定,可通过Google Colab的T4 GPU免费部署运行。该模型主要特点是具备强大的解释能力,能够提供详细的推理过程。
alias-gpt2-small-x21 - 文本生成工具,提高自然语言处理效果
语言模型偏见与公平Github开源项目文本生成alias-gpt2-small-x21HuggingfaceApache 2.0模型
alias-gpt2-small-x21是由Stanford CRFM开发的文本生成模型,延续了GPT-2的能力,适用于多种自然语言处理任务。需注意模型中的偏见和风险,不应用于产生敌意环境,并需考虑其碳排放的环境影响。
Llama-3.2-3B-GGUF - 高性能多语言型大语言模型支持8种语言
Github机器学习开源项目模型语言模型多语言人工智能HuggingfaceLlama 3.2
Llama-3.2-3B是Meta开发的多语言大型语言模型,支持8种语言,适用于对话和代理任务。本项目使用llama.cpp对原模型进行量化,保留了128k上下文长度和分组查询注意力等特性。该模型在行业基准测试中表现优异,可用于聊天、知识检索、摘要等自然语言生成任务,适合商业和研究使用。
multitask-text-and-chemistry-t5-base-augm - 多任务文本与化学T5适用于化学与自然语言的多领域模型
IBM研究院多任务开源项目Multitask Text and Chemistry T5模型语言模型Huggingface化学Github
Multitask Text and Chemistry T5是一个基于Transformer的多任务语言模型,应用于化学和自然语言领域的多种任务。它以t5-small为预训练基础,并通过增强数据集进行训练。2023年发布,该模型由IBM Research与丹麦技术大学合作开发并集成于GT4SD。应用领域包括正向反应预测、逆合成、分子注释、文本条件的生成和段落到动作的转换。
Rocinante-12B-v1.1-GGUF - 基于12B参数的开源文本生成语言模型
Rocinante聊天模板语言模型Github开源项目文本生成模型Huggingface人工智能
Rocinante-12B-v1.1-GGUF是一个基于12B参数的开源语言模型,支持ChatML、Alpaca和Mistral等多种聊天模板。该模型具备丰富的词汇量和叙事能力,通过调整采样参数可实现不同风格的文本生成。项目开源并提供多种量化版本,适合用于文本创作和对话生成等场景。
相关文章