#语言模型

COKAL-DPO_test-v2-13b - 采用LLaMA2架构的13B规模自动回归语言模型
Github开源项目语言模型模型模型开发transformersHuggingface训练数据集COKAL-DPO_test-v2
模型由韩国公司Media Group Saramwa Soop与Marker合作开发,基于LLaMA2变压器架构,具备文本生成能力。基础模型为COKAL_pre_DPO_Test_v1-13b,采用DPO及SFT私有数据集训练,适用于多种文本生成任务。该研究项目由韩国科学技术信息通信部和光州广域市资助,旨在推动人工智能产业集群发展。
stablelm-2-1_6b-chat - 1.6亿参数的对话模型
Github开源项目语言模型模型性能评估Huggingface训练数据集使用限制StableLM 2 Chat 1.6B
StableLM 2 Chat 1.6B由Stability AI创建,是基于transformer解码器架构的自然语言模型,专为对话场景设计。模型使用多种公开和合成数据集训练,并运用直接偏好优化算法。OpenLLM排行榜上的出色表现使其适用于对话应用,建议配置输入输出分类器以提升安全性和降低偏误,适合非商业用途。
Truthful_DPO_TomGrc_FusionNet_7Bx2_MoE_13B - 利用DPO优化方法提升语言模型的性能
Github开源项目语言模型模型数据集Huggingface偏好数据DPO TrainerTomGrc/FusionNet_7Bx2_MoE_14B
使用DPO Trainer在TomGrc/FusionNet_7Bx2_MoE_13B上优化语言模型,通过TRL实现偏好数据训练,提升模型效果。了解Rafailov等人的直接偏好优化方法,以提升模型性能,提供更精准的结果。
orca_mini_v3_13b - 增强文本生成的Orca与Llama2结合模型
Github开源项目文本生成语言模型模型数据集模型评估Huggingfaceorca_mini_v3_13b
orca_mini_v3_13b项目利用Orca风格数据集和Llama2-13b模型的结合,实现高效文本生成。该模型在多项任务中表现卓越,如AI2推理挑战达到63.14%的准确率,HellaSwag则达到82.35%。此设计在多语言及复杂生成任务中具有显著优势。依照Llama-2的许可证规范使用,保证合规性。
mbart-large-en-ro - mBART微调模型:提升英罗翻译的精度与流畅度
Github开源项目语言模型微调翻译模型HuggingfaceBLEUmbart-large-en-ro
mbart-large-cc25在wmt_en_ro上的微调版提供了出色的翻译性能,未处理时BLEU得分为28.1,经过处理后提升至38。项目基于PyTorch框架,开发者可在Hugging Face平台找到相关代码和文档,是多语言处理的有力工具。
t5-base-japanese - 高效的日语文本转换T5预训练模型
Github开源项目语言模型模型Huggingface迁移学习准确率T5日本语料库
本项目针对日语文本处理,提供了一款预训练的T5模型,该模型利用Wikipedia、OSCAR和CC-100等约100GB的数据进行训练。相比Google多语言T5模型,虽尺寸小25%,但在精度上有所提升,尤其是在livedoor新闻分类任务中表现突出。适用于日语文本高效处理,需关注潜在的偏见和伦理输出问题。
bge-large-zh-v1.5 - 大规模中文预训练向量模型 优化检索性能
Github开源项目语言模型模型Huggingface嵌入模型FlagEmbedding检索增强BGE
bge-large-zh-v1.5是一款先进的中文预训练向量模型。该模型支持长文本输入处理,并整合了密集、稀疏和多向量检索功能。在多语言和跨语言基准测试中,它展现出优异的性能表现。该模型适用于信息检索和语义相似度计算任务,能有效提升大语言模型的检索增强能力。
Stellar-Odyssey-12b-v0.0 - 语言模型合并的先锋工具
Github开源项目语言模型模型transformersHuggingfacemergekit合并模型Stellar Odyssey
Stellar Odyssey 12b v0.0项目使用mergekit和della_linear方法,将Mistral-Nemo-Base-2407与MN-12B系列等多个语言模型成功整合,结合不同模型的特点,提高了性能表现。目前项目处于测试阶段,在此感谢AuriAetherwiing的技术支持。
tiny-random-LlamaForCausalLM - 轻量级随机初始化Llama模型框架
人工智能Github开源项目机器学习语言模型模型HuggingFaceHuggingfaceLlamaForCausalLM
tiny-random-LlamaForCausalLM是一个轻量级的随机初始化Llama模型框架,为快速实验和测试而设计。这个简单框架使开发者能够迅速探索Llama架构,无需进行复杂的预训练。该项目主要面向研究人员和开发者,适用于了解Llama模型结构和进行快速原型设计。
chatglm-6b - 中英双语开源对话模型实现低显存本地部署
Github开源项目开源语言模型AI技术模型Huggingface中英双语ChatGLM-6B
该模型是一个基于 GLM 的中英双语开源对话工具,拥有 62 亿参数,通过量化技术实现低显存要求,适合消费级显卡本地部署。专注于中文问答及对话功能,具有监督微调和人类反馈强化学习功能。升级版提供更高性能和效率,研究者可完全开放使用,而商用需要填问卷。
galactica-1.3b - 基于Transformer的科学应用语言模型探索
Github开源项目模型训练语言模型模型Transformer架构HuggingfaceGALACTICA科学任务
GALACTICA是针对科学任务的Transformer框架模型,支持引文预测、科学问答等。主要供研究者与开发者使用,提供优秀的科学工具制作基础,但需注意潜在幻觉与偏见。
Qwen1.5-7B - 多语言大规模预训练模型支持32K上下文
人工智能Github开源项目文本生成多语言支持语言模型模型HuggingfaceQwen1.5
Qwen1.5-7B是基于Transformer架构的大规模预训练语言模型,作为Qwen2的beta版本,在多个方面实现了显著改进。该模型提供多种规模选择,支持多语言处理,并稳定支持32K上下文长度。相比前代产品,Qwen1.5-7B在Chat模型性能、技术创新和分词器优化等方面都有提升,为自然语言处理和代码生成任务提供了更强大的基础模型。
japanese-stablelm-base-beta-7b - 日本语自然语言处理的7B参数高效模型
Github开源项目自然语言处理语言模型模型HuggingfaceLlama2日语Japanese-StableLM-Base-Beta-7B
该7B参数自回归模型基于Llama-2-7b,经过微调以提升日本语言任务表现。其使用多样的日本语数据集训练,适合各种文本生成任务,并且推理速度优异。提供开放商业用途,适合应用程序的专用调整。
olm-roberta-base-dec-2022 - OLM项目的更新模型,增强了语言任务表现
Github开源项目语言模型BERT模型数据集Huggingface评估结果OLM RoBERTa
OLM项目的OLM RoBERTa/BERT模型于2022年12月更新,提升了在标准基准测试中的表现。该模型利用清理后的Common Crawl和Wikipedia数据集进行训练,适用于掩码语言建模和序列分类等任务,并在GLUE任务中表现出色,提供了详细的使用示例。
NeuralSynthesis-7B-v0.1 - NeuralSynthesis-7B-v0.1在多个基准数据集上展示出卓越的文本生成性能
Github开源项目文本生成语言模型模型Huggingface模型合并NeuralSynthesis-7B-v0.1Leaderboard
NeuralSynthesis-7B-v0.1展示了强大的文本生成能力,结合多种模型优势并通过LazyMergekit合并。在AI2 Reasoning Challenge、HellaSwag、MMLU等任务中取得优异成绩,其在AI2 Reasoning Challenge上的标准化准确率为73.04%、HellaSwag验证集上为89.18%,在TruthfulQA 0-shot任务中达到78.15%的精确度。详细性能及排名可在Open LLM Leaderboard查看。
OLMo-7B - 专注于语言模型科学的开放模型
Github开源项目语言模型模型Huggingface训练数据集模型性能OLMo
OLMo系列模型由Allen Institute for AI开发,旨在推进语言模型科学。该系列模型使用Dolma数据集进行训练,提供诸如OLMo 7B等多种版本及详细的训练检查点和代码支持。这些模型可用于英文学术研究,并可在Hugging Face平台上获取。项目获得哈佛大学、Databricks、AMD等机构支持,并在MMLU测试中显示出明显的性能提升。
opus-mt-en-ru - 开源英俄翻译模型高性能机器翻译
Github开源项目语言模型模型Huggingface机器翻译BLEU评分opus-mt-en-ru英俄翻译
opus-mt-en-ru是一个开源的英语到俄语机器翻译模型,基于transformer-align架构。该模型在newstest2012测试集上达到31.1的BLEU分数,展现出较好的翻译性能。模型使用OPUS数据集训练,采用normalization和SentencePiece进行预处理。此外,该项目还提供了多个测试集的评估结果,便于用户了解模型在不同场景下的表现。
colpali-v1.2 - 基于PaliGemma-3B和ColBERT策略的创新视觉文档检索模型
Github开源项目语言模型文档检索模型多模态HuggingfaceColPali视觉检索
ColPali-v1.2是一种创新的视觉文档检索模型,结合了PaliGemma-3B和ColBERT策略。它通过生成文本和图像的多向量表示,有效提高了检索效率。模型采用混合数据集和LoRA技术进行训练,在英语和非英语文档检索任务中表现出色。ColPali-v1.2主要针对PDF类文档,为文档检索领域提供了新的解决方案。该模型在处理视觉特征和跨语言检索方面具有优势,但在其他类型文档的应用上可能存在局限性。
llama-3-Korean-Bllossom-8B - 基于llama-3的8B参数韩英双语模型Bllossom显著增强韩语能力
Github开源项目语言模型模型Huggingface大规模语言模型Bllossom双语模型韩语增强
llama-3-Korean-Bllossom-8B是一个基于llama-3的韩英双语大型语言模型。通过250GB的韩语预训练和专门的韩语指令微调,该模型显著增强了韩语能力,在LogicKor基准测试中取得了10B以下韩语模型的最佳成绩。模型支持长上下文理解,扩展了3万多个韩语词汇,并应用了人类反馈强化学习。由首尔科技大学、Teddysum和延世大学联合开发,可用于商业用途。
pythia-70m - 促进语言模型可解释性研究的小型模型
Github开源项目自然语言处理机器学习语言模型模型HuggingfaceEleutherAIPythia
Pythia-70m是一个由EleutherAI开发的70M参数小型开源语言模型,旨在促进语言模型可解释性研究。作为Pythia Scaling Suite系列中最小的模型,它使用The Pile数据集训练,提供了大量训练中间检查点。这些检查点有助于研究模型在训练过程中的行为变化。尽管规模较小,Pythia-70m的性能仍可与同等规模的模型相媲美。研究人员可利用该模型探索大型语言模型的内部机制,深化对其工作原理的理解。
TinyLlama_v1.1 - 精简版Llama模型 专注多领域应用
Github开源项目神经网络自然语言处理语言模型预训练模型HuggingfaceTinyLlama
TinyLlama_v1.1是一个基于Llama 2架构的紧凑型语言模型,仅有1.1B参数。通过2万亿token的预训练,该项目开发了三个特定领域的变体:通用型、数学与代码增强型和中文优化型。这些模型旨在为计算资源受限的应用场景提供高效的语言处理解决方案。
llama-3-sqlcoder-8b - 先进的文本到SQL生成模型 支持多种主流数据库
Github开源项目PostgreSQL语言模型模型Huggingface数据库查询SQLCoder文本转SQL
llama-3-sqlcoder-8b是一款专注于文本到SQL生成的开源语言模型,支持PostgreSQL、Redshift和Snowflake等主流数据库。该模型基于Meta-Llama-3-8B-Instruct微调而来,性能堪比顶尖通用模型。它能够根据自然语言问题生成精准的SQL查询,为数据分析和管理提供便利。模型采用CC-by-SA-4.0许可证,由Defog公司开发。为获得最佳效果,建议将温度参数设为0,并禁用采样。
chronos-t5-base - T5架构驱动的时间序列预测基础模型
Github开源项目语言模型模型时间序列预测HuggingfaceChronos概率预测T5架构
Chronos-T5-Base是一个基于T5架构的时间序列预测基础模型,拥有2亿参数。该模型将时间序列数据转化为token序列,并通过交叉熵损失函数进行训练。通过采样多个可能的未来轨迹,Chronos-T5-Base能够生成概率预测结果。模型在大量公开时间序列数据和合成数据上训练,适用于多种时间序列预测场景,为研究人员和开发者提供了一个强大的预训练工具。
pythia-410m-deduped - 专为语言模型可解释性研究设计的先进工具
人工智能Github开源项目自然语言处理机器学习语言模型模型HuggingfacePythia
Pythia-410M-deduped是EleutherAI开发的语言模型系列之一,旨在推动可解释性研究。该模型在去重后的Pile数据集上训练,拥有3亿多参数,24层结构和1024维度。它提供多个训练检查点,便于研究模型行为和局限性。Pythia-410M-deduped使用Apache 2.0许可,主要面向科学研究,不适合直接部署应用。
TinyLlama-1.1B-Chat-v0.6 - 基于Llama 2架构的轻量级开源聊天模型
人工智能Github开源项目语言模型聊天机器人预训练模型HuggingfaceTinyLlama
TinyLlama-1.1B-Chat-v0.6是基于Llama 2架构的轻量级开源聊天模型。该模型在3万亿个token上预训练,仅有11亿参数,可与多种Llama项目兼容。它利用UltraChat数据集微调,并通过DPOTrainer在UltraFeedback数据集上对齐,平衡了性能和灵活性。TinyLlama适用于计算和内存资源受限的应用场景,为开发者提供了高效的集成选择。
Midnight-Rose-70B-v2.0.3 - 融合模型在文本生成和NLP任务中的应用
人工智能Github开源项目深度学习自然语言处理语言模型模型HuggingfaceMidnight-Rose-70B-v2.0.3
Midnight-Rose-70B-v2.0.3是一个基于Llama 2的大规模语言模型融合项目。该模型在AI2推理挑战、HellaSwag和MMLU等多项基准测试中表现优异,展现了强大的文本生成、常识推理和知识应用能力。Midnight-Rose特别适合角色扮演和讲故事等创意任务,同时在其他自然语言处理任务中也有良好表现。模型支持6144个token的上下文长度,并提供多种量化版本以适应不同应用场景。
ATTACK-BERT - ATT&CK BERT网络安全语义分析模型
Github开源项目语言模型模型网络安全Huggingface句子嵌入语义相似度ATT&CK BERT
ATT&CK BERT是一个专门针对网络安全领域的语言模型,基于sentence-transformers框架开发。该模型能够将描述攻击行为的句子转化为语义嵌入向量,有效分析句子间的语义相似度。ATT&CK BERT通过sentence-transformers库实现简单部署,还可与SMET工具配合使用,实现文本到ATT&CK技术的映射,为网络安全分析提供有力支持。
opus-mt-en-jap - 英日神经机器翻译模型:基于OPUS数据集的高效翻译工具
Github开源项目语言模型模型Huggingface机器翻译英日翻译BLEU评分opus-mt-en-jap
opus-mt-en-jap是一个基于transformer架构的英日神经机器翻译模型。该模型在OPUS数据集上训练,采用SentencePiece进行预处理。在bible-uedin测试集上,模型获得了42.1的BLEU分数和0.960的chr-F分数,显示出优秀的翻译能力。这一开源项目为需要进行英日文本转换的研究人员和开发者提供了实用的工具,适用于文献翻译、跨语言交流等领域。作为高效的机器翻译和英日翻译工具,它为用户提供了强大的语言转换支持。
Yi-1.5-34B-Chat-16K - 开源语言模型在多项基准测试中表现出色
人工智能Github开源项目深度学习语言模型模型HuggingfaceYi-1.5
Yi-1.5是Yi系列的升级版本,经过5000亿高质量语料预训练和300万多样化样本微调。与前代相比,Yi-1.5在编码、数学、推理和指令遵循方面有显著提升,同时保持了优秀的语言理解、常识推理和阅读理解能力。Yi-1.5-34B-Chat模型在多项基准测试中媲美甚至超越了一些更大的模型,9B和6B版本在同等规模开源模型中也表现出色。项目提供多个预训练和对话模型版本可供下载使用。
opt-1.3b - Meta AI开发的开源预训练Transformer语言模型系列
人工智能Github开源项目预训练模型自然语言处理语言模型模型HuggingfaceOPT
OPT是Meta AI开发的开源预训练Transformer语言模型系列,包含125M至175B参数的多个版本。采用先进数据收集和训练方法,性能可媲美GPT-3。该项目旨在推动大规模语言模型的可复现研究,让更多研究者参与探讨其影响。OPT主要应用于文本生成和下游任务微调,但仍存在偏见等局限性。
Jamba-v0.1 - 混合SSM-Transformer架构的高性能大语言模型
Github开源项目深度学习人工智能模型语言模型模型HuggingfaceJamba混合SSM-Transformer
Jamba-v0.1是一款创新的混合SSM-Transformer大语言模型,拥有12B活跃参数和52B总参数。它不仅提供了更高的吞吐量,还在多数常见基准测试中表现优异。该模型支持256K上下文长度,单个80GB GPU可处理多达140K个标记。作为首个生产规模的Mamba实现,Jamba为AI研究和应用开辟了广阔前景。
pythia-70m-deduped - 促进语言模型可解释性的研究工具
人工智能Github开源项目自然语言处理机器学习语言模型模型HuggingfacePythia
Pythia-70m-deduped是Pythia模型套件中的一个7000万参数的语言模型,由EleutherAI开发。该模型在去重的Pile数据集上训练,提供154个训练检查点,便于研究模型在不同阶段的行为。尽管主要用于可解释性研究,Pythia-70m-deduped在下游任务上的表现也与同等规模模型相当。基于Transformer架构,这个模型为语言建模实验和分析提供了理想的研究平台。
bert-base - KLUE BERT base为韩语自然语言处理提供强大支持
Github开源项目自然语言处理语言模型BERT模型Huggingface韩语KLUE
KLUE BERT base是一个专门针对韩语自然语言处理任务的预训练模型。它基于62GB多样化韩语语料库训练,采用创新的形态素子词分词技术。在KLUE基准测试中,该模型在主题分类、语义相似度和命名实体识别等多项任务上展现出优异性能。此外,研究团队也注重解决数据偏见和隐私保护问题,为韩语NLP领域提供了重要工具。
StableBeluga2 - Stability AI推出的大规模开源对话模型StableBeluga2
人工智能Github开源项目模型训练语言模型模型HuggingfaceLlama2Stable Beluga 2
StableBeluga2是Stability AI基于Llama2 70B模型微调的开源对话系统。该模型在Orca式数据集上训练,具备优秀的指令理解和执行能力。StableBeluga2支持多轮对话,可生成诗歌等创意内容。技术上,它采用bfloat16格式存储权重并使用Safetensors,实现了更小的文件体积和更快的加载速度。作为一个强大的AI助手,StableBeluga2在保持高性能的同时优化了资源占用。
phi-1_5 - 13亿参数的语言模型展现卓越性能
人工智能Github开源项目自然语言处理语言模型Transformer模型HuggingfacePhi-1.5
Phi-1.5是微软开发的13亿参数Transformer语言模型,在10亿参数以下模型中展现近乎最先进的性能。它未经指令微调,主要用于研究语言模型的安全性和改进。该模型支持多种任务,包括文本生成和代码编写,适用于问答、聊天和编程场景。然而,用户应注意其输出可能存在偏见或不准确,仅供研究参考。
RWKV-Runner - 一款全自动化轻量级RWKV管理和启动工具并提供与OpenAI API兼容的接口
Github开源项目OpenAI API自动化语言模型部署RWKV Runner
RWKV-Runner项目通过一个轻量级的可执行程序,简化了大型语言模型的使用,并提供与OpenAI API兼容的接口,使每个ChatGPT客户端都能作为RWKV客户端使用。项目支持多语言本地化,提供用户友好界面,自动安装依赖,包含一键启动、模型管理、前后端分离等功能。支持多级VRAM配置和CUDA加速,适用于大多数计算机。提供简单的部署示例、内置模型转换工具和远程模型检查功能。