#语言模型
opus-mt-en-sv - 基于Transformer的英瑞双语神经机器翻译模型
语言模型opus-mt-en-svHuggingface开源项目模型BLEU评分机器翻译Githubtransformer
opus-mt-en-sv是一个开源的英语到瑞典语机器翻译模型,基于Transformer架构开发。该模型在Tatoeba测试集上实现60.1的BLEU分数和0.736的chr-F分数,展示了优秀的翻译质量。模型训练采用OPUS数据集,并应用normalization和SentencePiece进行预处理,旨在提供准确的英瑞双语文本转换。
dolly-v2-3b - Databricks发布开源指令微调语言模型支持商业使用
语言模型Huggingface模型指令微调开源DollyDatabricksGithub开源项目
Dolly-v2-3b是Databricks开发的开源指令微调语言模型,基于Pythia-2.8b构建,拥有28亿参数。该模型使用约15,000条指令/回复数据进行训练,涵盖头脑风暴、分类、问答等多个领域。尽管不是最先进模型,但在指令遵循方面表现优异。Dolly-v2-3b采用MIT许可证,支持商业使用,可通过Transformers库轻松部署。
Meta-Llama-3.1-8B - Unsloth技术加速大语言模型微调并显著降低资源消耗
语言模型Unsloth性能优化Huggingface模型Github开源项目微调
Meta-Llama-3.1-8B项目采用Unsloth技术优化大语言模型微调过程。该技术可将Llama 3.1、Gemma 2和Mistral等模型的微调速度提升2-5倍,同时减少70%的内存占用。项目提供多个免费Google Colab笔记本,支持Llama-3 8b、Gemma 7b和Mistral 7b等主流模型的快速微调。这些笔记本设计简单直观,初学者只需添加数据集并运行,即可获得性能显著提升的模型。
Llama-3-Instruct-8B-SPPO-Iter2 - 通过自我博弈偏好优化实现语言模型对齐
Self-Play Preference Optimization模型调优Huggingface训练参数Github开源项目模型合成数据集语言模型
该模型在第二轮自我博弈偏好优化中,通过在合成数据集上的微调实现性能提升。基于Meta-Llama-3-8B-Instruct架构,该过程从openbmb/UltraFeedback数据集中提取提示集,并通过snorkelai/Snorkel-Mistral-PairRM-DPO数据集进行三次迭代以提高生成响应的质量。在AlpacaEval和Open LLM排行榜上,该模型在语言理解和推理任务中表现出更优胜率和准确度。
TinySapBERT-from-TinyPubMedBERT-v1.0 - 微型生物医学实体表示模型TinySapBERT
语言模型模型生物医学实体表示KAZU框架GithubTinyPubMedBERTHuggingface开源项目TinySapBERT
TinySapBERT是一个微型生物医学实体表示模型,基于TinyPubMedBERT和SapBERT方法开发。作为KAZU框架的组成部分,它为生物医学命名实体识别提供高效解决方案。该模型旨在提升生物医学文本分析任务的性能,为研究人员提供有力工具。
opus-mt-en-gl - 英语到加利西亚语机器翻译模型 基于OPUS数据集
语言模型模型opus-mt-en-gl机器翻译BLEU评分Github开源项目Huggingface数据集
opus-mt-en-gl是一个开源的英语到加利西亚语机器翻译模型。该模型采用transformer-align架构,基于OPUS数据集训练,使用normalization和SentencePiece进行预处理。在Tatoeba测试集上,模型达到36.4的BLEU得分和0.572的chr-F值,表现出较好的翻译质量。这个模型为英语到加利西亚语的翻译任务提供了一个有效的工具。
gemma-1.1-2b-it - Google推出的轻量级开源语言模型
模型Github开源项目语言模型Huggingface机器学习Gemma自然语言处理人工智能
Gemma-1.1-2b-it是Google开发的轻量级开源语言模型,基于Gemini技术。这一2B参数模型在文本生成、问答、摘要和推理等任务上表现出色。其小巧的体积使其适合在笔记本电脑或个人云等资源受限环境中部署。作为Gemma系列的最新指令微调版本,该模型在质量、编码能力、事实性和指令跟随等方面均有显著提升。
Llama-3-KoEn-8B-Instruct-preview - 基于Chat Vector技术的Llama-3-8B语言模型在多语言生成中的应用
语言模型pytorchLlama-3TRC计划生成模型Github模型开源项目Huggingface
Llama-3-KoEn-8B-Instruct-preview项目是基于TPUv4-256的继续预训练语言模型,结合Chat Vector技术。尽管尚未对韩语指令集进行微调,但为新型聊天和指令模型的开发提供了重要基础。项目中包括详细的示例代码,展示了该模型在文本封装和生成方面的能力,适合需要深入语义生成和自然语言处理的开发者。
pythia-1.4b-deduped-v0 - 开源语言模型套件助力可解释性研究
语言模型EleutherAIHuggingface模型机器学习PythiaGithub开源项目自然语言处理
Pythia-1.4B-deduped是EleutherAI推出的开源语言模型,旨在推动AI可解释性研究。该模型在去重后的Pile数据集上训练,提供143个均匀分布的检查点,便于研究人员分析模型训练过程。虽然不以下游任务性能为主要目标,Pythia-1.4B-deduped在多项评估中仍表现出色,与同规模模型相当或更优。模型采用Apache 2.0许可,可用于进一步研究、微调和部署。
Breeze-7B-Instruct-v1_0 - 增强繁体中文处理能力,提高语言模型性能
开源项目模型GithubHuggingface文本生成MediaTek传统中文Breeze-7B语言模型
Breeze-7B-Instruct-v1_0 是MediaTek Research开发的语言模型,专为繁体中文应用而设计。基于Breeze-7B-Base的演进,支持问答、多轮对话和文本摘要等任务。其在繁体中文及英语的测试中表现优越,相较于同类开源模型有显著提升。Breeze-7B通过词汇扩展和高效推理性能,在繁体中文任务中展现优势。v1.0版本经过精细化训练,提供高效准确的语言处理。
Hermes-3-Llama-3.1-8B-GGUF - 新一代高性能开源语言模型的量化版本
模型函数调用Github开源项目语言模型HuggingfaceHermes 3人工智能JSON模式
Hermes-3-Llama-3.1-8B-GGUF是Nous Research开发的Hermes系列语言模型最新版本的量化版本。这个通用型模型在代理能力、角色扮演、推理、多轮对话和长上下文理解方面有显著提升。它采用ChatML作为提示格式,支持函数调用和结构化输出,并在多项基准测试中表现优异。研究者和开发者可以通过HuggingFace Transformers或vLLM框架便捷地使用该模型。
OLMo-1B-0724-hf - Dolma数据集驱动的英语语言模型在性能上的进步
机器学习Github模型开源项目语言模型OLMoHuggingface训练数据Dolma
OLMo 1B July 2024版本采用Dolma数据集,显著提高了HellaSwag等任务的评估表现。兼容HuggingFace Transformers v4.40及以上版本,由Allen Institute for AI开发,提供完整的代码、检查点及训练日志,支持实现文本生成与模型微调。在ARC挑战、BoolQ和HellaSwag等自然语言处理任务中表现出色,适用于研究人员和开发者在语言模型科学领域的进一步探索。
prometheus-7b-v2.0 - 用于语言模型评估的开源工具与反馈优化
权重合并绝对评分Prometheus 2HuggingfaceGithub开源项目模型相对评分语言模型
Prometheus 2 是一款基于 Mistral-Instruct 的开源语言模型,通过细粒度评估替代 GPT-4 的某些功能。它通过反馈数据微调,支持直接和相对评价。权重合并提升性能,且通过人类反馈优化强化学习模型,适用于多领域评估任务。
Gemma-2-9B-Chinese-Chat - 首个专为中英文用户优化的指令调优模型
HuggingfaceGemma-2-9B-Chinese-ChatGithub开源项目模型中文学习工具使用语言模型roleplaying
Gemma-2-9B-Chinese-Chat是基于Google Gemma-2-9b-it的指令调优语言模型,适用于中文和英文用户。通过ORPO优化算法和10万对偏好数据进行微调,提升了角色扮演、工具使用等能力,减少中文提问英文回答的问题,改善中英文混杂现象。该模型支持多种场景应用,如模拟对话、数学运算、文字创作等,并提供GGUF文件和ollama模型的下载与使用,以及于Hugging Face存储库的下载和在线演示。
open-calm-small - 高效日语Transformer模型,探索OpenCALM-Small的关键特性
CyberAgent日本语GPT-NeoXHuggingfaceGithub开源项目模型OpenCALM语言模型
OpenCALM-Small是由CyberAgent, Inc.开发的小型日语语言模型,以160M参数提供高效的语言生成。基于Transformer架构,它在开源库GPT-NeoX上运行,并支持多样化的生成配置。该模型使用来自日本维基百科和常见抓取数据的精选训练数据集,为高质量日语内容生成奠定基础,是开发者处理日语自然语言任务的理想选择之一。
pythia-2.8b-deduped - 提升语言模型的解释力与科学研究
Pythia训练数据开源项目Apache许可证EleutherAI模型语言模型HuggingfaceGithub
Pythia Scaling Suite促进语言模型的解释性研究,其模型通过在去重后的The Pile数据集上的统一流程训练,涵盖从70M到12B多种规模。提供丰富的训练与评估细节,对比显示同类模型的优劣。适合于学术探索,但不应用于实际环境。
Ministral-3b-instruct-GGUF - 更高效的量化语言模型,为文本生成带来显著性能提升
开源项目NLP模型语言模型Apache 2.0Huggingfacetransformers模型量化Github
Ministral-3b-instruct-GGUF是一个基于llama.cpp的高效量化模型,专为Ministral系列的3B参数设计优化,并从Mistral-7B进行微调。它使用混合数据集,主要用于英语文本生成。通过量化技术,该模型在保持精度的同时,显著减少了存储和计算需求,理想应用于高效文本生成场景。项目遵循Apache 2.0许可协议,以确保合规使用。
mamba-2.8b-hf - Mamba-2.8b-hf的transformers兼容性与使用指南
生成API开源项目fine-tuning模型语言模型HuggingfacetransformersMambaGithub
Mamba-2.8b-hf是一个与transformers框架兼容的大规模语言模型。为充分发挥模型功能,需安装特定版本的transformers库,并且安装causal-conv1d和mamba-ssm以利用优化的CUDA内核实现更高效的计算。Mamba支持经典的generate方法进行文本生成,并提供定制的PEFT微调示例,建议使用float32格式进行微调,以更好地支持复杂的自然语言处理任务。
switch-base-128 - 探索语言模型优化与参数缩放的最新进展
语言模型Github开源项目专家混合专家HuggingfaceSwitch Transformers蒙面语言建模模型
Switch Transformers采用专家混合(MoE)模型架构,针对掩码语言模型(MLM)任务进行训练。该模型使用稀疏多层感知器层取代传统的前馈层,提升了训练效率。在Colossal Clean Crawled Corpus上完成了高达万亿参数的预训练,表现出优于T5的微调效果,并实现了相较于T5-XXL模型的四倍加速,适合需要高效语言模型的应用。
codet5-large - 支持多编程语言的代码理解与生成大模型
代码生成CodeT5CodeSearchNetHuggingfaceGithub开源项目模型深度强化学习语言模型
CodeT5-large预训练模型支持多语言代码处理,并在CodeXGLUE基准中展示了卓越的性能。
zephyr-7b-alpha - 基于Mistral-7B微调的对话型语言模型
语言模型ZephyrHuggingface模型深度学习人工智能Github开源项目微调
zephyr-7b-alpha是基于Mistral-7B-v0.1微调的语言模型,通过直接偏好优化(DPO)在合成数据集上训练。主要用于英语对话,能生成友好的回复,但可能产生有争议的内容。模型可通过Hugging Face的pipeline轻松使用,适合各种文本生成任务。
camembert-L4 - 精简版法语BERT模型,支持文本分类和语义搜索
Huggingface特征提取开源项目模型CamemBERT-L4Github语义搜索语言模型文本分类
CamemBERT-L4是CamemBERT模型的精简版本,通过裁剪顶部层次来提高性能。适合在文本分类、抽取式问答、语义搜索等领域进行微调,用于决策的完整句子任务,而非文本生成。支持掩码语言建模(MLM)与文本特征提取,模型参数和大小均有减少,提升了处理效率,同时保持其重要功能。
controlnet-sd21-depth-diffusers - 控制稳定扩散与艺术生成的革新选择
diffusersStable Diffusion控制网HuggingfaceGithub开源项目模型艺术语言模型
controlnet-sd21-depth-diffusers 是稳定扩散2.1模型的初始版本,着重结合深度与艺术。这一模型在laion-art子集上训练,通过使用diffusers技术,提高了图像生成的控制能力。适合研究图像生成技术和艺术的用户,强调使用上的道德考量。感谢ControlNet和脚本转换贡献者的支持,确保功能实现的高质量与灵活性。
sarashina2-7b - 该语言模型支持多语言文本生成,涵盖日语与英语
Sarashina2-7B语言模型句子分割器训练数据模型Github开源项目文本生成Huggingface
该项目的语言模型由SB Intuitions开发,支持日语和英语文本生成。训练数据来自清理后的Common Crawl和SlimPajama语料库,结合了Llama2架构和RoPE位置编码。尽管模型尚未经过指令微调,存在生成不准确或有偏见内容的可能性,但模型的基础能力为开发者提供了进一步优化和安全改进的空间。
Qwen1.5-110B-Chat - 多语言模型与人类偏好优化的显著提升
HuggingfaceQwen1.5开源项目模型多语言支持Hugging FaceGithub语言模型Transformer架构
Qwen1.5是Qwen2的测试版,提供多语言支持和32K上下文长度的稳定性,并通过大规模数据预训练和偏好优化,大幅提高了对话模型的人类偏好表现。项目涵盖多种模型尺寸,包括最大110B和MoE架构的14B模型,基于Transformer技术,使用SwiGLU激活和组查询注意,提供强大的文本生成与灵活定制功能。
CodeQwen1.5-7B-Chat-GGUF - 支持92种编程语言的强大代码生成模型
CodeQwen1.5长上下文开源项目代码生成模型Github多语言支持Huggingface语言模型
CodeQwen1.5是一个基于transformer的语言模型,专注于代码生成。它支持92种编程语言,并能处理长达64K标记的上下文,适用于文本到SQL转换和错误修正。
chronos-t5-mini - 开源时间序列预测模型实现高效概率预测
时间序列预测语言模型Chronos-T5开源项目模型预训练模型概率预测GithubHuggingface
Chronos-T5-Mini是基于T5架构开发的时间序列预测模型,参数规模为2000万。模型通过将时间序列转换为token序列进行训练,采用多轨迹采样方式实现概率预测。模型在公开时间序列数据集和高斯过程生成的合成数据上完成预训练,采用4096大小的词汇表,相比原始T5模型显著降低了参数量同时保持了预测性能。
japanese-gpt-neox-3.6b - 基于GPT-NeoX架构的36亿参数日语大语言模型
GPT-NeoX日语预训练语言模型Github深度学习模型自然语言处理Huggingface开源项目
japanese-gpt-neox-3.6b是一个基于GPT-NeoX架构的日语大语言模型,拥有36亿参数。该模型在超过3125亿个日语语料库tokens上训练,包括CC-100、C4和维基百科数据。模型采用36层、2816隐藏层的transformer架构,验证困惑度为8.68。使用sentencepiece分词器,词表大小32,000,支持UTF-8字节分解。模型已开源并提供训练数据和使用文档。
chronos-t5-small - T5架构预训练时间序列模型 实现概率性多轨迹预测
语言模型Chronos-T5时间序列预测预训练模型模型Github概率预测开源项目Huggingface
Chronos-t5-small是一个基于T5架构的预训练时间序列预测模型,参数量为4600万。该模型将时间序列转换为token序列进行训练,可生成多个未来轨迹的概率性预测。模型训练数据包括公开数据集和高斯过程生成的合成数据。它支持GPU加速和bfloat16精度,适用于多种时间序列预测场景。与原始T5模型相比,Chronos-t5-small采用更小的词汇表(4096个token),提高了计算效率。
Arabic-Orpo-Llama-3-8B-Instruct - 优化Meta-Llama-3模型在阿拉伯语文本生成中的表现
Huggingface阿拉伯语文本生成llama3开源项目模型Github语言模型评估结果
本项目利用ORPO技术对Meta-Llama-3-8B-Instruct模型进行了微调,旨在提升其生成阿拉伯语文本的准确性和连贯性。虽然基准测试结果显示基模型略有优势,但经过微调的模型在实际应用中生成的阿拉伯语文本质量更高。训练数据来自2A2I/argilla-dpo-mix-7k-arabic数据集,并通过lighteval工具进行评估,旨在增强英文模型在阿拉伯语言环境下的适应能力。
Vikhr-Nemo-12B-Instruct-R-21-09-24 - 全新升级的俄英双语大语言模型 内置RAG检索增强功能
RAG技术语言模型人工智能模型GithubVikhr-Nemo机器学习开源项目Huggingface
Vikhr-Nemo-12B-Instruct-R是一个基于Mistral-Nemo的开源语言模型,针对俄语和英语进行了深度优化。模型通过SFT和SMPO方法训练,具备推理分析、文本生成、代码编写等多项能力。其特色在于支持RAG检索增强和128K长文本处理,在俄语基准测试中接近gpt-4o-mini水平。该项目完全开源,包含训练代码和数据集。
DialoGPT-medium-elon-2 - 模仿马斯克语言风格的DialoGPT对话模型
语言模型开源项目模型DialoGPTElon Musk人工智能对话TwitterGithubHuggingface
DialoGPT-medium-elon-2是一个经过8轮优化训练的对话模型,采用Elon Musk的Twitter数据集进行训练。相比首个版本的4轮训练,新版本在对话质量上有所提升,但仍存在约40%的输出内容可能不够连贯。该模型主要用于模拟马斯克的语言特点和表达方式。
opus-mt-tc-big-sh-en - 高效多语言神经机器翻译模型,支持塞尔维亚-克罗地亚语到英语的翻译
语言模型开源项目机器翻译模型OPUS-MTMarian NMTGithub文本翻译Huggingface
opus-mt-tc-big-sh-en是OPUS-MT项目开发的神经机器翻译模型,专门用于塞尔维亚-克罗地亚语(sh)到英语(en)的翻译。该模型采用Marian NMT框架训练,并转换为PyTorch格式以便于使用。在多个基准测试中,模型展现了优秀的性能,BLEU评分范围从37.1到66.5不等,证明了其在不同测试集上的翻译能力。作为OPUS-MT项目的一部分,该模型旨在为全球多语言翻译需求提供高质量、易用的解决方案。
Qwen2-72B-Instruct-GPTQ-Int4 - 提升多语言处理能力,支持超长文本输入
生成能力语言模型Github多语言功能开源项目长文本处理Qwen2-72B-Instruct-GPTQ-Int4Huggingface模型
Qwen2-72B-Instruct-GPTQ-Int4基于Transformer架构,支持多语言生成和理解,具备长达131,072个标记的处理能力。多专家模型设计增强了在语言生成、代码编写及数学推理方面的表现。提供详细的模型部署指导,利用YARN技术提升长文本处理性能。量化模型基准测试和速度对比数据可协助开发者优化深度学习应用。更多信息和更新请参阅相关博客及文档。
opus-mt-en-et - 英语至爱沙尼亚语神经机器翻译模型
opus-mt模型评估Github语言模型Huggingface数据集开源项目模型机器翻译
该英语至爱沙尼亚语(en-et)翻译模型基于transformer-align架构构建,使用OPUS数据集训练。模型采用normalization和SentencePiece预处理技术,在Tatoeba、newsdev2018和newstest2018等测试集上分别获得了54.0、21.8和23.3的BLEU评分。模型提供预训练权重及相关评估数据下载。
safety-flan-t5-base - 开源对话内容安全评估模型FLAN-T5
Pytorch机器学习FLAN-T5语言模型Github自然语言处理Huggingface开源项目模型
safety-flan-t5-base是FLAN-T5架构下的内容安全评估模型,主要用于分析对话文本中的潜在风险。模型通过对输入内容进行安全性判断,识别不当或有害信息。基于PyTorch开发,提供标准API接口,可集成于对话系统实现内容审核功能。
相关文章
prometheus-eval学习资料汇总 - 专用于评估语言模型的开源框架
2 个月前
AIlice入门指南 - 全方位自主AI助手
2 个月前
LLM-Shearing:加速大语言模型预训练的结构化剪枝方法 - 学习资料汇总
2 个月前
ReLLM学习资料汇总 - 使用正则表达式提取LLM结构化输出的Python库
2 个月前
makeMoE入门指南 - 从零实现稀疏混合专家语言模型
2 个月前
Multimodal-GPT入门学习资料 - 训练视觉语言对话模型的开源项目
2 个月前
Awesome-Prompt-Engineering学习资料汇总 - 提升大语言模型提示工程能力的一站式资源
2 个月前
KAN-GPT入门学习资料汇总 - 基于Kolmogorov-Arnold网络的GPT实现
2 个月前
Local-LLM-Comparison-Colab-UI入门指南 - 比较本地部署LLM性能的开源项目
2 个月前