#模型训练

pythia-160m-deduped - 基于Pile数据集训练的160M参数语言模型
大语言模型可解释性研究Github开源项目自然语言处理Huggingface模型训练Pythia模型
Pythia-160M-deduped是一个经过去重Pile数据集训练的语言模型,总参数量为1.62亿。模型提供154个训练检查点,性能可与同规模的OPT和GPT-Neo相媲美。该项目主要面向语言模型可解释性研究,采用Apache 2.0协议开源,适合学术研究使用。
kosmos-2.5 - 文本密集型图像处理的多模态模型
模型训练文档转换Kosmos-2.5文本识别HuggingfaceGithub开源项目多模态模型
Kosmos-2.5 是一个专注于文本密集型图像的多模态识别模型,采用自回归Transformer架构,能够生成带有空间坐标的文本块和Markdown格式的文本输出。其设计允许通过不同的任务提示进行微调,适应多种应用场景。
Phi-3.5-mini-instruct-GGUF - 多语言轻量级模型,优化高效推理和准确性
模型训练自然语言处理开源项目模型Github量子化HuggingfacePhi 3.5 Mini数据优化
Phi-3.5-mini是microsoft推出的多语言开放型模型,专注于高质量推理数据,支持128K上下文标记长度。经过监督微调、近端策略优化和直接偏好优化,该模型确保严格的指令遵循和安全性。采用多种量化方法(从Q2到Q8及f16),满足多样硬件需求,适用于广泛的自然语言处理和代码任务,由SanctumAI进行量化。
CodeLlama-70b-Instruct-hf - 深入探讨CodeLlama-70B模型的代码生成和应用场景
MetaGithub开源项目模型Code LlamaInstructHuggingface模型训练代码生成
CodeLlama-70B由Meta开发,是针对代码生成和理解的语言模型。此模型通过预训练和微调,特别适合一般代码合成和指令遵循,具备更安全的部署特性。本页面为开发者提供了详细的安装指南、使用示例及模型架构信息,以便于代码建议和生成的实现。
bitnet_b1_58-3B - 开源的RedPajama语言模型再现
Huggingface结果评估RedPajama开源项目模型GithubBitNet开源模型训练
该项目再现了BitNet b1.58的研究,通过使用RedPajama数据集训练100B个token,实现了两阶段学习率和权重衰减。模型代码可在开源平台获取。初步结果表明,模型在PPL和零样本准确率方面表现优异,计划在资源允许时进一步扩大训练规模和模型容量。
pythia-6.9b-deduped - 面向大规模语言模型研究的开源模型系列
数据集去重Huggingface语言模型模型训练科学研究Pythia模型Github开源项目
Pythia-6.9b-deduped为可解释性研究提供了一套8种大小的模型,每种大小有去重和未去重版本。该模型在性能上可与同类模型媲美,统一的训练方法推动科学研究,并提供154个中间检查点供研究使用
T0_3B - 小规模T0模型超越GPT-3,进行零样本自然语言任务处理
偏见与公平性模型训练开源项目自然语言处理评估数据模型T0HuggingfaceGithub
T0*模型通过自然语言提示实现零样本任务泛化,性能超越GPT-3,且模型体积缩小至16分之一。该模型在多任务提示数据集中微调,能够针对未见任务做出高效预测。适用于多种推理场景,包括情感分析、句子重排列和词义判断等。其训练数据源自多个数据集并经过严谨评估,保障模型性能可靠性。虽然T0*模型参数较大,但通过优化和并行化方案能够有效应用于多GPU环境。
stories15M_MOE - TinyLLama多专家模型实现故事生成和Shakespeare风格文本
模型训练开源项目模型HuggingfaceMOE模型文本生成TinyLLamaGithub莎士比亚
stories15M_MOE是一个实验性语言模型,由4个TinyLLama-15M专家模型组成,主要用于故事生成测试。模型包含一个经Shakespeare作品训练的LoRA适配器,可生成Shakespeare风格文本。尽管规模较小,但在特定领域文本生成方面展现了潜力,适合开发简单的故事讲述应用。当前阶段主要用于测试和研究,不推荐在生产环境中使用。
pegasus-multi_news - 优化文本摘要生成:采用混合数据集和随机抽样
模型训练开源项目模型抽象总结Pegasus混合和随机检查点Huggingface重要句Github
该项目旨在提高文本摘要生成性能,通过混合C4和HugeNews数据集,以及随机抽样技术进行更有效的模型训练。训练过程中使用1.5M步数以增强预训练收敛性,均匀抽样15%到45%间的句间间隔,同时对重要句子施加20%随机扰动。更新后的sentencepiece tokenizer支持换行符编码,提升数据处理精度,展现了多领域数据集上的性能改进。
llama2_esci_v1 - 针对ESCI查询,利用Llama2进行微调提升产品关联度
Github模型transformers模型训练开源项目ESCI任务Huggingface模型微调Llama2
Llama2的微调用于优化ESCI查询与产品的相关性,项目通过深度学习模型增进查询与产品的理解,提升搜索结果的精确性与关联度。
bitnet_b1_58-xl - 概述BitNet b1.58模型的再现性和性能
开源模型训练BitNet评估模型Github开源项目数据集Huggingface
BitNet b1.58模型使用RedPajama数据集进行训练,涵盖100B个令牌,重点研究超参数调节与两阶段学习率及权重衰减的优化。在不同参数下测评PPL和零样本准确率,揭示出因数据处理等随机因素导致的再现性细微差异。模型在Huggingface平台开源,配套评价方法简化效能验证。
LaMini-Flan-T5-783M - 增强自然语言处理能力的多样化指令微调模型
模型评估模型训练技术规格指令微调LaMini-Flan-T5-783M模型Github开源项目Huggingface
LaMini-Flan-T5-783M是一款基于LaMini-instruction数据集微调的自然语言处理模型,源于google/flan-t5-large。该模型利用2.58M样本进行训练,展示出卓越的语言生成和理解能力,适用于多种自然语言处理任务。用户可通过HuggingFace的pipeline功能便捷使用,本系列其他模型在不同参数规模下提供最佳性能,满足多样化的技术需求。
gpt2-lora-random - GPT2模型LoRA微调框架 提升语言模型性能的开源项目
peft机器学习Github开源项目Huggingface深度学习框架模型训练gpt2模型
gpt2-lora-random项目利用PEFT框架实现GPT2模型的LoRA微调。通过Low-Rank Adaptation技术,该项目降低了模型训练的资源需求和参数量。它为开发者提供了一个用于自然语言处理任务优化的灵活框架。项目文档涵盖了模型训练流程和环境影响评估指南,适合研究人员和工程师使用。
RealVisXL_V4.0_Lightning - 探索新一代现实风图像生成技术
MageGithubCivitAI开源项目模型Huggingface模型训练图像生成真实感
模型正在不断优化中,专注于生成逼真的高质量图像,包括SFW和NSFW内容。模型现阶段尚未定型,可能存在一定的制约。建议用户采用特定的负提示词和生成参数以提升效果。该工具支持多种采样方法和高分辨率增强,现已上线于Mage.Space。有关详细说明可以访问CivitAI,实时更新和支持则通过Boosty获得。
quora-distilroberta-base - 客观识别Quora问题重复性的开源模型
HuggingfaceCross-Encoder相似性检测开源项目模型Quora Duplicate QuestionsGithubQuora数据集模型训练
该模型基于SentenceTransformers的Cross-Encoder类进行训练,旨在用于检测Quora问题的重复性。通过比较成对问题,模型将输出0到1之间的分数以判断问题是否重复。需注意,该模型不适合判断问题相似度,如“如何学习Java”和“如何学习Python”将获得较低分。用户可以通过sentence_transformers或Transformers的AutoModel类使用此预训练模型。
lt-wikidata-comp-en - 高级模型,简化实体匹配与数据链接
数据清洗Github开源项目句子相似度语料库Huggingface模型训练LinkTransformer模型
LinkTransformer模型提供了一种简便的方法来实现实体匹配与链接任务,如聚类、去重和数据链接。模型使用微调后的句子转换器技术,将文本转换为稠密向量,适用于语义搜索等任务。通过安装LinkTransformer,用户可以在数据框架中轻松实现公司名称匹配,并获得相似度分数。该模型支持自定义训练,并提供详细的使用说明。
t5-base-grammar-correction - 自动化语法纠正,通过T5模型提升文本准确性
模型训练Happy Transformer开源项目语法校正模型HuggingfaceJFLEGGithubT5
项目利用T5模型和Happy Transformer工具,通过JFLEG数据集训练以纠正文本语法错误,提升整体文本质量。使用方式为安装Happy Transformer库,并加载T5模型,通过Python代码实现语法纠正。输入文本时加上前缀'grammar:',可获得优化后的输出。
mmarco-mMiniLMv2-L12-H384-v1 - 支持多语言的MMARCO跨编码器模型
Google翻译模型训练开源项目Cross-Encoder模型多语言信息检索HuggingfaceGithub
MMARCO-MiniLMv2-L12-H384-v1模型使用MMARCO数据集,以Google Translate翻译为14种语言,基于多语言MiniLMv2训练,主要用于信息检索。借助SentenceTransformers工具,用户可以对查询进行编码和排序,实现高效的信息检索。详细信息和训练代码可在SBERT.net及GitHub上查看,适用于多语言环境的信息检索。
tiny-random-bert-sharded - 模型从零开始训练,适应不明数据集进行深度学习
Github开源项目tiny-random-bert-sharded框架版本评估数据集Huggingface模型训练训练超参数模型
该模型完全从零训练,具体数据集信息尚未公开。利用TensorFlow和Transformers框架,该模型利于在不明数据环境下进行实验和测试,适合研究每种应用表现。
granite-3b-code-instruct-2k - 用于改进代码生成的3B参数AI模型
数据集Github开源项目模型Huggingface模型训练使用案例Granite-3B-Code-Instruct-2K代码生成
IBM Research的Granite-3B-Code-Instruct-2K是一个3B参数的AI模型,专注提升编程指令响应。它从多个许可数据集微调而来,支持多种编程语言。尽管在某些语言上的性能突出,域外使用建议提供示例指导。部署于IBM超算集群确保了高效性。然而,模型须在特定应用上进行安全测试。
wav2vec2-xls-r-300m-phoneme - 微调后的Facebook语音处理模型
wav2vec2-xls-r-300m语音识别Github开源项目梯度累积Huggingface模型训练训练超参数模型
该模型是在Facebook的wav2vec2-xls-r-300m基础上进行微调,专注于语音处理任务,损失函数为0.3327,字符错误率为0.1332。使用了先进的参数优化和混合精度训练技术,适用于多种语音识别和处理场景。
xlm-roberta-large-finetuned-conll03-german - 基于XLM-RoBERTa的大型多语言模型优化德国文本的命名实体识别
模型训练命名实体识别自然语言处理HuggingfaceGithub开源项目模型XLM-RoBERTa多语言模型
该项目展示了一种基于大规模多语言数据训练的XLM-RoBERTa模型,专注于德语文本的命名实体识别和词性标注,能够高效解析德语文本,并通过内置管道进行自然语言理解任务的方便集成。
deberta-v3-large-zeroshot-v1 - 强大高效的零样本文本分类能力
模型训练零样本分类模型Github开源项目DeBERTa-v3自然语言推理文本分类Huggingface
模型适用于零样本分类,通过将文本分类任务转换为'真假'判定任务达到自然语言推理效果。使用Hugging Face pipeline实现,较现有模型表现优异。基于27项任务和310类文本进行训练,专注'Entailment'与'Not_Entailment'的二分类,且在多种文本分类场景中表现灵活。模型为开源,受到MIT许可证保护。
norbert2_sentiment_test1 - 挪威评论情感分析:基于Norwegian Review Corpus的精确模型
Huggingfacesentiment analysis情感分析开源项目模型Github挪威语模型训练评价指标
该模型旨在分析挪威语评论情感,利用Norwegian Review Corpus和情感数据集训练。由Simen Aabol和Marcus Dragsten开发,基于norbert2模型进行了微调。模型能够分析挪威语句子的情感,准确率达83.57%。
gliner_small-v2.1 - 基于双向Transformer的轻量级通用实体识别模型
模型训练命名实体识别Huggingface模型GLiNERGithub开源项目自然语言处理机器学习
gliner_small-v2.1是一个基于双向Transformer架构的命名实体识别模型,具备识别任意类型实体的能力。这款模型采用166M参数规模,在保持较小资源占用的同时提供灵活的实体识别功能。模型支持英语处理,采用Apache-2.0许可证开源发布。相比传统NER模型的固定实体类型限制和大语言模型的高资源消耗,该模型提供了一个平衡的解决方案。
H2-keywordextractor - 精准高效的文本摘要生成工具
AutoTrain二氧化碳排放模型训练开源项目验证指标总结模型HuggingfaceGithub
该项目通过AutoTrain进行文本摘要自动化,专注于金融数据集,具有较低的CO2排放。验证指标如Loss 1.406及Rouge指标等提供了可参考的模型性能数据。使用者可以借助cURL接口轻松调用此模型进行文本处理。
pythia-1.4b-deduped - 用于解释性研究的大规模语言模型套件
HuggingfaceEleutherAI大语言模型开源项目模型PythiaGithub模型训练去重数据集
Pythia Scaling Suite由多个大规模语言模型组成,旨在支持对模型可解释性的研究。其提供不同规模的模型版本,包括专为科研实验设计的1.4B去重模型,伴有154个训练检查点。虽不以下游应用为导向,但其性能在诸多方面可比拟甚至超越同类模型。适用于关注语言模型行为研究的科学工作者。