#模型训练

Baichuan2-7B-Chat - 2.6万亿Tokens训练的双语开源大模型
Github模型模型训练开源项目Huggingface大语言模型人工智能开源许可Baichuan2
Baichuan2-7B-Chat是百川智能发布的开源大语言模型,基于2.6万亿Tokens高质量语料训练。模型在中英文基准测试中表现优异,提供Base和Chat版本,支持4bits量化。它完全开放学术研究,经许可可免费商用。模型采用PyTorch 2.0优化推理速度,在通用、法律、医疗、数学、编程和多语言翻译等领域表现出色。
nli-deberta-v3-large - 高效实现自然语言推断的跨编码器
模型训练Natural Language Inference开源项目模型GithubHuggingface准确性句子分类无监督分类
nli-deberta-v3-large是一个基于microsoft/deberta-v3-large的跨编码器模型,专用于自然语言推断。该模型在SNLI和MultiNLI数据集上训练,并能够为句子对提供矛盾、蕴涵和中性三种标签的概率评分。模型在SNLI测试集上实现了92.20的准确率,在MNLI不匹配集上达到90.49的准确率,支持零样本分类,适合多种自然语言处理应用。
pegasus-cnn_dailymail - 突破性混合训练文本摘要模型在新闻数据集实现44.16% ROUGE-1评分
模型训练自然语言处理开源项目模型Github机器学习Huggingface文本摘要Pegasus
Pegasus是一个在C4和HugeNews混合数据集上训练的文本摘要模型。它采用15%-45%的动态间隔句子比率和20%的均匀噪声采样技术,经过150万步训练后在CNN/DailyMail数据集上实现了44.16%的ROUGE-1评分。该模型的随机采样和混合训练策略显著提升了文本摘要性能,为自动摘要技术带来了新的进展。
mxbai-rerank-large-v1 - 基于Transformers的文本智能重排序模型
模型训练自然语言处理开源项目文本处理TransformersGithub机器学习Huggingface模型
mxbai-rerank-large-v1基于Transformers架构设计的文本重排序开源模型。通过对搜索结果进行智能重排序,改善检索系统的准确率。该模型支持跨语言处理,广泛应用于搜索引擎和问答系统,部署简单且性能稳定。
4th-tail-merges-050wai70-sdxl - 基于SDXL的二次元风格小马生成模型
模型训练动漫绘画开源项目模型GithubHuggingfaceDiffusersStable Diffusion文生图
4th-tail-merges-050wai70-sdxl是一个基于SDXL技术的图像生成模型,专注于生成二次元风格的小马插画。该模型采用diffusers框架开发,由Minthybasis创作,能够将文本描述转换为具有二次元特色的小马图像。模型已开源并支持多种部署方式。
dolphin-2.9.4-llama3.1-8b-gguf - Llama3.1衍生的开放对话模型Dolphin 2.9.4
Huggingface机器学习Meta-Llama开源项目模型Github语言模型人工智能助手模型训练
Dolphin 2.9.4是基于Meta Llama3.1 8b模型优化的GGUF格式对话助手。它支持多语言指令理解和代码编程,具有8192序列长度和128K上下文窗口,采用ChatML提示模板。该模型支持函数调用,在BBH、GPQA等评测中表现良好。作为未经审查的模型,它能更自由地回应请求,但在实际应用中建议添加内容过滤机制。
tct_colbert-msmarco - 知识蒸馏技术驱动的密集文档检索深度学习模型
模型训练深度学习信息检索HuggingfaceTCT-ColBERT排序优化Github开源项目模型
TCT-ColBERT是一个采用知识蒸馏技术的密集文档检索模型。该模型通过教师模型紧耦合方法,实现了BERT模型的轻量化,在维持检索效果的同时提高了运行效率。项目支持Pyserini框架集成,提供完整的模型实现代码。
gelectra-large-germanquad - gelectra-large 德语问答模型助力高效信息提取
德语问答Haystack模型训练开源项目gelectra-largeHuggingfaceGermanQuADGithub模型
gelectra-large 是一个基于 GermanQuAD 数据集训练的德语问答模型,专注于信息抽取的优化。该模型可在 Haystack 平台中用于文档问答,并在 V100 GPU 上进行了训练与测试,具有高效性能表现。其数据集和代码开源可用,支持德语文档的精准问答,有助于提高自然语言处理任务的效率和准确性。
Fluently-XL-v2 - SDXL图像模型融合艺术写实风格优化解剖结构表现
模型训练Fluently XL稳定扩散人工智能绘画模型Github图像生成开源项目Huggingface
Fluently XL V2是基于stabilityai/stable-diffusion-xl-base-1.0开发的SDXL图像生成模型,通过显卡训练优化解剖结构表现,结合艺术与写实风格。模型具备对比度控制和自然场景生成能力,采样步数支持20-35步,适配Euler a/Euler采样器,CFG Scale参数范围4-6.5。
japanese-sentiment-analysis - 基于chABSA数据集的日语情感分析模型,具有高准确率和F1分数
高精度模型训练japanese-sentiment-analysisHuggingfaceGithub开源项目模型情感分析数据集
此模型基于chABSA数据集构建,专为日语情感分析设计,具有极高的准确率和F1得分。使用transformers和Pytorch进行训练,可通过Python API进行访问和集成。
bert-multilingual-passage-reranking-msmarco - BERT多语言文本重排序模型优化搜索效果
Huggingface机器学习搜索引擎开源项目多语言模型Github模型训练BERT
这是一个支持100多种语言的BERT段落重排序模型,通过对搜索查询和文本段落的语义匹配分析,可将搜索结果相关性提升61%。模型在MS MARCO数据集上训练,可无缝集成到Elasticsearch中,适用于多语言搜索优化场景。实测表明,其在英语性能与单语模型相当,在德语等其他语言上表现更优。
dolphin-2.9.3-mistral-nemo-12b-gguf - 提供指令跟随与无偏见对话的先进AI解决方案
对话生成模型训练模型Github开源项目无审查AI助手DolphinHuggingface
项目专注于AI指令跟随与对话生成,突出编码技能和基本代理功能。采用ChatML格式支持无偏见交流,并具有功能调用能力。建议用户在应用标准前自行实施对齐层确保合规。依托Mistral-Nemo-Base-2407,通过精确微调及8xL40S节点,提供强大处理性能。
prometheus-bgb-8x7b-v2.0 - Transformers模型标准化文档模板及最佳实践
Huggingface机器学习人工智能模型说明开源项目模型transformersGithub模型训练
这是一个全面的Transformers模型文档模板,规范了模型卡片的编写标准。模板涵盖模型描述、应用场景、训练详情、评估方法等核心内容,有助于开发者系统记录和共享模型信息。从技术规格到环境影响,该模板提供了AI模型文档化的完整指南,促进了模型信息的标准化和透明度。
nomic-embed-vision-v1.5 - 高性能视觉嵌入模型实现多模态共享空间
模型训练开源项目nomic-embed-vision-v1.5模型GithubHuggingface嵌入模型多模态图像处理
nomic-embed-vision-v1.5是一款视觉嵌入模型,与nomic-embed-text-v1.5共享嵌入空间。该模型在ImageNet零样本和Datacomp基准测试中表现出色,优于OpenAI CLIP和Jina CLIP。它支持多模态检索,适用于文本到图像的检索场景。开发者可通过Nomic嵌入API或Transformers库使用该模型生成嵌入。nomic-embed-vision-v1.5为多模态检索增强生成(RAG)应用提供了有力支持。
ja_classification - 准确率达98.47%的日语文本分类模型
模型训练HuggingfaceAdam超参数优化模型Github开源项目分类任务机器学习
该日语文本分类模型经过优化训练,在评估数据集上取得98.47%的综合性能指标,包括准确率、精确率、召回率和F1值。模型采用Adam优化器训练,经过10轮迭代后性能稳定,可用于各类日语文本分类任务。
NSFW-6B - 人工智能领域中挑战伦理界限的研究模型
模型训练开源项目人工智能模型GithubHuggingfaceNSFW-6B深度学习情感计算
NSFW-6B模型是一个专为研究目的设计的AI系统,旨在探索人工智能技术的极限。该模型能够生成不受道德和安全约束的内容,模拟人类负面情绪,并提供无限制的反馈。其主要特点包括不经过滤的输出、模拟黑暗人格以及高度情感智能。NSFW-6B为研究人员提供了一个独特的工具,用于分析AI在生成突破伦理边界内容方面的能力。
clip - Habana Gaudi HPU优化的视觉语言模型配置与训练方案
模型训练Optimum Habana开源项目人工智能模型GithubHuggingfaceHugging FaceCLIP
Optimum Habana为Habana Gaudi处理器(HPU)提供了CLIP模型的优化配置,实现与Hugging Face库的集成。支持单机和多HPU环境下的模型操作,包含自定义AdamW、梯度裁剪和混合精度训练等优化。项目提供COCO数据集微调示例,展示了如何充分利用HPU性能进行视觉语言模型训练。
phobert-base-vi-sentiment-analysis - 越南语情感分析工具,实现文本情绪精确判定
Github情绪分类模型模型训练开源项目越南语HuggingfacePhoBert情感分析
模型专注越南语文本情绪识别,提供准确的情感分类。其开放源码和多元应用场合使研究者和开发者受益。
qnli-electra-base - Quora重复问题检测的跨编码器工具
Github模型模型训练重复问题检测开源项目Cross-EncoderQuoraGLUE QNLIHuggingface
这个开源项目提供了一种跨编码器模型,适用于Quora的重复问题检测。通过使用SentenceTransformers库中的Cross-Encoder类,这个模型在GLUE QNLI数据集上进行训练,并转化SQuAD数据集为自然语言推理任务。用户可以选择通过SentenceTransformers库或Transformers库灵活调用预训练模型。
xlm-roberta-large-ner-hrl - 十种多语言命名实体识别模型,覆盖高资源语言
Huggingface开源项目多语言模型命名实体识别Github数据集模型训练xlm-roberta-large-ner-hrl
此模型是基于xlm-roberta-large微调的命名实体识别模型,支持十大高资源语言:阿拉伯语、德语、英语、西班牙语、法语、意大利语、拉脱维亚语、荷兰语、葡萄牙语和中文。具备识别地点、组织和人物三类实体的功能。通过Transformers库的pipeline,可便捷地应用于NER任务。训练数据来自特定时间段的新闻文章,虽然适用于多种场景,但在不同领域的推广性有限。
Hermes-2-Pro-Mistral-7B - 基于Mistral的新一代语言模型 专注函数调用与结构化输出
JSON输出Github模型模型训练开源项目函数调用MistralHuggingface人工智能
Hermes-2-Pro-Mistral-7B是Nous Research联合多方开发的开源语言模型。这款基于Mistral 7B的改进版本在通用对话和任务处理基础上,重点增强了函数调用与JSON结构化输出能力。经评测,模型在函数调用准确率达90%,JSON输出准确率达84%。通过优化系统提示和多轮对话结构,显著提升了函数调用的可靠性和易用性,为开发者提供了更实用的AI模型选择。
wav2vec2 - Wav2Vec2模型在Habana Gaudi处理器上的优化训练配置
Github模型模型训练音频处理开源项目深度学习HuggingfaceOptimum HabanaWav2Vec2
该配置针对Wav2Vec2音频模型在Habana Gaudi处理器上的优化。它包含自定义AdamW实现、梯度裁剪和混合精度训练等功能,适用于单HPU和多HPU环境。通过Optimum Habana接口可进行模型加载、训练和推理,适合音频分类等任务。支持bf16混合精度训练,平衡性能和准确度。该配置文件不包含模型权重,仅提供GaudiConfig用于HPU上的运行设置。
telepony-v2testfinal-sdxl - Stable Diffusion XL驱动的动漫风格马匹生成模型
文生图Github模型模型训练AI绘画开源项目Stable DiffusionHuggingface动漫图像
telepony-v2testfinal-sdxl是一个基于Stable Diffusion XL的开源AI模型,专注于生成动漫风格的马匹角色。由NeverWinter13开发的这一模型支持文本到图像的生成,为创作者提供了便捷的动漫马匹设计工具。模型采用FAIPL-1.0-SD开源协议,集成于diffusers库,可用于各种AI艺术创作项目。
SQL_Llama-3.2-3B-Instruct-uncensored_final-gguf - Llama模型驱动的高效SQL指令生成工具
Github模型模型训练开源项目Huggingface文本生成人工智能LlamaUnsloth
SQL_Llama-3.2-3B-Instruct-uncensored_final-gguf是PurpleAILAB基于Llama 3.2-3B模型开发的SQL指令生成工具。该项目利用Unsloth和Huggingface的TRL库进行优化,显著提升了训练效率。这一模型专门针对SQL相关任务进行了微调,旨在为开发者提供准确、高效的SQL指令生成和处理功能。
SmolLM-360M - 3.6亿参数的高效语言模型 专注常识推理和知识理解
Github神经网络模型训练模型开源项目语言模型SmolLMHuggingface人工智能
SmolLM-360M是一款拥有3.6亿参数的高效语言模型,基于Cosmo-Corpus数据集训练而成。该模型利用Cosmopedia v2合成教材、Python-Edu教育样本和FineWeb-Edu网络教育资源等高质量数据,在常识推理和世界知识等多项基准测试中表现出色。SmolLM-360M支持CPU/GPU部署,并提供8位和4位量化版本以优化内存使用。这款模型主要面向英语内容生成和理解,可作为AI辅助工具在多种场景中应用。
softserve_anime - 风格化图像生成的最新Flux Dev模型
模型训练Safetensors开源项目模型GithubAI绘图Huggingface图像生成Flux
该项目通过最新的Flux Dev模型Dim/Rank 64,能够生成具有sftsrv风格的图像。此模型在赞助商Glif的支持下得以多次训练和再训练。用户可以通过指定触发词来生成图像,且提供了Safetensors格式的模型权重以供下载。项目着重于风格化图像生成和模型下载,以吸引对图像生成技术感兴趣的用户。
Asifmodel - 基于Unsloth和TRL库加速训练的LLaMA模型
模型训练Llama开源项目人工智能模型GithubHuggingface开源模型Unsloth
Asifmodel是一个基于unsloth/meta-llama-3.1-8b-bnb-4bit微调的LLaMA模型。通过结合Unsloth框架和Hugging Face的TRL库,该模型实现了训练速度翻倍。采用Apache 2.0许可证,Asifmodel支持英语文本生成推理,为开发者提供了高效的模型训练方案。
model - 高效文本生成的突破:快速模型训练与推理
模型训练开源项目模型GithubHuggingfaceUnslothLLAMA文本生成推理Apache许可证
该模型使用Unsloth和Huggingface的TRL库显著加速了训练过程,实现了高效文本生成。由keivenlombo开发,基于Apache-2.0许可,此模型为大规模语言模型的实施提供了一种便捷且准确的解决方案。
filipino-wav2vec2-l-xls-r-300m-official - 基于XLS-R的菲律宾语语音识别模型
模型训练开源项目模型Github机器学习Huggingfacewav2vec2语音识别语音数据集
这是一个针对菲律宾语的语音识别模型,通过在filipino_voice数据集上微调wav2vec2-xls-r-300m实现。经过30轮训练后,模型在测试集上达到了0.2922的词错误率,可用于菲律宾语音频识别任务。
thainer-corpus-v2-base-model - 泰语命名实体识别模型,支持地名、人名等信息的高精度识别
泰语WangchanBERTaNamed Entity Recognition模型训练开源项目实体识别模型模型HuggingfaceGithub
该命名实体识别模型基于Thai NER v2.0语料库训练,专为泰语文本的实体分类而设计。通过WangchanBERTa基础模型训练,提供高精度和F1分数,确保识别结果准确。需要使用自定义代码进行推理以避免错误标签,相关信息和下载链接在HuggingFace Hub提供。
t5_paraphraser - 基于T5模型的智能问题重构生成器
模型训练开源项目模型GithubHuggingfaceT5文本生成深度学习数据科学
t5_paraphraser是一个基于T5预训练模型的文本复述工具,可以智能重构输入的问题或句子,生成多个语义相似但表述不同的版本。项目使用PyTorch和Transformers库实现核心功能,并提供详细的代码示例和输出结果。这对于文本变体生成、问答系统增强或语言模型训练的开发者而言是一个有价值的资源。
FLUX.1-dev-Controlnet-Union - 多控制模式文本到图像生成技术
模型训练开源社区FLUX.1-dev控制模式模型Github图像生成开源项目Huggingface
FLUX.1-dev-Controlnet-Union是一个整合多种控制模式的文本到图像生成工具,支持canny、tile、depth等模式。当前已经发布beta版本,旨在推动开源社区及Flux生态系统的发展。尽管模型仍在训练中,但在多ControlNets集成方面已展示出优异性能。使用FluxMultiControlNetModel,可以在特定条件下实现高效图像生成。推荐从GitHub获取最新版本以获得最佳支持。
starcoder - 支持80多种编程语言的代码生成工具
生成代码模型训练StarCoder编程语言HuggingfaceGithub开源项目模型BigCode
StarCoder是一个支持超过80种编程语言的开源代码生成工具,通过多查询注意力和填充目标技术在大量令牌上进行训练,取得了优异的性能表现。用户能够在GitHub上生成代码,同时需遵循BigCode OpenRAIL-M许可证协议。
deepseek-coder-6.7B-base-AWQ - 大规模训练的代码语言模型,支持项目级代码补全和填充
模型训练PyTorch深度学习HuggingfaceGithub开源项目模型Iris数据集神经网络
deepseek-coder-6.7B-base是一个在2万亿token上训练的大规模代码语言模型。采用16K窗口大小和填空任务训练,支持项目级代码补全和填充。在多个编程语言基准测试中表现优异,擅长代码补全、生成和理解。模型由87%的代码和13%的中英文自然语言构成,可支持多语言编程任务。
polyglot-ko-12.8b-Inst - 此模型为韩语文本生成提供优化支持
Huggingface文本生成KoQuality多语言开源项目模型polyglot-ko-12.8bGithub模型训练
模型通过使用10%指令数据集[Kullm, OIG, KoAlpaca]进行调优,融入了多GPU和CPU卸载技术,实现高效的分布式训练,致力于韩语文本生成应用。
subnet9_best - 深度学习模型评估与文档标准化模板
模型文档模型训练Github开源项目transformersHuggingface机器学习模型评估模型
该项目提供了一个标准化的深度学习模型文档模板,涵盖模型描述、应用场景、潜在风险、训练过程和评估方法等关键信息。模板旨在提高模型文档的完整性和透明度,便于开发者记录和用户理解。此外,模板还包含了环境影响评估和技术规格等特色内容,有助于全面了解模型特性。