#神经网络

deit_small_patch16_224.fb_in1k - DeiT架构图像分类模型 基于ImageNet-1k训练的高效Transformer
计算机视觉神经网络开源项目DeiT深度学习模型图像分类GithubHuggingface
DeiT小型模型是一种基于Transformer架构的图像分类模型,在ImageNet-1k数据集上训练。该模型采用注意力蒸馏技术,拥有2210万参数,适用于224x224像素图像输入。除图像分类外,它还可用于特征提取。模型通过timm库提供预训练权重,便于加载和推理。其数据效率和蒸馏技术使其在计算机视觉领域表现出色。
ldm-super-resolution-4x-openimages - 基于潜在扩散模型的图像超分辨率开源工具
图像超分辨率GithubHuggingface深度学习LDM图像处理开源项目神经网络模型
ldm-super-resolution-4x-openimages项目利用潜在扩散模型技术实现图像超分辨率处理。该项目在预训练自编码器的潜在空间中应用扩散模型,平衡了计算资源消耗与图像细节保留。项目支持图像4倍放大,并提供了完整的推理pipeline,适用于图像修复、无条件生成和语义场景合成等任务。
electra-large-generator - 基于判别器架构的高效预训练语言模型
文本编码Github自监督学习Huggingface开源项目ELECTRA神经网络模型语言预训练
ELECTRA是一种自监督语言表示学习方法,采用判别器替代传统生成器架构进行预训练。该模型可在单GPU环境运行,通过区分真实和生成的输入标记进行训练。在SQuAD 2.0等基准测试中取得了显著成果,支持分类、问答和序列标注等下游任务的微调。
opus-mt-fr-de - transformer-align架构的法德翻译模型,适用于新闻政治等多领域
opus-mt-fr-de机器翻译语言模型神经网络Github模型数据集Huggingface开源项目
该法德翻译模型基于transformer-align架构,使用OPUS数据集训练。模型在多个测试集上表现出色,Tatoeba测试集达49.1 BLEU分,新闻领域测试集普遍达22-28 BLEU分,在euelections_dev2019测试集上达26.4 BLEU分。采用normalization和SentencePiece预处理,适用于新闻、政治等多领域翻译。模型权重和测试集翻译结果可供下载使用。
videomae-base-finetuned-kinetics - VideoMAE模型基于自监督学习实现Kinetics-400数据集80.9%分类准确率
神经网络计算机视觉开源项目自监督学习模型VideoMAEGithub视频分类Huggingface
VideoMAE是一个基于MAE架构的视频分析模型,采用Vision Transformer结构。经过1600轮自监督预训练和有监督微调,该模型在Kinetics-400数据集上实现了80.9%的top-1准确率和94.7%的top-5准确率。模型将视频切分为16x16的图像块进行处理,支持400种视频类别的分类任务,可应用于视频内容分析和行为识别等领域。
zephyr-7b-sft-full - Mistral-7B衍生的微调语言模型 基于UltraChat数据集
神经网络开源项目深度学习Mistral-7B模型机器学习Github模型微调Huggingface
zephyr-7b-sft-full是基于Mistral-7B-v0.1的微调语言模型,利用HuggingFaceH4/ultrachat_200k数据集训练而成。该项目采用多GPU分布式训练,结合Adam优化器和余弦学习率调度,在评估集上实现0.9353的损失值。模型基于Transformers 4.36.2框架和PyTorch 2.1.2环境开发,旨在提供高效的语言处理功能。
tiny-mistral - 基于Mistral架构的随机初始化模型 专用于端到端测试
随机初始化Github模型架构Huggingface深度学习Mistral开源项目神经网络模型
tiny-mistral是一个基于Mistral架构的随机初始化模型,专为端到端测试设计。该项目提供了一个轻量级版本,使开发者能够在无需完整预训练模型的情况下进行快速验证和调试。这一工具简化了AI模型的开发和优化流程,为研究人员和工程师提供了便捷的测试环境。
xcit_tiny_12_p8_224.fb_in1k - 跨协方差图像转换器实现图像分类与特征提取
神经网络开源项目模型ImageNet-1kXCiT图像分类机器学习GithubHuggingface
基于XCiT(Cross-Covariance Image Transformer)架构开发的图像分类模型,在ImageNet-1k数据集上完成预训练。模型包含670万参数量,GMACs为4.8,支持224x224图像输入分辨率。通过跨协方差注意力机制实现图像特征表示,可用于图像分类和特征提取。模型已集成到timm库中,支持top-k分类预测和特征向量提取功能。
vgg16.tv_in1k - 基于ImageNet-1k训练的VGG16图像分类模型
神经网络开源项目深度学习模型ImageNet图像分类VGGGithubHuggingface
VGG16是一个经典的深度学习图像分类模型,基于ImageNet-1k数据集训练而成。模型包含1.384亿个参数,处理224x224像素输入图像,支持图像分类、特征图提取和图像嵌入等功能。借助timm库可实现模型的快速部署,广泛应用于计算机视觉领域。
EuroLLM-1.7B-Instruct - 支持35种语言的欧洲开源大语言模型
神经网络多语言模型开源项目机器翻译模型EuroLLMGithub自然语言处理Huggingface
EuroLLM-1.7B-Instruct是一个欧盟支持开发的大语言模型,具备17亿参数规模,可处理包括欧盟在内的35种语言。模型在机器翻译性能方面超越同规模的Gemma-2B模型,接近更大规模的Gemma-7B水平。采用transformer架构和分组查询机制,实现高效推理。这是欧盟首个面向多语言处理的开源语言模型项目。
Yarn-Mistral-7b-128k - 基于Mistral-7B的128K长文本语言模型
长上下文大语言模型神经网络人工智能模型Yarn-MistralGithubHuggingface开源项目
这是一个基于Mistral-7B-v0.1的模型扩展,采用YaRN方法完成1500步长文本预训练,将上下文窗口扩展至128K tokens。模型在长短文本处理方面保持稳定表现,通过ARC-c、Hellaswag、MMLU和Truthful QA等基准测试验证,适用于长文本处理场景。
inception_v4.tf_in1k - 面向图像分类的Inception-v4预训练模型
GithubInception-v4图像分类Huggingface深度学习ImageNet-1k开源项目神经网络模型
Inception-v4是一个在ImageNet-1k数据集上预训练的深度学习模型,参数量为4270万,支持299x299图像输入。通过timm库可实现图像分类、特征图提取和图像嵌入等核心功能。该模型从TensorFlow移植至PyTorch,适用于计算机视觉领域的各类图像处理任务。
convit_small.fb_in1k - ConViT结合软卷积特性的图像分类框架
Github图像分类Huggingface深度学习ConViTImageNet-1k开源项目神经网络模型
ConViT是一个在ImageNet-1k数据集上训练的图像分类模型,结合了CNN和Transformer优势。模型参数量2780万,支持224x224图像输入,可用于分类和特征提取任务。模型提供预训练权重,适用于多种计算机视觉应用场景。
dreamshaper-xl-1-0 - 基于SDXL的图像生成模型支持多种艺术风格创作
图像模型文本生成图像Dreamshaper SDXL神经网络人工智能绘画模型GithubHuggingface开源项目
Dreamshaper SDXL-1.0是基于Stable Diffusion XL 1.0开发的微调模型,支持文本生成艺术和写实风格图像。模型集成了动漫和写实等多种图像风格,可通过Diffusers库实现快速部署。适用场景包括艺术创作、设计和视觉内容生成等领域。
resnet18.tv_in1k - 精简高效的ResNet18图像分类模型
ResNet神经网络图像分类模型深度学习Github模型架构Huggingface开源项目
resnet18.tv_in1k是一个基于ResNet-B架构的图像分类模型,采用ReLU激活函数和7x7卷积池化层。模型参数量为11.7M,运算量为1.8 GMACs,兼具轻量和高效。支持图像分类、特征图提取和图像嵌入,可处理224x224尺寸图像。该模型使用ImageNet-1k数据集训练,是torchvision的原始权重模型,适用于需要平衡性能和资源的应用场景。
larger_clap_music_and_speech - 专为音乐和语音优化的CLAP音频-文本对比学习模型
CLAP机器学习Github开源项目语音处理神经网络音频分类Huggingface模型
larger_clap_music_and_speech是一个针对音乐和语音优化的CLAP模型。它结合SWINTransformer和RoBERTa处理音频和文本特征,实现潜在空间的特征映射。该模型支持零样本音频分类和特征提取,可在CPU和GPU上运行。作为音频理解和分析的有力工具,它在音乐识别和语音处理等领域具有广泛应用前景。
pretrained-xlmR-food - XLM-RoBERTa多语言食品文本分类模型
Github开源项目模型卡片transformersHuggingface神经网络机器学习模型评估模型
pretrained-xlmR-food是一个基于XLM-RoBERTa的多语言食品文本分类模型。该模型可处理多种语言的食品描述、评论和标签,适用于食品安全分析、菜单分类等场景。项目提供了模型使用指南和性能评估结果,便于研究人员和开发者快速应用。
tf_efficientnet_l2.ns_jft_in1k - EfficientNet架构的大规模图像识别与特征提取模型
ImageNetGithub开源项目图像分类EfficientNetHuggingface神经网络深度学习模型
基于EfficientNet架构开发的图像分类模型,采用Noisy Student半监督学习方法,结合ImageNet-1k和JFT-300m数据集进行训练。模型支持800x800分辨率输入,包含4.8亿参数,可用于图像分类、特征提取和嵌入向量生成。借助timm库实现模型的快速部署,适用于各类图像识别任务。
CLIP-convnext_xxlarge-laion2B-s34B-b82K-augreg - 基于LAION-2B数据集的卷积神经网络达到79%零样本分类准确率
Github开源项目图像分类CLIPHuggingface神经网络机器学习ConvNext模型
CLIP ConvNeXt-XXLarge是一个在LAION-2B数据集上训练的大规模视觉语言模型,总参数量12亿,图像分辨率256x256。模型采用ConvNeXt-XXLarge图像结构和ViT-H-14规模的文本编码器,在ImageNet零样本分类上达到79%准确率。主要应用于图像分类、检索等研究任务。
whisper-large-v3-ru-podlodka - 基于Whisper Large V3的俄语优化语音识别模型
语音识别Github开源项目语音数据集俄语Whisper Large V3Huggingface神经网络模型
该模型是基于Whisper Large V3架构,专为俄语语音识别优化。在Podlodka.io数据集上,含标点和大写的字错误率(WER)为20.91%,不含标点的WER为10.987%。在Russian Librispeech数据集上,不含标点的WER达到9.795%。模型经过taiga_speech_v2、podlodka_speech和rulibrispeech等多个俄语数据集训练,适用于各种俄语语音识别场景。
xcit_nano_12_p8_224.fb_in1k - 基于跨协方差转换器的轻量级图像分类模型
ImageNetGithub开源项目图像分类计算机视觉Huggingface神经网络深度学习模型
xcit_nano_12_p8_224.fb_in1k采用跨协方差图像转换器(XCiT)架构,是一个参数量为3.0M的轻量级图像分类模型。模型在ImageNet-1k数据集上完成预训练,支持224x224尺寸的图像输入,可应用于图像分类和特征提取。模型通过跨协方差注意力机制降低计算复杂度,适合实际部署应用。
Nous-Hermes-2-Mixtral-8x7B-SFT-AWQ - 低比特量化技术如何提升模型推理性能
大规模语言模型Github开源项目AI生成权重量化Huggingface神经网络Nous Hermes 2模型
Nous Hermes 2 Mixtral 8x7B SFT - AWQ由NousResearch开发,采用AWQ低比特量化技术,提供快速且精确的推理能力。支持4位量化的AWQ大幅提升了Transfomers推理速度,与GPTQ设定相比,保证了等同或更佳的质量表现。在Linux和Windows系统的NVIDIA GPU上运行良好,macOS用户建议使用GGUF模型。该模型结合来自多种开放数据集的百万条目数据,通过GPT-4生成数据进行训练,实现多项任务的业界领先性能,兼容Text Generation Webui、vLLM和Hugging Face TGI等多个平台,适用于不同环境下的高性能推理。
fastvit_ma36.apple_in1k - Apple开源的高性能混合视觉Transformer图像处理模型
计算机视觉图像分类FastViTGithub开源项目模型Huggingface神经网络机器学习
FastViT是Apple开源的混合视觉Transformer模型,基于结构重参数化技术构建。模型在ImageNet-1k数据集训练,参数量4410万,支持256x256图像输入。主要功能包括图像分类、特征图提取和图像嵌入表示。通过混合架构设计,在保证准确率的基础上优化了计算效率。
opus-mt-tc-big-zls-en - 南斯拉夫语系至英语的机器翻译开源模型
Github神经网络模型开源项目OPUS-MTHuggingface机器翻译自然语言处理Marian NMT
opus-mt-tc-big-zls-en是一个基于神经网络的机器翻译模型,用于南斯拉夫语系(zls)到英语(en)的翻译任务。作为OPUS-MT项目的组成部分,该模型采用Marian NMT框架开发,并已转换为PyTorch格式。模型支持包括保加利亚语、波斯尼亚语、克罗地亚语、马其顿语、斯洛文尼亚语和塞尔维亚语在内的多种南斯拉夫语言,可应用于相关语言的翻译工作。
tiny-random-idefics2 - 面向测试开发的轻量级Idefics2多模态交互模型
神经网络Huggingface机器学习人工智能开源项目模型transformersGithub模型训练
tiny-random-idefics2是一个基于Idefics2架构构建的轻量级模型,集成Mistral文本处理和Idefics2视觉处理功能。通过简化的网络结构设计,包括最小化隐藏层和注意力层,实现了高效的多模态交互能力。该项目基于Transformers框架开发,已开源部署于Hugging Face平台,主要服务于原型验证和功能测试场景。
resnet50d.ra2_in1k - 基于ResNet-D架构的高效图像分类与特征提取模型
Github神经网络模型开源项目图像分类深度学习timmResNetHuggingface
ResNet-D是一款在ImageNet-1k数据集训练的图像分类模型,采用ReLU激活函数和三层卷积结构,包含2560万参数。模型支持224x224尺寸训练输入和288x288测试输入,集成RandAugment增强技术,可实现图像分类、特征提取等计算机视觉任务。
AMD-Llama-135m - 轻量级语言模型实现高效推理加速
语言模型神经网络Huggingface预训练AMD-Llama-135mGithub模型开源项目机器学习
AMD-Llama-135m是一个基于LLama2架构的135M参数语言模型,在AMD Instinct MI250加速器上训练。该模型与huggingface transformers兼容,并使用LLama2相同的分词器。模型可独立使用,也可作为LLama2和CodeLlama的推理加速辅助模型。经SlimPajama和Project Gutenberg数据集预训练,以及StarCoder Python代码数据集微调后,模型在多项NLP基准测试中表现优异。通过推理加速技术,吞吐量可提升至3.88倍。
dpn131.mx_in1k - DPN双路径神经网络图像分类模型 支持ImageNet预训练和特征提取
神经网络深度学习图像分类Huggingface特征提取DPN131开源项目模型Github
DPN131是基于Dual-Path Networks架构的图像分类模型,在ImageNet-1k数据集上训练。模型包含7930万参数,支持224x224图像输入,提供图像分类、特征图提取和图像嵌入功能。通过timm库可轻松加载使用,适用于多种计算机视觉任务。该模型由MXNet训练并移植到PyTorch,支持批量处理和特征提取。
opus-mt-tc-base-en-sh - 多语言神经机器翻译模型,支持英-塞尔维亚-克罗地亚语转换
语言模型神经网络OPUS-MTMarianNMTGithub模型开源项目机器翻译Huggingface
该项目提供的神经机器翻译模型,支持从英语到塞尔维亚-克罗地亚语及其他语言的翻译。采用Marian NMT框架训练,使用transformers库转换为pyTorch格式。此模型由赫尔辛基大学开发,数据集来自OPUS项目,并采用SentencePiece进行预处理。适用于文本翻译和生成,包含代码示例与评估细节,遵循CC-BY-4.0许可。
larger_clap_music - 大规模音乐音频分类及特征提取的模型解决方案
RoBERTaGithub神经网络模型开源项目CLAP音频分类TransformerHuggingface
通过对比语言音频预训练技术,CLAP模型实现高效的音频和文本特征提取和分类,适用于无监督学习环境。模型兼具SWINTransformer和RoBERTa的优点,可用来评估音频与文本间的相似性,且能满足多种音频分类和嵌入需求。
Big-Tiger-Gemma-27B-v1-GGUF - 优化27B参数的高效解码模型 拒绝率低
机器学习Github模型神经网络Big Tiger Gemma 27B v1开源项目Hugging FaceHuggingface
探索27B参数的无审查优化模型 大幅减少信息拒绝 提高复杂计算任务性能 支持多版本改进 包括GGUF和iMatrix 提供优质计算表现和精确度 提升模型应用体验
SmolLM-360M - 3.6亿参数的高效语言模型 专注常识推理和知识理解
Github神经网络模型训练模型开源项目语言模型SmolLMHuggingface人工智能
SmolLM-360M是一款拥有3.6亿参数的高效语言模型,基于Cosmo-Corpus数据集训练而成。该模型利用Cosmopedia v2合成教材、Python-Edu教育样本和FineWeb-Edu网络教育资源等高质量数据,在常识推理和世界知识等多项基准测试中表现出色。SmolLM-360M支持CPU/GPU部署,并提供8位和4位量化版本以优化内存使用。这款模型主要面向英语内容生成和理解,可作为AI辅助工具在多种场景中应用。
electra-small-generator - 电教工具ELECTRA:文本编码新方法
transformerELECTRAHuggingfaceGithub开源项目模型预训练语言表示神经网络
ELECTRA是一种自监督语言表示学习方法,用于优化Transformer网络的预训练。该模型在小规模下可用单GPU运行,并在大规模数据集如SQuAD 2.0上实现了优异表现。ELECTRA的训练方式借鉴了GAN中的判别器,通过区分真实与虚假输入令牌来学习。项目库提供了ELECTRA的预训练及下游任务精调代码,适用于分类、问答和序列标注等任务。
mistral-7b-instruct-v0.3 - 高效finetune解决方案,减少内存占用提升速度
神经网络MistralHuggingface性能提升开源项目模型GithubUnsloth调优
这款通过Unsloth技术的Google Colab笔记本集合,简化了Mistral、Gemma和Llama等AI模型的finetune过程。简单操作即可提高模型速度超过两倍,并显著降低内存占用,同时允许将优化的模型导出为GGUF、vLLM,或上传至Hugging Face,适合初学者使用。
sd-controlnet-scribble - 控制扩散模型增强:利用涂鸦图像实现条件控制
神经网络Stable Diffusion开源项目条件控制ControlNet图像生成Github模型Huggingface
ControlNet通过引入涂鸦图像等额外输入条件,为预训练的扩散模型提供条件控制,提升其生成能力。即使在训练数据集较少的情况下,该网络仍能保持良好的学习效果。模型支持在个人设备上训练,并可借助计算集群扩展到大规模数据集。此外,Stable Diffusion等扩散模型可与ControlNet结合,增强条件输入灵活性并拓展其应用领域。
deepseek-coder-6.7B-base-AWQ - 大规模训练的代码语言模型,支持项目级代码补全和填充
模型训练PyTorch深度学习HuggingfaceGithub开源项目模型Iris数据集神经网络
deepseek-coder-6.7B-base是一个在2万亿token上训练的大规模代码语言模型。采用16K窗口大小和填空任务训练,支持项目级代码补全和填充。在多个编程语言基准测试中表现优异,擅长代码补全、生成和理解。模型由87%的代码和13%的中英文自然语言构成,可支持多语言编程任务。