#深度学习

deberta-v2-xxlarge - 强大的自然语言处理模型,采用解耦注意力机制的BERT增强版
DeBERTaBERT深度学习模型Github开源项目预训练模型自然语言处理Huggingface
DeBERTa-v2-xxlarge是一个48层、1536隐藏层和15亿参数的高级语言模型。它通过解耦注意力和增强型掩码解码器优化了BERT和RoBERTa架构,使用160GB原始数据训练。该模型在SQuAD和GLUE等多个自然语言理解任务中表现优异,性能显著优于BERT和RoBERTa。DeBERTa-v2-xxlarge适用于复杂的自然语言处理任务,是研究和开发中的有力工具。
vit-base-patch32-224-in21k - Vision Transformer模型在2100万图像数据集上预训练
Vision Transformer计算机视觉图像识别ImageNet-21k深度学习模型Github开源项目Huggingface
Vision Transformer (ViT) 是一种基于transformer架构的视觉模型,在ImageNet-21k数据集上预训练。该模型将图像转换为固定大小的patch序列,通过线性嵌入和位置编码输入transformer编码器。ViT可应用于图像分类等多种视觉任务,只需在预训练编码器上添加任务特定层。模型在224x224分辨率下训练,批量大小为4096,在多项图像分类基准测试中展现出优秀性能。
bert-base-uncased-squad2 - 使用BERT模型提升问答任务的准确性
问题回答开源项目模型GithubHuggingface模型转换深度学习Haystackbert-base-uncased
该项目使用bert-base-uncased模型在SQuAD 2.0数据集上执行问答任务,与Haystack框架结合以实现文档层面的强大问答功能。性能方面,该模型在精确匹配和F1指标上达到了75.65和78.61,显示了其在提取式问答中的有效性。项目还包括详细的超参数设置和使用指南,便于快速部署。
codesage-small - 多语言支持的开源码理解与嵌入模型
开源项目模型Github语言建模HuggingfaceCodeSage深度学习编码器架构代码嵌入
CodeSage-Small是一个开源代码嵌入模型,以编码器结构为基础,提供多语言源码理解功能。训练数据来自去重后的Stack数据集,支持九种编程语言,包括c、java和python。采用掩码语言模型和双模态数据进行训练,通过Starcoder分词器和AutoModel实现便捷加载,可生成高维代码嵌入。详细信息可参考相关研究论文。
deepseek-coder-6.7B-base-AWQ - 大规模训练的代码语言模型,支持项目级代码补全和填充
模型训练PyTorch深度学习HuggingfaceGithub开源项目模型Iris数据集神经网络
deepseek-coder-6.7B-base是一个在2万亿token上训练的大规模代码语言模型。采用16K窗口大小和填空任务训练,支持项目级代码补全和填充。在多个编程语言基准测试中表现优异,擅长代码补全、生成和理解。模型由87%的代码和13%的中英文自然语言构成,可支持多语言编程任务。
tf_efficientnet_b3.ns_jft_in1k - 结合EfficientNet架构的神经网络图像处理模型
深度学习图像分类Huggingface特征提取开源项目模型GithubEfficientNetImageNet
该模型采用EfficientNet架构,通过Noisy Student半监督学习方法在ImageNet-1k和JFT-300m数据集训练。模型参数量1220万,支持300x300分辨率图像处理,可实现图像分类、特征提取和图像嵌入等功能。模型结合高效的网络架构和半监督学习技术,在图像处理任务中表现出色。
Hermes-2-Theta-Llama-3-8B - 融合LLaMA架构的多功能对话语言模型
Llama-3深度学习机器学习HuggingfaceGithub模型融合开源项目人工智能模型
Hermes-2-Theta-Llama-3-8B通过合并Hermes 2 Pro和Llama-3 Instruct两个基础模型,创建了一个功能全面的开源语言模型。经过RLHF强化学习优化后,模型在对话流畅度和任务完成能力上都有显著提升。它不仅支持标准的多轮对话交互,还具备函数调用和结构化数据输出等高级特性,并在AGIEval、GPT4All等多个权威评测中展现出稳定表现。
lotus-normal-g-v1-0 - 基于扩散原理的高精度视觉预测模型
视觉基础模型深度学习Huggingface开源项目模型扩散模型Github密集预测Lotus
Lotus是EnVision Research团队开发的视觉基础模型,采用扩散模型技术实现高精度的视觉预测功能。该项目已在arXiv发表论文,并开源了完整代码库。通过在线演示平台,开发者可以体验其在计算机视觉领域的实际应用效果。
Emu3-Gen - 统一模型驱动的AI系统实现图像文本与视频的生成与理解
Emu3图像处理深度学习多模态模型HuggingfaceGithubAI生成开源项目模型
Emu3采用单一变换器架构,将图像、文本和视频转化为统一序列空间进行处理。通过纯粹的下一标记预测训练方式,该系统在图像生成、视觉语言理解和视频生成等多个任务中展现出优异性能。与SDXL、LLaVA-1.6等专门模型相比,Emu3以更简洁的架构实现了更强的多模态处理能力。
Reflection-Llama-3.1-70B-GGUF - Llama-3.1-70B模型的GGUF量化版本集合
Github模型开源项目深度学习GPU内存优化HuggingfaceLlama人工智能推理模型量化
Reflection-Llama-3.1-70B模型的GGUF量化集合,包含从74.98GB到22.24GB的多个版本。采用K-quants和I-quants量化技术,并对embed和output权重进行了特别处理。项目提供了详细的版本特性说明、安装指南以及基于不同硬件配置的选型建议。
Virchow2 - 基于神经网络的病理切片图像分析与特征提取模型
图像识别PyTorchVirchow2深度学习模型Github开源项目病理学Huggingface
Virchow2是一个专门用于病理切片分析的深度学习模型,通过310万张医学图像训练而成。模型能够自动分析不同放大倍率的病理图像,提取关键特征信息,为计算病理学研究提供基础支持。其采用先进的视觉转换器架构,具备强大的图像处理能力。目前仅向学术研究机构开放使用,需要通过机构邮箱认证。
Mistral-7B-OpenOrca-GPTQ - Mistral语言模型的GPTQ量化优化实现
GPTQ量化自然语言处理开源项目模型GithubHuggingfaceMistral-7B深度学习模型部署
本项目对Mistral-7B-OpenOrca模型进行GPTQ量化处理,提供4位和8位精度、多种分组大小的量化版本。通过优化存储和计算方式,在保持模型性能的同时大幅降低显存占用。项目支持text-generation-webui、Python等多种调用方式,并提供完整的使用文档。
LLaMA-2-7B-32K - 基于Llama-2开发的32K长文本理解模型
Github模型开源项目语言模型深度学习长上下文HuggingfaceAI训练LLaMA-2
LLaMA-2-7B-32K是一个基于Llama-2开发的长文本语言模型,通过位置插值技术实现32K上下文长度。该模型采用预训练和指令微调策略,适用于多文档问答和长文本摘要等场景,支持API调用和本地部署。
mistral-7b-sft-beta - 基于UltraChat数据集训练的Mistral-7B优化模型
Mistral-7BHuggingFace深度学习Github开源项目模型微调自然语言处理Huggingface
Mistral-7B-sft-beta是一个在UltraChat数据集上训练的大型语言模型,基于Mistral-7B-v0.1开发。作为Zephyr-7B-β的基础训练模型,采用直接偏好优化方法,支持英语文本生成。模型包含7B参数,使用MIT开源协议,通过TRL框架的SFTTrainer在经过筛选的UltraChat对话数据集上完成训练。
vit_small_patch32_224.augreg_in21k_ft_in1k - Vision Transformer图像分类模型 预训练于ImageNet-21k并微调于ImageNet-1k
Vision TransformertimmImageNet深度学习模型Github开源项目图像分类Huggingface
这是一个基于Vision Transformer (ViT)架构的图像分类模型,在ImageNet-21k上进行预训练,并在ImageNet-1k上微调。模型包含2290万参数,处理224x224尺寸的图像输入。通过额外的数据增强和正则化技术提升性能,最初在JAX框架中训练,后移植至PyTorch。该模型提供简洁的API,支持图像分类和特征提取两大功能,可广泛应用于多种计算机视觉任务。
TinyCLIP-ViT-40M-32-Text-19M-LAION400M - 基于亲和力模仿和权重继承的CLIP模型压缩方法
Github模型模型压缩TinyCLIP开源项目深度学习图像识别HuggingfaceLAION400M
TinyCLIP是一种用于压缩大规模语言-图像预训练模型的跨模态蒸馏方法,采用亲和力模仿和权重继承技术。实验显示,TinyCLIP ViT-45M/32使用ViT-B/32一半的参数达到相似的零样本性能;TinyCLIP ResNet-19M在参数量减少50%的情况下,推理速度提升2倍,在ImageNet数据集上实现56.4%的准确率。
llama-3-8b-Instruct - 开源大模型训练工具实现显著提速与内存优化
Llama-3内存优化性能优化深度学习模型Github开源项目模型微调Huggingface
基于4bit量化技术的开源大语言模型训练工具,为Mistral、Gemma、Llama等主流模型提供优化方案。项目通过技术创新实现训练速度提升2-5倍,内存占用降低70%。支持GGUF格式导出和Hugging Face部署,提供多个免费Colab训练环境,降低了模型训练的硬件门槛。
llm-jp-1.3b-v1.0 - 大规模语言模型支持多语言和多种编程语言
Github开源项目训练数据LLM-jp大型语言模型自然语言处理Huggingface深度学习模型
此大规模语言模型由日本研发,支持多语言(含日语和英语)及多编程语言。采用Transformer架构,经过预训练和指令调优,适用于多种自然语言处理任务。模型在多个硬件和软件环境中优化,包括使用Megatron-DeepSpeed和TRL,可用于生成自然语言文本,应用广泛,性能优异。
control_v11f1e_sd15_tile - 基于ControlNet的高精度图像超分辨率与细节增强模型
Github开源项目Huggingface图像生成深度学习扩散模型Stable DiffusionControlNet模型
control_v11f1e_sd15_tile是ControlNet v1.1系列中专注于图像细节增强的模型。通过与Stable Diffusion结合,该模型能将低分辨率或模糊图像转换为清晰度更高的图像。这个开源项目不仅支持图像超分辨率处理,还可用于生成与输入图像大小相同但细节更丰富的图像,为数字图像处理提供了新的解决方案。
IF-I-XL-v1.0 - 先进的多级级联扩散模型实现高质量文本到图像生成
AI绘画扩散模型开源项目模型Huggingface文本生成图像深度学习GithubDeepFloyd-IF
IF-I-XL-v1.0是DeepFloyd和StabilityAI开发的三级级联扩散模型,具有4.3B参数规模。该模型采用冻结的T5转换器和改进的UNet架构,实现高质量文本到图像生成。在COCO数据集上,模型达到6.66的零样本FID-30K分数,展现出优秀的照片级真实感和语言理解能力。支持从64x64到1024x1024的多分辨率图像生成,可在14GB显存的GPU上高效运行。
phikon - 基于ViT的组织病理学自监督学习模型
自监督学习深度学习Huggingface开源项目模型GithubPhikon医学图像处理肿瘤病理学
Phikon是一个使用iBOT训练的组织病理学自监督学习模型。它是由Owkin开发的Vision Transformer Base模型,包含8580万个参数,支持224x224x3的图像输入。该模型在4000万个泛癌症图像块上进行了预训练,可用于从组织学图像中提取特征,并应用于多种癌症亚型的分类任务。通过微调,Phikon可以适应特定癌症亚型的研究需求。
papuGaPT2 - papuGaPT2推动波兰语生成和NLP研究
开源项目模型GithubHuggingface文本生成深度学习papuGaPT2NLP模型偏见分析
papuGaPT2采用GPT2架构,通过CLM目标进行自监督训练,利用Oscar语料库中的波兰子集,为NLP研究带来新机遇。适用于文本生成和下游任务微调,但可能生成含敏感内容和偏见的文本,建议只在研究中使用。展示了先进的训练方法以及文本生成技巧,包括不当用词过滤和少样本学习。
maskformer-swin-base-ade - 语义分割的新方法——MaskFormer的应用
深度学习Huggingface图像分割开源项目模型语义分割Hugging FaceGithubMaskFormer
MaskFormer采用Swin骨干网络与ADE20k数据集,在语义分割中表现出色。该模型通过预测掩模和标签统一地解决实例、语义及全景分割任务,可通过Hugging Face平台上的预训练模型来深入研究其应用。
yolov5m-license-plate - 车牌检测的YOLOv5模型支持Pytorch适用于多种视觉任务
PyTorchYOLOv5深度学习Huggingface开源项目模型目标检测Github车牌识别
YOLOv5m-license-plate项目提供基于YOLOv5技术的车牌检测模型,利用Pytorch进行对象检测,适用于多种计算机视觉任务。开发者可运用简单的Python代码实现精准车牌识别,并支持通过自定义数据集进行微调以提升效果。在keremberke数据集上的精度高达0.988,适合快速、可靠的车牌检测应用。访问项目主页获取更多信息和下载。
tiny-random-llava-1.5 - 基于LLaVA-1.5的轻量级多模态模型配置工具
计算机视觉开源项目TransformersLLaVA自然语言处理模型Huggingface深度学习Github
tiny-random-llava-1.5是一个基于LLaVA-1.5架构的轻量级多模态模型配置工具。通过自定义配置参数,如减少隐藏层数量、缩小中间层大小和降低注意力头数,该工具显著缩减了模型规模。它支持快速原型开发和测试,并可将模型和处理器轻松推送至Hugging Face Hub。这个工具主要用于多模态AI应用的快速验证和实验,适合开发者进行初步测试和概念验证。
vit-large-patch16-384 - Vision Transformer大模型,提升高分辨率图像分类表现
深度学习图像分类Huggingfacetransformer开源项目模型GithubVision TransformerImageNet
项目提供了预训练于ImageNet-21k并在ImageNet 2012上微调的Vision Transformer(ViT)大模型。ViT通过将图像分为固定大小的补丁并使用Transformer编码器进行解析,提升了分类精度和特征提取能力,支持高分辨率视觉识别任务并兼容PyTorch使用。
ddpm-celebahq-256 - 高效的无条件图像生成与渐进解压的新型扩散模型
图像合成Github开源项目DDPMHuggingface图像降噪深度学习无条件图像生成模型
本项目使用去噪扩散概率模型,实现了高质量的图像合成,借鉴了不平衡热力学,创新性地结合了变分界限和去噪评分匹配,并通过Langevin动力学实现渐进的解压缩。模型在CIFAR10数据集上取得了9.46的Inception得分和3.17的最新FID得分,在256x256 LSUN上样本质量与ProgressiveGAN相近。推理中可使用离散噪声调度器如ddpm、ddim或pndm,ddim和pndm在速度和质量上表现出色。项目支持用户自主训练模型,并提供官方示例用于推理和训练。
emotion-recognition-wav2vec2-IEMOCAP - 基于wav2vec2的语音情感识别开源模型
深度学习IEMOCAPHuggingfaceGithub开源项目模型语音情感识别SpeechBrainwav2vec2
基于SpeechBrain框架开发的语音情感识别模型,集成wav2vec2架构并通过IEMOCAP数据集训练。模型采用卷积网络和残差结构,结合注意力机制进行特征提取,在测试集达到78.7%准确率。支持16kHz音频输入并提供自动标准化处理功能,可直接应用于语音情感分析任务。
convnextv2_large.fcmae_ft_in22k_in1k - ConvNeXt-V2图像分类模型结合FCMAE预训练架构
ConvNeXt-V2模型比较ImageNet深度学习模型Github开源项目图像分类Huggingface
ConvNeXt-V2是一个大型图像分类模型,通过FCMAE框架预训练并在ImageNet数据集上微调。模型包含1.98亿参数,Top1准确率达87.26%,可用于图像分类、特征提取和嵌入等计算机视觉任务。其224x224的标准训练分辨率和多功能性使其成为视觉处理的实用选择。
eva02_large_patch14_448.mim_m38m_ft_in22k_in1k - EVA02大型视觉模型在ImageNet达到90.054%分类准确率
EVA02图像分类Huggingface开源项目模型GithubImageNet神经网络深度学习
EVA02_large_patch14_448是一个基于视觉Transformer架构的图像处理模型,通过在Merged-38M数据集预训练和ImageNet数据集微调,在图像分类任务中达到90.054%的准确率。模型整合了均值池化、位置编码等技术,支持图像分类和特征提取应用。
DanTagGen-beta - AI图片标签生成器助力精准艺术创作
深度学习HuggingfaceDanTagGen开源项目模型AI绘图生成模型数据集Github
DanTagGen-beta是一款基于LLaMA架构的AI标签生成器,专为Danbooru风格的AI艺术创作设计。通过5.3M数据集训练,该工具能够根据基础标签智能推荐相关标签,有效提升生成图像的质量和细节。DanTagGen-beta支持多种部署方式,包括llama.cpp和量化模型,为AI艺术创作者提供了高效的标签辅助工具。
zephyr-7B-alpha-AWQ - Zephyr 7B模型AWQ量化版支持轻量级推理部署
AWQGithub模型开源项目深度学习Huggingface文本生成Zephyr-7B模型量化
Zephyr 7B Alpha是一个基于Mistral-7B训练的对话助手模型。本版本采用AWQ量化技术将模型压缩至4位精度,使用wikitext数据集和128g量化参数进行优化。相比GPTQ,AWQ量化能提供更快的推理速度,同时显著降低显存占用,使模型可以在配置较低的GPU上高效部署运行。
SwallowMaid-8B-L3-SPPO-abliterated - 多语言模型合并实现角色扮演与写作能力增强
Github开源项目合并模型token模型融合模型SwallowMaid-8B-Llama-3-SPPO-abliteratedHuggingface深度学习Llama-3
SwallowMaid-8B-L3-SPPO-abliterated项目通过mergekit工具多步骤合并多种预训练语言模型,提升模型整体性能及角色扮演功能。该项目结合Llama-3-Instruct-abliteration-LoRA-8B等模型,采用线性和任务算术方法,并注入35% RP-Mix向量方向,增强角色扮演与叙事能力,同时保留Meta's Llama-3-Instruct微调特质,提升人机交互体验。
STRANGER-ANIME - 利用Huggingface API的数字艺术创作工具
AI绘图开源项目图像生成模型Huggingface人工智能深度学习Github
项目使用Huggingface API生成逼真的数字艺术图像,通过关键词组合生成细致且富有情感的视觉效果。用户可以根据需要调整诸如头发颜色、眼睛颜色和雨天等图像细节,实现个性化艺术创作,适用于艺术设计和视觉表达等领域,展示出现代AI在视觉艺术中的应用能力。
ddpm-ema-church-256 - DDPM模型在图像合成中的应用与性能分析
Denoising Diffusion Probabilistic Models噪声调度器Huggingface深度学习模型图像合成Github开源项目无条件生成
ddpm-ema-church-256项目采用DDPM模型进行图像合成,结合扩散概率模型与Langevin动态,取得CIFAR10数据集Inception分数9.46和FID分数3.17。支持DDPM、DDIM、PNDM调度器推理,实现质量与速度平衡,并提供预训练管道以生成高质量图像。项目为图像生成与压缩提供了创新思路。
tf_efficientnetv2_m.in21k_ft_in1k - EfficientNetV2的图片识别与特征提取
Github开源项目特征提取图像分类EfficientNet-v2Huggingface深度学习图像嵌入模型
EfficientNetV2模型在ImageNet-21k数据集上预训练,并在ImageNet-1k上微调,最初使用TensorFlow构建,由Ross Wightman移植至PyTorch。其参数量为54.1M,能够在不同分辨率下实现精确的图像识别,并支持通过timm库执行图像分类、特征提取和嵌入生成等多任务。