#深度学习

stable-diffusion-3.5-large-turbo - 高效创新的4步快速文生图AI模型
AI绘画Github模型生成式AIHuggingface图像生成深度学习开源项目Stable Diffusion 3.5
Stable Diffusion 3.5大型快速版是一款基于多模态扩散变换器架构的高效文生图模型。它采用对抗性扩散蒸馏技术和三个预训练文本编码器,仅需4步即可完成推理。该模型在图像质量、文本理解、字体渲染和资源效率方面均有显著提升,适用于艺术创作、教育工具和生成模型研究等领域。模型遵循严格的安全准则和使用政策,为用户提供可靠的AI图像生成解决方案。
MiniLMv2-L6-H384-distilled-from-BERT-Large - 微软开发的轻量压缩型自然语言处理模型
开源项目自然语言处理深度学习模型人工智能MiniLMv2GithubMicrosoftHuggingface
MiniLMv2-L6-H384-distilled-from-BERT-Large是微软开发的轻量级自然语言处理模型,通过知识蒸馏技术从BERT-Large模型压缩而来。该模型在保持性能的同时,显著降低了模型体积和计算资源需求,适合在资源受限场景下部署使用。
mask2former-swin-large-coco-panoptic - 基于Transformer架构的高效图像分割模型
开源项目深度学习图像分割视觉模型模型Mask2FormerGithubCOCO数据集Huggingface
Mask2Former-Swin-Large是一个基于COCO数据集训练的图像分割模型,通过多尺度可变形注意力和掩码注意力机制,实现了实例、语义和全景分割的统一处理。相比MaskFormer具有更高的性能和计算效率
distilbert-base-uncased - Habana Gaudi处理器的DistilBERT训练配置方案
Habana开源项目深度学习HPU模型模型训练DistilBERTGithubHuggingface
这是一个用于Habana Gaudi处理器(HPU)的DistilBERT基础模型配置文件,集成了AdamW实现、梯度裁剪和混合精度训练功能。借助Optimum Habana接口实现模型在HPU设备上的训练和推理,支持问答等任务处理,可使用bf16混合精度进行训练
depth_anything_vitl14 - 先进的计算机视觉深度估计开源框架
图像处理计算机视觉开源项目深度学习模型深度估计Depth AnythingGithubHuggingface
depth_anything_vitl14是一个深度估计模型框架,专注于从单张图像中提取深度信息。该框架采用大规模无标记数据训练方式,具备完整的模型部署文档和Python接口。开发者可通过简单的代码调用实现图像深度估计,项目同时提供在线演示平台和技术文档支持。
dreamshaper-7 - 支持写实与动漫风格的Stable Diffusion图像生成模型
开源项目Stable Diffusion深度学习模型人工智能Dreamshaper图像生成GithubHuggingface
Dreamshaper-7是基于stable-diffusion-v1-5改进的图像生成模型。作为第7代版本,该模型增强了LoRA支持性能,优化了写实和动漫风格的生成效果,并改进了NSFW内容处理。模型采用Diffusers框架,支持文本生成图像功能,便于开发者快速部署应用。与早期版本相比,新版本在图像多样性和质量方面得到提升。
Qwen1.5-7B-Chat - 基于Transformer架构的多语言语言模型 支持32K上下文
语言模型开源项目深度学习模型Qwen1.5人工智能Github自然语言处理Huggingface
Qwen1.5-7B-Chat是Qwen2的beta版本,采用Transformer架构的仅解码器语言模型。相比前代版本,新增了8种规模的模型选择,优化了聊天模型性能,增加了多语言支持,实现了32K上下文长度。模型经过大规模数据预训练,结合监督微调和直接偏好优化完成训练。
roberta-base-suicide-prediction-phr - RoBERTa自然语言处理模型实现文本自杀倾向识别
预测模型开源项目深度学习roberta-base模型文本分类自杀倾向GithubHuggingface
该模型通过对Reddit社交平台的文本数据进行分析训练,利用RoBERTa自然语言处理技术识别文本中的自杀倾向。测试结果显示模型具有96.5%的准确率、96.6%的召回率和96.4%的精确率。项目采用严格的文本清洗和预处理流程,可应用于心理健康监测领域的自动化分析。
Mistral-Nemo-Base-2407 - Mistral和NVIDIA联合开发的多语言大模型支持128k超长上下文
开源项目深度学习模型GithubMistral-Nemo-Base-2407机器学习大语言模型Huggingface多语言支持
Mistral-Nemo-Base-2407是Mistral AI与NVIDIA合作推出的开源语言模型,采用12B参数规模和128k上下文窗口设计。模型支持英语、法语等8种语言,并在MMLU等多项基准测试中表现出色。基于40层transformer架构,可作为Mistral 7B的升级替代方案。该项目以Apache 2许可证发布,支持多语言及代码生成场景。
vgg16.tv_in1k - 基于ImageNet-1k训练的VGG16图像分类模型
神经网络开源项目深度学习模型ImageNet图像分类VGGGithubHuggingface
VGG16是一个经典的深度学习图像分类模型,基于ImageNet-1k数据集训练而成。模型包含1.384亿个参数,处理224x224像素输入图像,支持图像分类、特征图提取和图像嵌入等功能。借助timm库可实现模型的快速部署,广泛应用于计算机视觉领域。
SOLAR-10.7B-v1.0 - 深度扩展技术驱动的大语言模型实现超30B参数级性能
大模型语言模型人工智能模型深度学习GithubSOLAR-10.7BHuggingface开源项目
SOLAR-10.7B采用深度扩展(DUS)技术开发,通过整合Mistral 7B权重和持续预训练,实现10.7B参数达到30B级模型性能。在H6评测中得分74.20,高于Mixtral-8x7B等大型模型。模型以Apache-2.0许可开源发布,提供完整预训练版本。
segformer-b5-finetuned-cityscapes-1024-1024 - SegFormer-b5模型在CityScapes数据集上微调的语义分割应用
图像处理模型SegFormer深度学习Github语义分割Huggingface开源项目Transformer
SegFormer-b5是一个在CityScapes数据集上微调的语义分割模型。它结合层次化Transformer编码器和轻量级MLP解码头,在1024x1024分辨率下展现优秀性能。该模型经ImageNet-1k预训练后,通过添加解码头并在特定数据集微调,可应用于自动驾驶场景理解等多种语义分割任务。
inception_v4.tf_in1k - 面向图像分类的Inception-v4预训练模型
GithubInception-v4图像分类Huggingface深度学习ImageNet-1k开源项目神经网络模型
Inception-v4是一个在ImageNet-1k数据集上预训练的深度学习模型,参数量为4270万,支持299x299图像输入。通过timm库可实现图像分类、特征图提取和图像嵌入等核心功能。该模型从TensorFlow移植至PyTorch,适用于计算机视觉领域的各类图像处理任务。
tiny_starcoder_py - 基于StarCoder架构的Python代码生成AI模型
人工智能模型代码生成StarCoder深度学习模型GithubTinyStarCoderPyHuggingface开源项目
TinyStarCoderPy是一个基于StarCoder架构的164M参数AI模型,针对Python编程场景进行优化。该模型在100B规模的Python代码数据集上完成训练,具备代码生成和填空功能,支持8k上下文长度和多查询注意力机制,可用于GitHub代码开发环境中的编程辅助任务。
PixArt-Sigma-XL-2-1024-MS - 基于Transformer的高分辨率图像生成模型
GithubHuggingface图像生成深度学习AI绘图开源项目PixArt-Σ模型文本转图像
PixArt-Sigma-XL-2-1024-MS是一款基于纯Transformer架构的潜在扩散模型,能够直接从文本生成高达4K分辨率的图像。该模型采用T5文本编码器和VAE潜在特征编码器,适用于艺术创作、设计和教育研究。尽管在生成照片级真实感和复杂构图方面仍有提升空间,但它为文本到图像生成领域带来了新的可能性。
convit_small.fb_in1k - ConViT结合软卷积特性的图像分类框架
Github图像分类Huggingface深度学习ConViTImageNet-1k开源项目神经网络模型
ConViT是一个在ImageNet-1k数据集上训练的图像分类模型,结合了CNN和Transformer优势。模型参数量2780万,支持224x224图像输入,可用于分类和特征提取任务。模型提供预训练权重,适用于多种计算机视觉应用场景。
ner-english-ontonotes-fast - 基于Flair框架的英文命名实体识别模型
Github命名实体识别自然语言处理深度学习Huggingface开源项目模型FlairOntonotes
基于Flair框架开发的英文命名实体识别模型,支持识别人名、地点、组织机构等18类实体。模型在Ontonotes数据集上F1分数达到89.3%,通过Python API可快速集成使用。适用于各类英文文本的命名实体识别任务。
moirai-1.0-R-large - 基于Transformer的通用多变量时序预测模型
机器学习GithubMoiraiHuggingface深度学习开源项目模型时间序列预测大规模预训练
Moirai-1.0-R-large是一个基于Masked Encoder的时序预测Transformer模型,通过LOTSA数据集预训练而成。模型采用补丁嵌入和Transformer架构设计,支持多变量时序数据处理和动态协变量预测。用户可通过uni2ts库实现模型部署,拥有3.11亿参数的模型规模使其成为Moirai系列中参数量最大的版本。
TempestV0.1 - 基于600万图像数据的超高分辨率AI生成引擎
GithubHuggingface图像生成深度学习TempestV0.1开源项目模型人工智能模型高分辨率
TempestV0.1是一个基于600万张高质量图像数据集训练的AI图像生成模型。它支持1400x2100至4800x7200的超高分辨率输出,经过300万次迭代训练,在细节和纹理表现上有出色表现。该模型提供Base和Artistic两个版本:Base版本生成连贯的图像,Artistic版本则具有更强的艺术表现力。TempestV0.1适用于需要高分辨率、高质量图像输出的各种场景。
kandinsky-2-2-prior - 新一代高性能AI图像生成模型 融合CLIP与扩散技术
图像生成Kandinsky 2.2模型深度学习Github人工智能艺术文生图开源项目Huggingface
Kandinsky 2.2是一款结合CLIP模型和扩散技术的开源AI图像生成系统。该模型支持文本生成图像、图像编辑和插值等功能,可生成1024x1024分辨率的图像。系统采用CLIP-ViT-G模型作为编码器,提高了图像质量和文本理解能力。在COCO_30k数据集上的FID评分为8.21,显示出较强的图像生成性能。
bert-xsmall-dummy - 轻量级BERT模型构建与部署方法
BERT代码开发人工智能模型深度学习Github模型训练开源项目Huggingface
bert-xsmall-dummy项目展示了轻量级BERT模型的创建方法,通过BertConfig进行参数配置,实现基础BERT模型构建及PyTorch到TensorFlow的转换功能。该项目适用于模型原型设计和测试场景。
msmarco-MiniLM-L-6-v3 - 基于BERT的句子编码模型实现文本语义向量化和相似度计算
嵌入模型Github深度学习模型语义向量自然语言处理sentence-transformersHuggingface开源项目
msmarco-MiniLM-L-6-v3是一个基于sentence-transformers的句子编码模型,将文本映射至384维向量空间。模型基于BERT架构,支持文本相似度计算和聚类分析,可通过sentence-transformers或HuggingFace Transformers框架调用。
dpn98.mx_in1k - 基于DPN架构的ImageNet图像分类深度学习模型
ImageNet图像分类模型深度学习GithubDPN机器学习开源项目Huggingface
DPN98是一个在ImageNet-1k数据集上训练的图像分类模型,采用双路径网络架构,具有6160万参数规模。该模型支持224x224像素输入,可用于图像分类、特征提取和图像嵌入。模型已从MXNet迁移至PyTorch框架,并提供预训练权重,适合进行计算机视觉研究和应用开发。
starcoder2-15b - 基于15B参数训练的多语言代码生成模型
编程语言人工智能模型深度学习代码生成模型StarCoder2GithubHuggingface开源项目
starcoder2-15b是NVIDIA开发的代码生成模型,支持600+种编程语言,采用GQA和FIM技术训练。模型具有16K token上下文窗口,基于4万亿以上的代码数据集训练。支持多种精度和量化部署方案,遵循BigCode OpenRAIL-M许可协议,具备代码溯源功能。
wav2vec2-large-lv60 - 深度学习实现高性能语音识别 仅需少量标记数据
语音识别语音预训练模型深度学习GithubWav2Vec2音频处理Huggingface开源项目
Wav2Vec2是Facebook开发的语音预训练模型,通过无监督学习从原始音频中提取语音特征。该模型在大规模未标注数据上预训练后,能够以极少量的标注数据实现高性能语音识别。在LibriSpeech测试集上,全量标注数据训练可达1.8/3.3词错率;仅用1小时标注数据即超过先前100小时数据的最佳结果;10分钟标注数据也能实现4.8/8.2词错率。Wav2Vec2为低资源环境下的高质量语音识别提供了新的可能性。
AnimateLCM - 基于机器学习的轻量级视频生成框架
AnimateLCM图像处理模型深度学习Github视频生成人工智能动画Huggingface开源项目
AnimateLCM是一个视频生成框架,支持文本到视频和图像到视频的转换功能。该框架采用轻量级计算方式,无需使用预训练视频数据即可生成个性化视频。框架集成了SVD-xt和I2V模型,通过6步推理完成视频生成。基于Diffusers库开发,支持多种复杂场景的视频生成任务。
stable-cascade - 基于高压缩率架构的新一代AI图像生成模型
图像生成人工智能模型深度学习Stable CascadeGithub机器学习开源项目Huggingface
Stable Cascade采用三阶段级联架构设计,实现了42倍的图像压缩率,可将1024x1024图像压缩至24x24尺寸。模型在保持图像重建质量的同时,显著提升了处理效率,支持LoRA、ControlNet等主流扩展功能。当前发布了两个Stage C版本,分别为10亿和36亿参数规模。
tiny-OPTForCausalLM-lora - PEFT框架的深度学习模型微调实现
开源项目深度学习模型PEFT框架版本训练过程Github模型微调Huggingface
基于PEFT 0.4.0.dev0版本开发的深度学习模型微调项目,通过参数高效微调方法,在有限计算资源条件下完成模型训练。主要应用于大型预训练模型的轻量级适配和迁移学习场景。
bigbird-roberta-base - 高性能长序列文本处理的稀疏注意力Transformer模型
BigBird开源项目深度学习模型长序列处理Githubtransformer模型自然语言处理Huggingface
BigBird-RoBERTa-base是一种基于块稀疏注意力机制的Transformer模型,可处理长达4096个token的序列。该模型在Books、CC-News、Stories和Wikipedia等大规模数据集上预训练,大幅降低了计算成本。在长文档摘要和长上下文问答等任务中,BigBird-RoBERTa-base展现出优秀性能。模型支持灵活配置注意力类型,可在默认的块稀疏模式和全注意力模式间切换,为超长序列文本处理提供了高效方案。
bert-base-turkish-uncased - 巴伐利亚州立图书馆开源的土耳其语预训练BERT模型
BERT开源项目自然语言处理深度学习模型Github土耳其语Hugging FaceHuggingface
巴伐利亚州立图书馆MDZ团队开发的土耳其语BERT模型,基于35GB语料库训练而成,涵盖OSCAR、维基百科及OPUS等多个数据集,包含44亿个标记。该模型采用Google TPU v3-8进行200万步训练,完全兼容PyTorch-Transformers框架,可应用于词性标注、命名实体识别等土耳其语自然语言处理任务。
twitter-roberta-base-emotion - 基于RoBERTa的推特情绪识别与分析模型
Huggingface开源项目深度学习模型RoBERTaGithub情感识别自然语言处理推特数据分析
twitter-roberta-base-emotion是一个基于RoBERTa架构的情绪识别模型,经过5800万条推特数据训练。模型可识别喜悦、乐观、愤怒和悲伤等情绪类型,并通过TweetEval基准进行了微调。支持Python接口调用,适用于文本情感分析任务。
vit-large-patch16-224 - 大型视觉Transformer模型在ImageNet数据集上的图像分类实现
Github图像分类HuggingfaceVision Transformer深度学习ImageNet开源项目模型计算机视觉
Vision Transformer大型模型在ImageNet-21k数据集上完成预训练,包含1400万张图像和21,843个分类。模型通过将图像分割为16x16像素块进行处理,支持224x224分辨率输入,并在ImageNet 2012数据集上进行微调。该模型基于PyTorch框架实现,可用于图像分类等视觉任务。
resnet18.tv_in1k - 精简高效的ResNet18图像分类模型
ResNet神经网络图像分类模型深度学习Github模型架构Huggingface开源项目
resnet18.tv_in1k是一个基于ResNet-B架构的图像分类模型,采用ReLU激活函数和7x7卷积池化层。模型参数量为11.7M,运算量为1.8 GMACs,兼具轻量和高效。支持图像分类、特征图提取和图像嵌入,可处理224x224尺寸图像。该模型使用ImageNet-1k数据集训练,是torchvision的原始权重模型,适用于需要平衡性能和资源的应用场景。
sdxl-instructpix2pix-768 - 基于SDXL的指令式图像编辑模型
深度学习Github开源项目图像编辑模型HuggingfaceSDXL图像生成人工智能
该项目将InstructPix2Pix方法应用于Stable Diffusion XL (SDXL)模型,开发了一个能够根据文本指令精确编辑图像的AI系统。它可以执行多种图像编辑任务,如改变天空景象、转换绘画风格和调整人物年龄等。项目通过diffusers库提供简便的使用接口。作为一个实验性模型,该项目仍有优化空间,开发者欢迎用户反馈和讨论。
densenet201.tv_in1k - DenseNet图像分类模型实现高效特征提取与精准分类
ImageNetDenseNetGithub开源项目图像分类计算机视觉Huggingface深度学习模型
DenseNet201是一个在ImageNet-1k数据集上训练的图像分类模型。该模型拥有2000万参数,支持224x224像素输入,适用于图像分类、特征图提取和图像嵌入等任务。其密集连接的卷积网络结构不仅提供准确的分类结果,还能生成丰富的特征表示。模型通过timm库提供预训练权重,便于快速部署和使用。
mGPT - 基于GPT架构的大规模多语种自然语言处理模型
GPTMegatron开源项目自然语言处理模型Huggingface多语言模型深度学习Github
作为一个基于GPT-3架构的多语言处理模型,mGPT具备13亿参数量,覆盖25个语系的61种语言。模型采用Wikipedia和Colossal Clean Crawled Corpus作为训练数据,结合Deepspeed与Megatron框架实现并行计算,在低资源语言处理领域达到与XGLM相当的性能水平。模型训练过程中处理了488亿UTF字符,借助256个NVIDIA V100 GPU完成了为期14天的训练。