#计算机视觉

vit-base-patch32-224-in21k - Vision Transformer模型在2100万图像数据集上预训练
Vision Transformer计算机视觉图像识别ImageNet-21k深度学习模型Github开源项目Huggingface
Vision Transformer (ViT) 是一种基于transformer架构的视觉模型,在ImageNet-21k数据集上预训练。该模型将图像转换为固定大小的patch序列,通过线性嵌入和位置编码输入transformer编码器。ViT可应用于图像分类等多种视觉任务,只需在预训练编码器上添加任务特定层。模型在224x224分辨率下训练,批量大小为4096,在多项图像分类基准测试中展现出优秀性能。
Tarsier-7b - 开源大规模视频语言模型,提升视频描述和理解能力
视频描述开源项目人工智能模型Github机器学习Huggingface计算机视觉Tarsier
Tarsier-7b是一个开放源代码的视频语言模型,专注于视频描述和理解。该模型使用两阶段的训练策略以增强性能,能够生成高质量的视频描述。训练过程包括多任务预训练和多粒度微调,并通过多种数据集进行评估,从而保证出色性能。适合从事计算机视觉与自然语言处理研究的研究人员和爱好者使用,可在相关平台获取更多信息。
tiny-random-llava-1.5 - 基于LLaVA-1.5的轻量级多模态模型配置工具
计算机视觉开源项目TransformersLLaVA自然语言处理模型Huggingface深度学习Github
tiny-random-llava-1.5是一个基于LLaVA-1.5架构的轻量级多模态模型配置工具。通过自定义配置参数,如减少隐藏层数量、缩小中间层大小和降低注意力头数,该工具显著缩减了模型规模。它支持快速原型开发和测试,并可将模型和处理器轻松推送至Hugging Face Hub。这个工具主要用于多模态AI应用的快速验证和实验,适合开发者进行初步测试和概念验证。
llava-v1.6-34b - 大规模多模态模型的开源项目介绍
自然语言处理计算机视觉HuggingfaceGithubLLaVA多模态人工智能开源项目模型
模型在大规模多模态模型和聊天机器人领域的研究中有重要应用,采用多样化的数据集提升不同任务表现,适合计算机视觉、自然语言处理及人工智能的研究者使用。
detr-resnet-50-panoptic - DETR模型:结合ResNet-50的端到端目标检测与全景分割
Transformer计算机视觉开源项目目标检测模型DETRHuggingface语义分割Github
DETR-ResNet-50是一种创新的目标检测模型,融合了Transformer和卷积神经网络技术。该模型在COCO数据集上训练,支持端到端的目标检测和全景分割。通过100个对象查询机制,DETR实现了高效准确的目标识别。在COCO 2017验证集上,模型展现出优秀性能:框AP为38.8,分割AP为31.1,全景质量(PQ)达43.4。这一模型为计算机视觉任务提供了新的解决方案。
yolov10n - YOLOv10n:实时对象检测的创新技术
开源项目模型GithubHuggingfaceCOCO数据集PyTorch模型计算机视觉实时物体检测YOLOv10
YOLOv10n项目展示了对象检测的实时进展,结合计算机视觉与对象识别算法。其基于PyTorch的实现并支持COCO数据集用于训练与推理,保证了性能和应用的广泛性。简单的安装和模块调用,提供了快速的目标物体检测及识别功能,支持优化模型上传至相关平台,提升模型精度与效率。
vit-base-patch32-384 - Vision Transformer图像分类模型支持大规模数据训练
ImageNetGithub开源项目图像分类计算机视觉Vision TransformerHuggingface深度学习模型
Vision Transformer(ViT)是一款图像分类模型,采用Transformer编码器架构,通过将图像分割为固定大小patch进行处理。模型在包含1400万张图像的ImageNet-21k数据集完成预训练,并在ImageNet-1k数据集上进行384x384分辨率的微调。提供预训练权重,可直接应用于图像分类或迁移学习任务。