#视觉模型

Awesome-Parameter-Efficient-Transfer-Learning - 参数高效迁移学习的全面资源汇总
Github开源项目GitHub预训练模型参数高效微调Awesome-Parameter-Efficient-Transfer-Learning视觉模型
该项目提供了关于参数高效迁移学习的全面资源,包含多种调优方法和最新研究。研究人员和工程师可以参考这些资源,以提高预训练视觉模型的微调效率,并了解最新的项目更新,如视觉PEFT库和基准测试。
awesome-contrastive-self-supervised-learning - 对比自监督学习论文和资源汇总
Github开源项目深度学习自监督学习对比学习视觉模型表示学习
该项目收录了对比自监督学习领域的重要论文和资源,覆盖从2017年至今的研究成果。内容包括综述、算法、应用等,按年份分类整理。研究人员可通过此项目快速了解该领域发展历程和最新动态,是深入研究对比学习的重要参考资料。
bioclip - 生物分类视觉模型提升物种识别精度
Github开源项目模型Huggingface视觉模型濒危物种进化生物学BioCLIP生物分类
BioCLIP是一个基于CLIP架构的生物学视觉模型,利用包含超过45万分类单元的数据集,在生物分类测试中表现超过基准16%-17%。它能学习与生命树一致的层次表示,支持生物学家进行新物种和相似生物的发现。
siglip-so400m-14-980-flash-attn2-navit - 提升视觉模型分辨率与NaViT策略融合
Github开源项目模型Huggingface图像分辨率视觉模型SiglipVisionModelHuggingFaceM4NaViT
项目提升视觉塔最大分辨率到980x980,结合NaViT策略,支持变分辨率及纵横比自适应的图像处理。这些更新确保与原模型的向后兼容性,同时扩展了视觉处理潜力。通过插值位置嵌入提升分辨率,NaViT策略实现灵活性。用户无需指定patch_attention_mask即可兼容旧版本,享受新功能的优势,确保模型在高效处理高分辨率图像时保持兼容性。
t2i-adapter-lineart-sdxl-1.0 - 文本与线条艺术的融合应用
Github开源项目Stable Diffusion XL模型文本到图像生成模型Huggingface视觉模型边缘检测
T2I Adapter引入线条艺术条件,为StableDiffusionXL模型增强文本到图像生成功能。该项目由腾讯ARC和Hugging Face合作开发,专业处理复杂图像造型和结构。通过Apache 2.0许可证分发,便于集成与扩展。模型的条件设置挖掘更多可控能力,增加艺术与AI图像生成的创意。GitHub库和相关论文提供完整指南和示例,适合开发者与研究人员。
swin-base-patch4-window7-224 - 微软开源分层视觉Transformer图像分类模型
Github开源项目深度学习模型图像分类ImageNetHuggingface视觉模型Swin Transformer
Swin Transformer是Microsoft开发的图像分类模型,通过层级特征图构建和局部窗口注意力机制实现线性计算复杂度。模型在ImageNet-1k数据集上完成224x224分辨率训练,可作为通用主干网络支持图像分类和密集识别任务。其创新的窗口划分策略使模型在处理大尺寸图像时具有更高的效率。
I-live-well-foodai - 视觉transformer食品图像智能分类系统
Github开源项目模型训练机器学习模型图像分类Huggingface视觉模型vit-base-patch16-224
这是一个采用Google视觉transformer技术开发的食品图像分类系统,通过对大量食品图片数据的深度学习,模型识别准确率达到72.33%。该系统可以精准识别各类食品图像,在智能餐饮分析、营养管理等领域具有实际应用价值。
theia-base-patch16-224-cddsv - Theia模型助力机器人学习的多元视觉基础
Github开源项目模型Huggingface视觉模型视觉任务机器人学习Theia深层学习
Theia通过整合多种视觉模型如CLIP和ViT,增强机器人学习的视觉能力。该模型以DeiT-Tiny为基础,能够在较少的训练数据和较小的模型尺寸下,超越以往模型的表现,为自动化应用提供多样化的视觉知识支持。