conditional-detr-resnet-50

基于条件机制增强ResNet-50的图像检测模型

Github 模型快速训练收敛 Conditional DETR 开源项目对象检测 Huggingface COCO 2017 ResNet-50

Conditional DETR结合了ResNet-50，通过条件交叉注意力机制加速COCO 2017数据集上的训练收敛。在目标检测任务中，该模型解决了训练收敛缓慢的问题，提升了特征提取和目标分类的效率。通过条件空间查询机制，模型能够更高效地定位目标区域，提高了训练速度。在R50和R101骨干网下加速6.7倍，DC5-R50和DC5-R101下加速10倍，并支持PyTorch。

Github

Huggingface

介绍相关项目

image-super-resolution - Keras实现的高质量图像超分辨率，支持多种网络结构和训练脚本

GANGithubImage Super-ResolutionKerasPSNRResidual Dense Networks开源项目

本项目旨在通过实现多种残差密集网络（RDN）和残差在残差密集网络（RRDN）来提升低分辨率图像的质量，并支持Keras框架。项目提供了预训练模型、训练脚本以及用于云端训练的Docker脚本。适用于图像超分辨率处理，兼容Python 3.6，开源并欢迎贡献。

BEVFormer_tensorrt - BEVFormer和BEVDet的TensorRT高效部署方案

BEV 3D DetectionGPU内存优化GithubTensorRT开源项目推理加速量化

本项目实现BEVFormer和BEVDet在TensorRT上的高效部署，支持FP32/FP16/INT8推理。通过优化TensorRT算子，BEVFormer base模型推理速度提升4倍，模型大小减少90%，GPU内存节省80%。同时支持MMDetection中2D目标检测模型的INT8量化部署。项目提供详细基准测试，展示不同配置下的精度和速度表现。

yolos-small-finetuned-license-plate-detection - 车牌识别微调模型提升物体检测能力

GithubHuggingfaceYOLOS开源项目模型模型微调目标检测视觉Transformer车牌识别

YOLOS小型模型经过微调适用于车牌检测，使用5200张图片进行训练，并在380张图片上验证，实现49.0的平均精度。模型支持PyTorch平台，并通过Python代码执行对象检测与边界框预测。其此前版本曾在ImageNet-1k和COCO 2017数据集上进行训练，具备卓越的识别性能。

resnet152d.ra2_in1k - ResNet152d.ra2_in1k模型在图像分类中的应用与特点

GithubHuggingfaceImageNet-1kRandAugmentResNet-Dtimm图像分类开源项目模型

ResNet152d.ra2_in1k是基于ResNet-D架构的图像分类模型，采用ReLU激活和三层3x3卷积stem结构。该模型在ImageNet-1k上训练，并使用RandAugment RA2策略、RMSProp优化器和EMA权重平均进行优化，支持动态学习率调度和特征映射提取，其性能在复杂图像处理任务中表现优秀。

ARC - 自适应旋转卷积技术提升目标检测准确度

ARCGithub开源项目旋转目标检测物体检测自适应旋转卷积计算机视觉

ARC项目引入自适应旋转卷积操作，用于捕获图像中物体的方向信息。该技术通过旋转卷积核提高了旋转目标检测的性能和效率。项目开源了代码实现、预训练模型和使用说明，为计算机视觉研究提供了有价值的资源。

Vehicle-Detection - 深度学习与YOLO算法实现的车辆检测系统

GithubYOLO算法开源项目数据集模型训练深度学习车辆检测

Vehicle-Detection项目结合深度学习和YOLO算法实现车辆检测。项目提供完整工作流程，涵盖数据集准备、模型训练和测试。采用YOLOv5预训练模型微调，集成wandb工具监控性能。项目包含自定义车辆数据集，并提供详细的安装、训练和测试指南。

U-2-Net - 深度嵌套U结构助力显著对象精准检测

GithubU2-Net人像分割图像背景移除开源项目模型训练视觉应用

U-2-Net，一项荣获2020年模式识别最佳论文奖的创新技术，通过其深度嵌套U结构显著提升对象检测精准度。此技术广泛适用于图像处理、视频分析、背景移除及人像生成等领域，并提供丰富的开发资源助力应用的快速迭代。

3D-deformable-attention - 3D可变形注意力技术提升自动驾驶物体检测精度

3D目标检测BEVFormerDFA3DGithub开源项目深度估计特征提升

3D-deformable-attention项目提出了3D可变形注意力(DFA3D)操作符，用于2D到3D特征提升。该方法首先利用深度估计将2D特征扩展到3D空间，再通过DFA3D聚合3D特征。这种方法缓解了深度歧义问题，并支持逐层特征细化。在多个基准测试中，DFA3D平均提高1.41 mAP，高质量深度信息下最高提升15.1 mAP。研究结果显示DFA3D在自动驾驶3D目标检测等任务中具有较大潜力。

fast-reid - 重识别方法和工具箱

FastReIDGithubPyTorch人脸识别开源项目模型转化重识别

FastReID是一个研究平台，实现了先进的实例重识别算法，重新编写前一版本（reid strong baseline）而来。该平台支持图像检索和人脸识别等多项任务，具备自动混合精度训练、多GPU分布式训练、模型蒸馏等功能，支持多种骨干网络结构和多个数据集的同时测试。新更新包括支持DG-ReID和Vision Transformer骨干网络。更多信息请参考官方文档。

3D-ResNets-PyTorch - 用于动作识别的 3D ResNets

3D ResNetsAction RecognitionGithubPyTorchSpatiotemporal 3D CNNs开源项目预训练模型

该项目提供基于PyTorch的3D ResNet代码，适用于动作识别，支持Kinetics和Moments in Time等数据集。项目包含训练、微调和测试脚本，并提供预训练模型，支持最新的PyTorch版本和分布式训练。用户可使用详细脚本进行数据准备和模型评估，适合研究与应用。

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计是一个多功能的在线设计和创意平台，提供广泛的设计工具和资源，以满足不同用户的需求。从专业的图形设计师到普通用户，无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑，稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合，帮助用户轻松实现创意设计。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号