Project Icon

ReLA

先进的泛化引用表达分割技术

GRES项目提出了一种新颖的泛化引用表达分割方法,在CVPR 2023会议上被评为亮点论文。该项目采用Swin Transformer骨干网络,在gIoU指标上达到63.60%的性能。GRES项目不仅发布了新数据集,还开源了代码实现,支持ResNet-50和Swin-Tiny等多种骨干网络,为研究人员提供了多样化选择。项目的GitHub仓库提供了详细的安装说明、推理和训练代码,以及预训练模型。

CLIP-ReID - 基于CLIP的无标签图像重识别新方法
CLIP-ReIDGithub人工智能图像重识别开源项目视觉语言模型计算机视觉
CLIP-ReID提出了一种无需具体文本标签的图像重识别新方法。该方法基于CLIP视觉-语言模型,结合CNN和ViT架构,并运用SIE和OLP等技术进行优化。在MSMT17等多个基准数据集上,CLIP-ReID展现了领先的性能,为图像重识别领域开辟了新的研究方向。
SRe2L - 创新的ImageNet规模数据集压缩技术
GithubImageNetNeurIPS大规模数据开源项目数据集蒸馏自监督压缩
SRe2L项目提出了一种新颖的大规模数据集压缩方法,通过'挤压'、'恢复'和'重新标记'三个步骤实现ImageNet规模数据的高效压缩。该方法在NeurIPS 2023会议上获得spotlight展示,为数据集蒸馏领域带来新的研究视角。项目还包括SCDD和CDA等相关工作,共同推动数据集蒸馏技术在大数据时代的应用和发展。
upernet-swin-large - Swin Transformer 与 UperNet 结合的语义分割方法
GithubHuggingfaceSwin TransformerUperNet开源项目模型特征金字塔网络视觉语义分割
UperNet 利用 Swin Transformer 大型网络进行语义分割,框架包含组件如主干网络、特征金字塔网络及金字塔池模块。可与各种视觉主干结合使用,对每个像素预测语义标签,适合语义分割任务,并可在 Hugging Face 平台找到特定任务的优化版本。通过 Swin Transformer 与 UperNet 的结合,用户可在场景理解中实现精确的语义分割。
SRGAN - 使用生成对抗网络提升单图像超分辨率效果
GithubSRGANTensorLayerXVGG19开源项目计算机视觉超分辨率
本项目展示了使用生成对抗网络(GAN)如何实现单图像的高分辨率超分辨率。使用预训练的VGG19模型和高分辨率图像进行训练,支持多种深度学习框架,如TensorFlow、PaddlePaddle、MindSpore,未来还将支持PyTorch。项目提供完整的训练和评估指南,并通过简单的代码修改可以切换不同的后端框架。适用于图像处理和计算机视觉领域的研究人员和开发人员,项目中展示了技术实现的详细结果,还提供了参考文献和讨论资源。
RepViT - 移动设备上的高效实时视觉模型
GithubRepViT-SAMSAM模型实时分割开源项目移动设备轻量级CNN
RepViT是一个轻量级CNN模型家族,整合了Vision Transformer的架构设计,在移动设备上实现了80%以上的ImageNet准确率,延迟仅1毫秒。RepViT-SAM将RepViT应用于SAM模型,显著降低了计算需求,实现了移动设备上的实时任意目标分割。这两个模型在图像分类、目标检测和语义分割等视觉任务中均表现出色,兼具高性能和高效率。
LISA - 通过大型语言模型进行推理分割的技术
GithubLISA分割掩码多模态大语言模型开源项目推理分割
LISA凭借其多模态大型语言模型,开创推理分割任务,能够将复杂文本问题转化为精准的图像分割结果。该项目不仅包含超千个图像指令对、综合推理及世界知识评估,还展示出在无需推理的数据集训练下的强大零样本能力。推理训练图片指令对的引入进一步强化了其性能。详情请参阅相关论文。
RGBD-semantic-segmentation - RGB-D语义分割技术发展综述及性能评估
GithubRGBD语义分割开源项目性能对比数据集深度学习评估指标
本项目汇总了RGB-D语义分割领域的最新研究成果,提供详尽的论文列表和性能对比。涵盖NYUDv2等主流数据集的基准结果,包括像素精度、平均精度、mIoU等关键指标。通过定期更新反映该领域最新进展,为计算机视觉研究人员提供全面的参考资源。项目内容还包括数据集介绍、评估指标说明和详细的性能对比表格,全面呈现RGB-D语义分割技术的发展脉络。对于想深入了解该领域的研究人员和工程师而言,这是一个高价值的信息聚合平台。
LViT - 结合语言和视觉Transformer的医学图像分割技术
GithubLViTVision Transformer医学图像分割开源项目数据集深度学习
LViT是一种创新的医学图像分割方法,融合了语言信息和视觉Transformer。该技术在QaTa-COV19、MosMedData+和MoNuSeg等多个数据集上展现出优异性能,大幅提升了分割精度。项目包含完整代码实现、数据准备指南、训练评估流程及详细实验结果。除常规任务外,LViT在结肠息肉和食管CT等特定领域分割中也表现出色。
BiRefNet - 高分辨率图像分割的双边参考网络
BiRefNetGithubHugging Face双边参考图像分割开源项目高分辨率
BiRefNet是一个专注于高分辨率图像分割的创新网络。该项目在DIS、COD和HRSOD等多个高分辨率任务中取得了领先成果。BiRefNet采用双边参考机制提升分割精度,支持HuggingFace一行代码加载。项目开源了完整代码实现、预训练模型,并提供在线演示。这一工作为高分辨率图像分割研究带来了新的思路。
swin2SR-realworld-sr-x4-64-bsrgan-psnr - 基于SwinV2的实景图像4倍超分辨率模型
GithubHuggingfaceSwin2SR图像处理图像超分辨率开源项目模型深度学习计算机视觉
Swin2SR是一款图像超分辨率模型,支持图像4倍放大。该模型由Conde等人开发,基于SwinV2 Transformer架构,专注于解决实际场景中的图像超分辨率问题,可有效处理压缩图像的放大和修复。模型提供完整的官方文档支持。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号