Project Icon

C-Tran

Transformer在多标签图像分类中的应用

C-Tran是一个探索Transformer在多标签图像分类中应用的开源项目。该项目提出了一种通用多标签图像分类方法,在COCO80和VOC20等数据集上展现出优秀性能。项目包含完整的训练和运行指南,涵盖数据处理和模型训练等关键步骤。C-Tran为计算机视觉领域提供了新的研究方向,对推进多标签图像分类技术具有重要意义。

cvt-13 - 融合CNN和ViT优势的创新图像分类模型
CvTGithubHuggingfaceImageNet图像分类开源项目模型深度学习视觉转换器
CvT-13是一款结合卷积神经网络(CNN)和视觉变换器(ViT)优势的图像分类模型。该模型在ImageNet-1k数据集上预训练,可处理224x224分辨率图像。CvT-13融合了CNN的局部特征提取和ViT的全局建模能力,在图像分类任务中表现出色。研究者可通过Hugging Face的transformers库轻松应用此模型于不同的图像分类项目中。
CTranslate2 - 高效的Transformer模型推理库,提供多种性能优化方案
CTranslate2Github并行执行开源项目性能优化模型压缩转换器模型
CTranslate2是一个用于Transformer模型高效推理的C++和Python库,通过权重量化、层融合、批次重排序等技术,显著提升CPU和GPU上的执行速度并减少内存占用。支持多种模型类型,包括编码器-解码器、仅解码器和仅编码器模型,兼容OpenNMT-py、OpenNMT-tf、Fairseq等框架。其主要特点包括自动CPU检测、代码分发、并行和异步执行以及动态内存使用。
vision_transformer - 视觉Transformer和MLP-Mixer模型库 高性能图像识别
FlaxGithubJAXMLP-MixerVision Transformer图像识别开源项目
项目包含多种视觉Transformer(ViT)和MLP-Mixer模型实现,提供ImageNet和ImageNet-21k预训练模型及JAX/Flax微调代码。通过交互式Colab笔记本可探索5万多个模型检查点。这些高性能图像分类模型代表了计算机视觉的前沿进展。
ctransformers - Python接口的高效C/C++ Transformer模型
CTransformersGGMLGithubLangChainPythonTransformer模型开源项目
CTransformers提供Python接口,通过GGML库高效加载和运行C/C++实现的Transformer模型。支持多种模型类型,如GPT-2、GPT-J、LLaMA等,并可与Hugging Face和LangChain集成。提供CUDA、ROCm和Metal兼容的GPU加速选项,适合高性能自然语言处理任务。
multispectral-object-detection - 多光谱图像融合的高效目标检测方法
GithubTransformerYOLOv5多光谱目标检测开源项目计算机视觉跨模态融合
该项目提出了Cross-Modality Fusion Transformer (CFT)多光谱目标检测方法,利用Transformer架构融合RGB和热红外图像信息。CFT在FLIR、LLVIP等数据集上取得了优秀的检测结果,尤其在夜间场景表现突出。这为多光谱目标检测提供了一种新的解决方案。
Multi-Task-Transformer - 场景理解多任务变压器模型 TaskPrompter和InvPT
GithubTransformer场景理解多任务学习开源项目深度学习计算机视觉
Multi-Task-Transformer项目提供两种场景理解多任务变压器模型:TaskPrompter和InvPT。TaskPrompter利用空间-通道多任务提示进行密集场景理解,InvPT采用倒金字塔架构。这些模型在单目深度估计和3D目标检测等任务中表现出色,并在ICLR2023和ECCV2022会议上发表。项目开源代码和预训练模型,支持多种计算机视觉应用。
trax - 代码清晰、高速执行的深度学习库
GithubGoogle BrainReformerTransformerTrax开源项目深度学习
Trax是一个由Google Brain团队维护的端到端深度学习库,专注于清晰代码和高速执行。它提供预训练的Transformer模型和丰富的API文档,支持用户创建和训练自定义模型,并与TensorFlow数据集无缝集成。Trax兼容CPUs、GPUs和TPUs,用户可以通过Python脚本、notebooks和命令行界面轻松使用。
TransMorph_Transformer_for_Medical_Image_Registration - 基于Transformer的无监督医学图像配准方法
GithubPyTorchTransMorphTransformer医学影像配准开源项目深度学习
TransMorph是一个利用Transformer架构进行无监督医学图像配准的开源项目,结合了Vision Transformer和Swin Transformer技术。提供多个模型变体和多种损失函数,支持单模态和多模态配准,公开了训练脚本和预训练模型,并在MICCAI 2021 L2R挑战中表现出色。
Transformer-in-Vision - 深入探索Transformer在计算机视觉领域的最新研究与资源
AI模型ChatGPTGithubTransformer-in-Vision多模态开源项目计算机视觉
本页面收录并介绍了最新的基于Transformer的计算机视觉研究和相关资源,内容涵盖机器人应用、视频生成、文本-图像检索、多模态预训练模型等领域。用户可访问开源代码和论文链接,如ChatGPT在机器人领域的应用、DIFFUSIONDB、LAION-5B、LAVIS、Imagen Video和Phenaki等。页面会不定期更新,提供Transformer在视觉领域应用的全面信息和资源汇总。
CoCa-pytorch - CoCa模型的PyTorch开源实现
CoCaGithubPytorch实现transformer架构图像文本模型对比学习开源项目
CoCa-pytorch项目提供了CoCa(Contrastive Captioners)模型的PyTorch实现。该项目将对比学习融入传统的编码器/解码器transformer,优化了图像到文本的转换。项目采用PaLM的transformer架构,包含单模态、多模态transformers和交叉注意力模块。这一实现为研究和开发图像-文本基础模型提供了有力工具。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能,包括文生视频、动态画面和形象生成等,帮助用户快速上手,创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台,用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品,帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型,为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能,满足事务性工作的高频需求,帮助撰稿人节省精力,提高效率,优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号