metaformer

一系列视觉基线模型

MetaFormer IdentityFormer RandFormer ConvFormer CAFormer Github 开源项目

MetaFormer项目推出多款视觉基线模型，包括IdentityFormer、RandFormer、ConvFormer和CAFormer。这些模型在ImageNet-1K数据集上表现出色，根据不同的token mixer架构，如身份映射、全局随机混合、可分离深度卷积和自注意机制，在224x224分辨率下的Top-1准确率均超过80%。特别是CAFormer，在无外部数据或蒸馏的条件下，达到85.5%的准确率记录。这些模型已集成到timm库中，方便应用和扩展。

Github

Huggingface

介绍相关项目

REaLTabFormer - 一套用于表格和关系合成数据生成的自回归和 Seq2Seq（序列到序列）转换器模型

GPT-2GithubREaLTabFormerTransformersynthetic datatabular data开源项目

REaLTabFormer使用Seq2Seq模型生成关系数据集，针对非关系数据采用GPT-2模型，直接建模任意独立观察的表格数据。通过生成父表和关系表，利用目标掩码和统计方法避免过拟合。实验结果表明其在捕捉关系结构方面优于基准模型，并在大型非关系数据集上实现了先进的预测效果。REaLTabFormer易于安装和使用，并提供样本验证器以提高生成数据的有效性和准确性。

DiffMorpher - 扩散模型驱动的高质量图像变形技术

DiffMorpherGithub图像变形开源项目扩散模型深度学习计算机视觉

DiffMorpher是一项基于扩散模型的图像变形技术。该项目结合AdaIN和重新调度采样方法，实现高质量、连续的图像变形。DiffMorpher不仅适用于人脸，还能处理各种一般物体的变形，拓展了图像编辑的应用范围。项目同时推出MorphBench，作为评估一般物体图像变形效果的首个基准数据集。

timesformer-base-finetuned-k600 - 采用空间时间注意力的视频分类技术，提升视频理解能力

GithubHuggingfaceKinetics-600TimeSformer开源项目模型深度学习空间时间注意力视频分类

TimeSformer模型运用空间时间注意力机制进行视频分类，能够识别Kinetics-600中的600种标签。该工具旨在提升视频理解的准确性，提供简便的视觉分析能力。

ml-cvnets - 灵活的计算机视觉模型训练库

CVNetsGithub图像分类对象检测开源项目模型训练计算机视觉

CVNets是一个计算机视觉库，支持研究人员和工程师训练和评估多种计算机视觉模型，包括对象分类、对象检测和语义分割等任务。最新版本引入了直接处理文件字节的Transformer和高效在线增强，支持如Mask R-CNN、EfficientNet、Swin Transformer和ViT等模型，并增强了蒸馏功能。

FasterViT - 高效分层注意力的视觉transformer新突破

FasterViTGithub图像分类层级注意力机制开源项目目标检测视觉Transformer

FasterViT是一种创新的视觉transformer模型,采用分层注意力机制高效捕获短程和长程信息。在ImageNet分类任务中,FasterViT实现了精度和吞吐量的新平衡,无需额外训练数据即达到最先进水平。该项目提供多种预训练模型,适应不同计算资源和精度需求,支持任意分辨率输入,为目标检测、分割等下游任务提供灵活选择。

Corrformer - 全球气象站统一深度模型的可解释天气预报系统

CorrformerGithub天气预报开源项目时空建模机器学习深度学习

Corrformer是一种新型天气预报模型，通过多相关性机制实现了对数万个气象站的协作预报。该模型显著降低了时空建模复杂度，并能生成基于天气过程传播方向的可解释预测。在多个尺度的数据集上，Corrformer的预报性能超越了传统统计方法和最新深度学习模型，近地面预报能力可与数值方法相媲美。这项研究为气象科学引入了创新的数据驱动人工智能方法。

PersFormer_3DLane - PersFormer基于透视变换实现精确的3D车道线检测

3D车道线检测GithubOpenLane基准PersFormerPyTorch实现开源项目透视变换

PersFormer是一种创新的3D车道线检测模型，采用基于Transformer的模块生成BEV特征并参考相机参数。模型能同时进行2D和3D车道检测，提升特征一致性与多任务学习效果。PersFormer在OpenLane和Apollo 3D Lane Synthetic数据集上的表现优异，超越了多种现有方法，并提供简便的安装与评估说明以及详细的训练和测试指南，成为3D车道检测领域的重要进展。

GameFormer - 结合游戏理论的自动驾驶交互预测规划模型

GameFormerGithubTransformer交互预测开源项目自动驾驶规划

GameFormer是一个创新的自动驾驶AI项目，结合游戏理论和Transformer架构进行交互式预测和规划。项目提供Waymo开放运动数据集上的交互预测联合模型代码，以及动态场景的开环规划实现。GameFormer提高了预测准确性和自动驾驶系统的决策能力，为智能交通系统研究开辟新方向。

INSTA - 革新性即时体积化头像生成技术

3D建模GithubINSTA头像生成开源项目深度学习计算机视觉

INSTA项目开发了一种创新的即时体积化头像技术，能快速生成高质量3D人头模型。该技术基于instant-ngp，通过优化神经网络实现实时渲染和灵活控制。项目提供预处理数据集和训练代码，便于研究人员进行开发。INSTA代表头像生成领域的前沿技术，适用于虚拟现实和增强现实等应用，为人机交互和数字内容创作提供新可能。

MIMDet - 掩码图像建模应用于目标检测的开源项目

GithubMIMDet卷积神经网络实例分割开源项目物体检测视觉变换器

MIMDet是一个利用掩码图像建模技术的开源项目，能够提升预训练的Vanilla Vision Transformer在目标检测中的表现。此框架采用混合架构，用随机初始化的卷积体系取代预训练的大核Patchify体系，实现多尺度表示无需上采样。在COCO数据集上的表现亮眼，使用ViT-Base和Mask R-CNN模型时，分别达到51.7的框AP和46.2的掩码AP；使用ViT-L模型时，成绩分别是54.3的框AP和48.2的掩码AP。

相关项目

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号