oneformer_ade20k_swin_large

OneFormer 多任务通用图像分割模型

模型语义分割全景分割实例分割 Github OneFormer 图像分割 Huggingface 开源项目

OneFormer是一个基于ADE20k数据集和Swin大型骨干网络训练的通用图像分割框架。它通过单一模型和单次训练，实现了语义、实例和全景分割多任务处理，性能超越现有专用模型。该模型采用任务令牌技术，实现了训练时的任务引导和推理时的任务动态适应。OneFormer为图像分割领域带来了新的解决方案，可应用于多种图像分割任务。

Github

Huggingface

介绍相关项目

superpoint_transformer - 高效3D场景语义和全景分割的超点变换器

3D全景分割3D语义分割GithubICCV 2023SuperClusterSuperpoint Transformer开源项目

Superpoint Transformer 是一种超点 transformer 架构，适用于大规模 3D 场景的语义分割。通过自注意机制和层次化超点结构，它能多尺度挖掘超点间关系，性能卓越。同时，SuperCluster 将全景分割任务转化为超点图聚类任务，能在单个 GPU 上处理大规模场景。项目亮点包括显著的SOTA表现、快速训练和预处理等。点击查看更多详情及项目更新。

segment-anything-2 - 新一代图像和视频分割基础模型

AI模型GithubSAM 2图像分割开源项目视频分割计算机视觉

SAM 2是Meta AI研发的图像和视频分割基础模型,扩展了SAM的功能。它采用transformer架构和流式内存,实现实时视频处理。通过模型循环数据引擎,研究团队构建了大规模视频分割数据集SA-V。SAM 2在多种视觉任务中展现出卓越性能,为计算机视觉领域带来新的可能。

sam2.1-hiera-large - Meta开源的新一代图像视频智能分割模型

GithubHuggingfaceSAM2图像分割开源项目机器学习模型视频分割计算机视觉

sam2.1-hiera-large是Meta AI推出的SAM 2项目的核心模型，专注于图像和视频的智能分割任务。模型支持图像和视频预测功能，可通过Python接口快速集成。基于提示式交互，模型能实现自动生成分割掩码，在需要精确物体分割的计算机视觉应用中具有广泛应用价值。

autoformer-tourism-monthly - 基于分解架构的长期时间序列智能预测模型

AutoformerGithubHuggingface分解架构开源项目时间序列预测模型自相关机制长期预测

Autoformer是一个面向长期时间序列预测的开源模型，通过分解架构和自相关机制突破传统Transformer模型的限制。在能源、交通、经济、天气和疾病五大领域的基准测试中，预测精度提升38%，可应用于极端天气预警和能源消耗规划等长期预测场景。

flatformer - 优化点云变换器性能

3D目标检测FlatFormerGithubWaymo数据集开源项目点云transformer自注意力机制

FlatFormer是一种新型点云变换器算法，采用扁平化窗口注意力机制提高处理效率。在Waymo开放数据集上，它实现了领先的精度，并比现有方法快4.6倍。FlatFormer首次在边缘GPU上达到实时性能，为自动驾驶等对延迟敏感的应用开辟新途径。该算法通过平衡空间邻近性和计算规律性，减少了结构化和填充开销。

segment-anything-fast - 高性能图像分割模型加速框架

AI模型加速GithubPyTorchSegment Anything图像分割开源项目推理优化

segment-anything-fast是基于Facebook's segment-anything的优化版本，专注于提高图像分割模型的性能。通过整合bfloat16、torch.compile和自定义Triton内核等技术，该项目显著提升了模型推理速度。它支持多种优化方法，如动态int8对称量化和2:4稀疏格式，同时保持了简单的安装和使用流程。这使得开发者能够轻松替换原始segment-anything，实现更高效的图像分割。该优化框架适用于需要实时或大规模图像分割处理的应用，如自动驾驶、医疗影像分析或视频编辑等领域，可显著提高处理效率和资源利用率。

MoLFormer-XL-both-10pct - 大规模分子语言模型实现化学结构与性质预测

GithubHuggingfaceMoLFormerSMILES分子结构化学模型开源项目机器学习模型

MoLFormer是一个在ZINC和PubChem数据集上训练的化学语言模型，通过处理11亿分子的SMILES表示实现分子特征学习。模型采用线性注意力机制与旋转位置编码，在MoleculeNet的11个基准任务中展现优异性能。该模型可应用于分子相似度分析、特征提取及分子性质预测，适用于200原子以下的小分子研究。

uform - 用于内容理解和生成的袖珍型多模态 AI

GithubONNXUForm多模态AI嵌入模型开源项目生成模型

UForm是一个全面的多模态AI库，涵盖了从文本到图像，乃至视频剪辑的生成与理解等多种功能。支持多种语言，包含轻量级生成模型及高效的预训练变压模型，能够广泛应用于从服务器到智能手机等不同设备。主要优势包括快速的搜索性能、简易的模型部署过程及卓越的多语言应用能力，适用于快速嵌入、语义搜索、图像标题生成和视觉问答等多种场景。

llava-onevision-qwen2-72b-ov-sft - 基于Qwen2的多模态AI模型支持图像和视频交互

GithubHuggingfaceLLaVA-OneVisionQwen2图像识别多模态模型开源项目模型视频处理

LLaVA-OneVision是基于Qwen2的多模态AI模型，支持图像、多图和视频交互。模型在专用数据集上训练，具有32K tokens上下文窗口，提供0.5B、7B和72B三种规模。支持英语和中文，可处理单图、多图和视频输入。项目开源了代码、在线演示和论文，为AI研究和开发提供了实用工具。

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号