maskformer-swin-large-ade

MaskFormer模型提升语义分割效率与精确度的创新方案

实例分割开源项目模型 Huggingface panoptic分割语义分割 ADE20k MaskFormer Github

MaskFormer通过ADE20k数据集训练，利用Swin结构提升语义、实例和全景分割性能。该模型适用于多种分割任务，采用统一的掩码及标签预测方式处理三类分割，促进图像细分任务的研究和应用，如建筑物和场景的精确分割。项目由Hugging Face团队支持，可在模型中心找到其他版本进行适用性调优。

文档

objectsdf_plus - 物体组合式神经隐式表面重建技术的进阶版本

3D重建GithubObjectSDF++开源项目深度学习神经隐式表面计算机视觉

ObjectSDF++是物体组合式神经隐式表面重建技术的改进版本。该技术通过引入遮挡感知的不透明度渲染公式和物体区分正则化项，提高了实例掩码监督的利用效率，从而在场景和物体层面实现更精确的表面重建。项目提供了适用于Replica和ScanNet数据集的训练和评估代码，为3D场景理解和重建研究提供了新的工具。

GeoSeg - 遥感图像语义分割框架支持多种数据集和先进模型

GeoSegGithubVision Transformer开源项目深度学习语义分割遥感图像

GeoSeg是一个开源的遥感图像语义分割工具箱,基于PyTorch等框架开发。它专注于先进视觉Transformer模型,支持多个遥感数据集,提供统一训练脚本和多尺度训练测试功能。项目实现了Mamba、Vision Transformer和CNN等多种网络架构,为遥感图像分割研究提供统一基准平台。

LaserMix - 创新半监督LiDAR语义分割框架

GithubLaserMixLiDAR语义分割半监督学习开源项目数据增强空间先验

LaserMix是针对LiDAR语义分割的半监督学习框架。该方法利用驾驶场景空间先验,通过激光束混合构建低变化区域,促使分割模型在混合前后保持一致预测。在多个数据集上,LaserMix显著提升了分割性能,尤其适用于标注数据有限的情况。该框架兼容多种LiDAR分割网络,并已整合至MMDetection3D代码库。

awesome-huge-models - 大型AI模型最新动态与开源资源汇总

AI训练GithubLLMdeep learning模型大模型开源开源项目

SlowFast - 开源视频理解框架提供多种先进模型架构

GithubPySlowFast开源项目深度学习神经网络模型视频理解计算机视觉

PySlowFast是FAIR开发的开源视频理解代码库，提供高效训练的先进视频分类模型。支持SlowFast、Non-local Neural Networks、X3D和Multiscale Vision Transformers等多种架构。该框架便于快速实现和评估视频研究创新，涵盖分类、检测等任务。PySlowFast兼具高性能和轻量级特点，适用于广泛的视频理解研究。

SAM-Med2D - 医学图像分割新突破 SAM-Med2D模型

GithubSAM-Med2D医学图像分割开源项目数据集模型训练模型评估

SAM-Med2D是基于Segment Anything Model的医学图像分割模型,在包含4.6M图像和19.7M掩码的大规模数据集上进行微调。该项目涵盖10种医学数据模态、4种解剖结构和病变,以及31个主要人体器官。SAM-Med2D在多个测试集上表现优秀,尤其在点提示和边界框提示方面效果显著,为医学图像分割领域提供了新的解决方案。

uform - 用于内容理解和生成的袖珍型多模态 AI

GithubONNXUForm多模态AI嵌入模型开源项目生成模型

UForm是一个全面的多模态AI库，涵盖了从文本到图像，乃至视频剪辑的生成与理解等多种功能。支持多种语言，包含轻量级生成模型及高效的预训练变压模型，能够广泛应用于从服务器到智能手机等不同设备。主要优势包括快速的搜索性能、简易的模型部署过程及卓越的多语言应用能力，适用于快速嵌入、语义搜索、图像标题生成和视觉问答等多种场景。

Retinexformer - Retinexformer：高效低光照图像增强工具，支持15个基准测试和超高分辨率

GithubICCV 2023NTIRE 2024Retinexformer低光照图像增强开源项目高分辨率图像

Retinexformer是一个低光照图像增强项目，支持超过15个基准测试和超高分辨率图像（最高4000x6000）。该项目在NTIRE 2024挑战中获得第二名，提供代码、预训练模型和训练日志。Retinexformer框架支持分布式数据并行和混合精度训练，自适应分割测试策略显著提升模型性能。

AdelaiDepth - 开源单目深度预测工具箱推进3D场景重建研究

3D场景重建AdelaiDepthGithub单目深度预测开源项目深度学习计算机视觉

AdelaiDepth是开源单目深度预测工具箱，整合3D场景形状重建等多种算法。项目聚焦单一图像深度学习和3D场景恢复，相关成果入围CVPR'21最佳论文。通过提供训练代码和数据集，AdelaiDepth为计算机视觉领域研究提供了重要资源。

autodistill - 使用大型、较慢的基础模型来训练小型、较快的监督模型，通过自动标注实现模型训练全程无需人工干预，支持对象检测和实例分割任务

AutodistillGithubRoboflowinstance segmentationmachine learningobject detection开源项目

Autodistill利用大型基础模型训练小型快速监督模型，通过自动标注实现模型训练全程无需人工干预，支持对象检测和实例分割任务，并计划扩展至语言模型。可在本地硬件或云端运行，通过插件接口连接基础和目标模型插件，减少依赖和许可证冲突，确保高效便捷的模型训练与部署。

推荐项目

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

稿定AI

稿定设计是一个多功能的在线设计和创意平台，提供广泛的设计工具和资源，以满足不同用户的需求。从专业的图形设计师到普通用户，无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑，稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合，帮助用户轻松实现创意设计。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com