Mamba-in-CV

Mamba模型在计算机视觉领域的最新应用概览

Mamba 计算机视觉深度学习图像处理神经网络 Github 开源项目

本项目整理了近期Mamba模型在计算机视觉领域的研究论文，涵盖分类、检测、分割、增强等多项CV任务。内容展示了Mamba在视觉应用中的潜力，并持续更新，为研究者提供了解该领域最新进展的便捷渠道。

文档

MambaVision-B-1K - MambaVision结合Mamba和Transformer的创新视觉骨干网络

GithubHuggingfaceMambaVision图像分类开源项目模型深度学习模型特征提取计算机视觉

MambaVision-B-1K是一种融合Mamba和Transformer优势的混合视觉骨干网络。通过重新设计Mamba结构和在末层添加自注意力模块，该模型增强了视觉特征建模能力和长程空间依赖捕获。在ImageNet-1K分类任务中，MambaVision-B-1K在Top-1准确率和吞吐量方面实现了新的SOTA Pareto前沿。这一模型适用于图像分类和特征提取，支持多种输入分辨率，为计算机视觉应用提供了高效的解决方案。

VideoMamba - 突破性的视频理解状态空间模型

GithubVideoMamba多模态兼容性开源项目状态空间模型视频理解长期视频建模

VideoMamba是一种创新的视频理解模型，克服了现有技术的局限性。它能高效处理长视频和高分辨率内容，展现出可扩展性、短期动作识别敏感性、长期视频理解优势和多模态兼容性四大核心特点。VideoMamba为全面的视频理解任务提供了高效解决方案，推动了该领域的发展。

mamba - 线性时间序列建模的突破性架构

GithubMamba序列建模开源项目深度学习状态空间模型线性时间复杂度

Mamba是一种创新的状态空间模型架构，专为信息密集型任务如语言建模而设计。基于结构化状态空间模型，Mamba采用选择性状态空间实现线性时间复杂度的序列建模，突破了传统亚二次方模型的限制。该项目提供多个预训练模型，支持多种硬件平台的推理和评估，展现了优越的性能和灵活性。

CV - 全面的计算机视觉深度学习模型集合

Github图像分类开源项目深度学习目标检测计算机视觉语义分割

这个项目收集了多个计算机视觉领域的深度学习模型，包括图像分类、目标检测、语义分割和生成模型。项目为每个模型提供论文链接、详细解析和代码实现，涵盖从AlexNet到YOLO系列等经典算法。这是一个面向研究人员和开发者的综合性学习资源，有助于理解和应用先进的计算机视觉技术。

Official_Remote_Sensing_Mamba - 创新的大型遥感图像密集预测模型

GithubRS-Mamba变化检测密集预测开源项目语义分割遥感图像

RS-Mamba是一种专门针对大型遥感图像密集预测任务的创新模型。该模型首次将状态空间模型引入遥感领域,通过循环状态空间模型实现全局有效感受野,同时保持线性复杂度。RS-Mamba采用多方向选择性扫描技术,有效捕捉遥感图像的空间特征分布。在语义分割和变化检测任务中,RS-Mamba展现出卓越性能。项目提供开源代码和训练框架,为遥感图像分析研究提供了新的工具和方法。

MVision - 前沿机器视觉与智能算法技术集合

GithubSLAM技术开源项目无人驾驶机器视觉深度学习计算机视觉

MVision专注于探索机器视觉与人工智能的前沿研究和应用。该平台涵盖自然语言处理、深度学习和计算机视觉课程等多个方面，提供如ICDM、NIPS等重要会议的资源链接和最新机器学习研究文献。同时，MVision也关注无人驾驶、动态物体检测等实际应用领域，致力于提供全面的学习和实践资源，以推动技术进步和行业发展。

PointMamba - 用于点云分析的简单状态空间模型

GithubMambaPointMambaState Space ModelTransformers开源项目点云分析

该项目提出了一种名为PointMamba的模型，它通过借鉴Mamba模型在自然语言处理中的成功经验，应用在点云分析中。PointMamba采用了线性复杂度算法，在有效减少计算成本的同时，提供了卓越的全局建模能力。该模型通过空间填充曲线进行点云标记，并使用非分层结构的Mamba编码器作主干网络。综合评估表明，PointMamba在多个数据集上的表现优异，显著降低了GPU内存使用和计算量，为未来的研究提供了一个简单而有效的基准。

computer-vision-in-action - 计算机视觉实战指南：涵盖基础理论及前沿技术

CharmveGithubL0CVMaiwei AI Lab开源项目机器学习计算机视觉

本项目提供全面且前沿的计算机视觉学习资源，涵盖深度学习基础、神经网络模型及其优化方法。核心内容包括卷积神经网络、循环神经网络以及现代技术如Transformer、强化学习和迁移学习。通过实战项目和详细的代码实现，用户可以学习图像分类、目标检测、语义分割和3D重建等应用。此外，项目提供在线运行的notebook，简化本地调试过程。

Transformer-in-Computer-Vision - Transformer在计算机视觉中的最新研究汇总

GithubTransformer开源项目最新论文深度学习视觉算法计算机视觉

cobra - 高效推理的多模态大语言模型扩展

CobraGithubMamba多模态大语言模型开源项目视觉语言模型高效推理

Cobra项目是一个基于Mamba架构的多模态大语言模型，旨在实现高效推理。该模型支持文本和图像输入，提供预训练权重、训练代码和推理脚本。Cobra在处理视觉语言任务时保持高性能，为研究人员和开发者提供了实用的工具。项目包括模型加载、图像处理和文本生成等功能，便于用户快速上手和应用。

相关项目

推荐项目

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

稿定AI

稿定设计是一个多功能的在线设计和创意平台，提供广泛的设计工具和资源，以满足不同用户的需求。从专业的图形设计师到普通用户，无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑，稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合，帮助用户轻松实现创意设计。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com