MeMOTR

基于长期记忆的Transformer多目标跟踪方法

MeMOTR 多目标跟踪 Transformer 长期记忆计算机视觉 Github 开源项目

MeMOTR提出了一种基于Transformer的端到端多目标跟踪方法，通过长期记忆注入和定制记忆注意力层提升目标关联性能。该方法在DanceTrack和SportsMOT等数据集上展现出优秀的跟踪效果，为复杂场景的多目标跟踪提供了新思路。项目开源了代码、预训练模型和使用说明，便于研究者复现和改进。

访问官网

Github

介绍相关项目

Awesome-Transformer-Attention - 视觉变换器与注意力机制的最新研究进展

GithubTransformerVision Transformer多模态学习开源项目注意力机制深度学习

探索视觉变换器和注意力机制的最新发展，包括由Min-Hung Chen持续更新的论文、代码与链接资源。适合学术与实际应用，发现创新思路。

UniTR - 多模态变换器网络推动3D感知进展

3D感知BEV分割GithubUniTR多模态转换器开源项目目标检测

UniTR是一种新型统一多模态变换器网络,用于3D感知任务。它通过共享权重处理相机和激光雷达等多传感器数据,实现高效多模态融合。在nuScenes数据集上,UniTR在3D目标检测和BEV地图分割任务中均达到最新水平,且降低推理延迟。该研究为提升自动驾驶系统的感知能力提供了新思路。

datmo - 2D激光雷达移动物体检测跟踪系统

GithubLIDAR开源项目数据关联机器人目标检测目标跟踪

datmo是一款为配备2D激光雷达的机器人平台设计的移动物体检测跟踪系统。它可准确估算矩形物体的位置、速度、方向和尺寸。系统使用自适应断点检测算法聚类，搜索式矩形拟合算法提取L形，并结合卡尔曼滤波器进行运动和形状跟踪。datmo兼容ROS，提供可视化功能，适用于自动驾驶和移动机器人领域的物体跟踪。

rtdetr_r101vd_coco_o365 - 实时目标检测革新者RT-DETR超越传统性能表现

GithubHuggingfaceRT-DETR开源项目模型模型训练深度学习目标检测计算机视觉

RT-DETR通过混合编码器架构和不确定性最小化查询选择方法实现目标检测任务。在COCO数据集测试中，RT-DETR-R101版本达到56.2% AP精度，T4 GPU上处理速度为74 FPS。模型可通过调整解码器层数实现速度与精度的灵活平衡，为实时目标检测领域提供新的技术方案。

moment - 时间序列分析基础模型多任务多领域应用

GithubMOMENT基础模型多任务开源项目时间序列预训练

MOMENT是一个开源的时间序列分析基础模型家族，为多任务、多数据集和多领域应用而设计。该模型在大规模时间序列数据上预训练，可处理预测、分类、异常检测和插补等任务。MOMENT能捕捉时间序列的内在特征，学习有意义的数据表示，在少量标记数据的情况下也表现出色。项目提供预训练模型、教程和研究代码，为时间序列分析提供了实用工具。

iTransformer - 先进的时间序列预测模型，打造SOTA性能

GithubiTransformer人工智能开源项目时间序列预测注意力网络深度学习

iTransformer是一种基于注意力机制的时间序列预测模型，由清华大学和蚂蚁集团研究人员开发。该模型采用倒置Transformer结构，支持多变量和多步长预测。iTransformer引入了可逆实例归一化等技术，旨在提高预测准确性和处理长序列数据的能力。这个开源项目为时间序列分析提供了新的研究方向。项目提供Python实现，支持使用PyTorch框架。用户可通过pip安装并轻松集成到现有的时间序列分析工作流程中。该项目还包括实验性功能，如二维注意力和傅里叶变换增强版本，为研究人员提供了探索和改进的空间。

Video-MME - 全面评估多模态大语言模型视频分析能力的基准

GithubVideo-MME人工智能基准评估多模态大语言模型开源项目视频分析

Video-MME是一个创新的多模态评估基准，用于评估大语言模型的视频分析能力。该项目包含900个视频和2,700个人工标注的问答对，覆盖多个视觉领域和时间跨度。其特点包括视频时长多样性、类型广泛性、数据模态丰富性和高质量标注。Video-MME为研究人员提供了一个全面评估多模态大语言模型视频理解能力的工具。

mmaction2 - 开源视频理解工具箱MMAction2基于PyTorch实现

GithubMMAction2OpenMMLab开源项目模型库行动识别视频理解

MMAction2为基于PyTorch的开源视频理解工具箱，涵盖动作识别、动作定位、时空动作检测等多种任务。项目特点包括模块化设计、丰富的模型库以及详尽文档，支持灵活的自定义配置。

SpaTracker - 将2D像素的3D空间运动轨迹可视化

3D追踪CVPR 2024GithubSpatialTracker像素追踪开源项目计算机视觉

SpaTracker是一个计算机视觉项目，可在3D空间中追踪视频中任意2D像素的运动轨迹。该项目支持RGB和RGBD视频输入，采用单目深度估计技术实现像素级追踪。SpaTracker提供演示代码和预训练模型，可视化效果优秀。这一工具可应用于动作分析和视觉特效等领域。该项目在CVPR 2024被评为亮点论文，体现了其在3D视觉追踪领域的创新性。

detr-resnet-50 - DETR 基于Transformer的创新目标检测模型

COCO数据集DETRGithubHuggingfaceResNet-50Transformer开源项目模型目标检测

DETR-ResNet-50是一种创新的目标检测模型，融合Transformer架构与ResNet-50骨干网络。该模型采用端到端训练方法，简化了传统目标检测流程。经COCO 2017数据集训练后，DETR能高效检测和定位图像中的多个物体，在目标检测任务中实现42.0的平均精度（AP）。其简洁设计和卓越性能为计算机视觉领域带来新的可能。

相关项目

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能，包括文生视频、动态画面和形象生成等，帮助用户快速上手，创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台，用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品，帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型，为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能，满足事务性工作的高频需求，帮助撰稿人节省精力，提高效率，优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号