#计算机视觉

6DRepNet - 全范围无约束头部姿态估计方法
头部姿态估计6DRepNet深度学习计算机视觉旋转矩阵Github开源项目
6DRepNet是一种创新的头部姿态估计方法,采用6D旋转矩阵表示和测地线距离损失函数。该方法能学习完整的旋转外观,实现无约束全范围头部姿态预测。在AFLW2000和BIWI数据集上,6DRepNet显著优于现有方法,平均角度误差降低20%。项目提供pip安装包,支持实时摄像头演示。
AI-Competition-Collections - 全面的AI竞赛经验和技巧开源资源集
AI比赛经验数据竞赛计算机视觉自然语言处理机器学习Github开源项目
这是一个综合性AI竞赛资源库,囊括计算机视觉、自然语言处理、语音识别等领域的比赛经验和技巧。项目汇总了顶级赛事的解决方案,同时提供竞赛平台和相关公众号信息。对AI开发者和竞赛参与者而言,此资源库提供了丰富的学习和参考材料。
Multi-Task-Transformer - 场景理解多任务变压器模型 TaskPrompter和InvPT
多任务学习场景理解Transformer计算机视觉深度学习Github开源项目
Multi-Task-Transformer项目提供两种场景理解多任务变压器模型:TaskPrompter和InvPT。TaskPrompter利用空间-通道多任务提示进行密集场景理解,InvPT采用倒金字塔架构。这些模型在单目深度估计和3D目标检测等任务中表现出色,并在ICLR2023和ECCV2022会议上发表。项目开源代码和预训练模型,支持多种计算机视觉应用。
Transformers-for-NLP-and-Computer-Vision-3rd-Edition - 深入探索Transformers在NLP和计算机视觉中的应用
Transformers自然语言处理计算机视觉生成式AI大型语言模型Github开源项目
该书全面介绍Transformers在NLP和计算机视觉领域的应用,探讨大型语言模型架构、预训练和微调技术,以及Hugging Face、OpenAI和Google Vertex AI平台的使用。内容涵盖跨平台链式模型实现、视觉transformers处理,并探索CLIP、DALL-E 3和GPT-4V等前沿技术。此外还讨论模型解释性、tokenizer优化和LLM风险缓解等关键主题,为读者提供Transformers应用的实践指南。
XMem2 - 少量标注实现高精度视频分割的开源工具
XMem++视频分割人工智能计算机视觉交互式标注Github开源项目
XMem2是一个开源的交互式视频分割工具,通过永久记忆模块和创新帧选择算法,只需少量标注即可实现高质量分割。它能以30+ FPS的速度处理物体部件、流体、可变形物体等复杂场景。XMem2提供改进的GUI和Python接口,适用于电影制作等领域。项目还包含PUMaVOS数据集,涵盖23个具挑战性的视频分割场景。
ILCC - 3D激光雷达与相机自动外参标定方法
LiDAR相机标定点云处理计算机视觉3D重建Github开源项目
ILCC是一个开源项目,提供基于激光反射强度的3D激光雷达和相机自动外参标定方法。项目功能包括点云分割、棋盘格检测、角点提取和外参优化,支持多种激光雷达型号。ILCC适用于全景和单目相机标定,提供3D点云可视化工具。项目附有使用说明和示例数据,便于研究人员使用。
Polygonization-by-Frame-Field-Learning - 航拍图像建筑物轮廓提取新方法
建筑物分割框架场学习多边形化语义分割计算机视觉Github开源项目
Frame Field Learning项目提出新方法从航拍图像提取建筑物多边形轮廓。该方法在图像分割神经网络中加入框架场输出,提高分割质量并为多边形化提供结构信息。项目在CVPR 2021发表,开源代码、模型和数据集,在航拍图像建筑物分割任务中达到最先进水平。
awesome-camouflaged-object-detection - 伪装物体检测研究进展综述与资源汇总
伪装物体检测计算机视觉深度学习图像分割数据集Github开源项目
本项目全面总结伪装物体检测(COD)领域的研究进展,涵盖检测、分割、场景理解等方向。汇集顶级论文、数据集和代码资源,定期更新最新成果。为研究人员提供了解COD前沿进展的重要参考。
INSTA - 革新性即时体积化头像生成技术
INSTA头像生成计算机视觉3D建模深度学习Github开源项目
INSTA项目开发了一种创新的即时体积化头像技术,能快速生成高质量3D人头模型。该技术基于instant-ngp,通过优化神经网络实现实时渲染和灵活控制。项目提供预处理数据集和训练代码,便于研究人员进行开发。INSTA代表头像生成领域的前沿技术,适用于虚拟现实和增强现实等应用,为人机交互和数字内容创作提供新可能。
3D-VisTA - 简化3D视觉和文本对齐的新型预训练模型
3D-VisTA计算机视觉自然语言处理预训练模型多模态融合Github开源项目
3D-VisTA是一种新型预训练变换器模型,专注于3D视觉和文本对齐。该模型采用简洁统一的架构,无需复杂的任务特定设计,可轻松适应多种下游任务。通过在大规模ScanScribe数据集上预训练,3D-VisTA在视觉定位、密集字幕生成等3D视觉语言理解任务中达到了领先水平。此外,该模型还表现出优异的数据效率,即使在标注数据有限的情况下也能保持强劲性能。
awesome-transformers-in-medical-imaging - Transformer在医学影像分析中的最新应用进展
医学图像分析Transformer分割深度学习计算机视觉Github开源项目
本项目汇总了Transformer在医学影像分析领域的最新研究成果,包括图像分割、分类、重建等多个任务。资源库按时间顺序整理相关论文和开源实现,为研究人员提供全面参考。内容定期更新,旨在促进Transformer在医学影像分析中的应用与发展。
Blind-Motion-Deblurring-Survey - 深度学习运动去模糊技术研究综述及发展趋势
深度学习运动去模糊图像处理人工智能计算机视觉Github开源项目
本项目全面回顾了深度学习在运动去模糊领域的研究进展。通过系统分析150余篇相关论文,总结了30多种盲运动去模糊算法。对当前先进方法在4个数据集上进行了对比实验,揭示了现有技术的不足,并探讨了未来发展方向。项目还收录了CVPR 2024最新去模糊研究成果,为该领域研究人员提供了重要参考。
pigo - 纯Go实现的快速人脸和面部特征检测库
Pigo人脸检测Go语言计算机视觉机器学习Github开源项目
Pigo是一个纯Go实现的人脸检测库,基于像素强度比较算法。它无需依赖OpenCV等第三方库,支持面部特征点定位、瞳孔/眼睛定位和倾斜人脸检测。Pigo性能高效,易于使用,并提供WebAssembly支持,可实现实时人脸检测。该库适用于需要轻量级、高性能人脸检测功能的Go项目,尤其适合对性能和依赖要求较高的场景。
Stable-DINO - 基于稳定匹配的高性能目标检测模型
Stable-DINO目标检测深度学习计算机视觉COCO数据集Github开源项目
项目采用稳定匹配算法,结合检测变压器架构,在目标检测领域取得突破。模型在COCO数据集上实现63.8 AP,具有高性能、易用性和低计算开销等特点。Stable-DINO可与现有DETR变体整合,并在多种backbone下表现出色。该技术不仅适用于目标检测,还可扩展到实例分割等相关任务。
efficientdet - EfficientDet目标检测模型的PyTorch实现
EfficientDet目标检测深度学习计算机视觉COCO数据集Github开源项目
本项目提供了EfficientDet目标检测模型的PyTorch实现。支持COCO数据集的训练、评估和测试,在COCO val2017上达到0.314 mAP。包含预训练权重、视频测试功能和使用说明。适合研究人员和开发者参考使用。
channel-pruning - 通道剪枝技术加速深度神经网络
Channel Pruning神经网络加速模型压缩深度学习计算机视觉Github开源项目
Channel Pruning 项目开发了一种通道剪枝技术,用于加速深度神经网络。该技术显著提高了 VGG-16、ResNet-50 等模型的推理速度,同时保持了较高准确率。项目还包含针对 Faster R-CNN 的剪枝方法,为计算机视觉任务提供了高效解决方案。具体实现了 VGG-16 模型 4 倍和 5 倍的加速,ResNet-50 模型 2 倍加速,以及 Faster R-CNN 2 倍和 4 倍加速。这些优化后的模型在 ImageNet 分类和目标检测任务上仍保持了较高性能。项目提供了代码和预训练模型,方便研究者复现实验结果。
Transformer_Tracking - 视觉追踪中Transformer应用的全面综述和前沿动态
Transformer视觉跟踪目标检测计算机视觉深度学习Github开源项目
本项目汇总了Transformer在视觉追踪领域的应用进展,包括统一追踪、单目标追踪和3D单目标追踪等方向。内容涵盖最新研究论文、技术趋势分析、基准测试结果以及学习资源,为相关研究人员和从业者提供全面的参考信息。重点关注自回归时序建模、联合特征提取与交互等前沿技术,展现了视觉追踪的最新发展动态。
opencvsharp - 多平台.NET OpenCV封装库 实现计算机视觉
OpenCvSharp计算机视觉图像处理.NET跨平台Github开源项目
OpenCvSharp是一个开源的.NET OpenCV封装库,支持Windows、UWP和Ubuntu等多个平台。它模仿OpenCV C/C++ API风格,提供自动资源管理和格式转换功能。开发者可通过NuGet包轻松使用该库实现图像处理和计算机视觉应用。OpenCvSharp为.NET生态系统带来了OpenCV的强大功能,促进了跨平台计算机视觉开发。
multispectral-object-detection - 多光谱图像融合的高效目标检测方法
多光谱目标检测Transformer跨模态融合YOLOv5计算机视觉Github开源项目
该项目提出了Cross-Modality Fusion Transformer (CFT)多光谱目标检测方法,利用Transformer架构融合RGB和热红外图像信息。CFT在FLIR、LLVIP等数据集上取得了优秀的检测结果,尤其在夜间场景表现突出。这为多光谱目标检测提供了一种新的解决方案。
keras-non-local-nets - Keras非局部神经网络实现,多模式支持与计算优化
Keras非局部神经网络深度学习计算机视觉张量运算Github开源项目
keras-non-local-nets项目提供了Keras实现的非局部神经网络块。支持Gaussian、Embedded Gaussian和Dot等多种实例化方式,并通过可变屏蔽计算模式优化性能。项目包含使用模板和示例代码,便于集成到现有神经网络中。同时支持函数式API和Sequential API,适应不同的网络构建需求。
MachineLearning-AI - 250天AI和机器学习实践项目 涵盖计算机视觉到优化算法
人工智能机器学习深度学习优化算法计算机视觉Github开源项目
该项目记录250天的人工智能和机器学习实践,涉及计算机视觉、深度学习、图神经网络等多个领域。同时探索蚁群优化、粒子群优化等算法。项目展示从基础到前沿的AI应用,提供丰富的代码实例和学习资源。
training_extensions - OpenVINO框架助力快速训练和部署计算机视觉模型
OpenVINO计算机视觉迁移学习深度学习模型训练Github开源项目
OpenVINO Training Extensions是一个专注计算机视觉的低代码迁移学习框架。它基于PyTorch和OpenVINO工具包开发,提供简洁API和CLI命令,支持分类、检测、分割等多种任务的模型训练、推理和部署。该框架具备自动配置、分布式训练、混合精度等功能,可快速构建高效准确的视觉AI模型。
magvit - 单模型实现多种视频合成任务的创新技术
MAGVIT视频生成机器学习计算机视觉深度学习Github开源项目
MAGVIT是一种创新的视频生成技术,采用掩码生成视频变换器实现单一模型解决多种视频合成任务。该项目在视频生成质量、效率和灵活性方面表现出色,能够执行类别条件生成、帧预测和多任务视频处理。MAGVIT在UCF-101、BAIR Robot Pushing、Kinetics-600等多个基准测试中取得优异成绩,展示了其在视频生成领域的应用前景。
top-cvpr-2023-papers - CVPR 2023计算机视觉领域顶级论文精选汇总
CVPR 2023计算机视觉论文GitHubarXivGithub开源项目
本项目整理了CVPR 2023会议的精选论文,涵盖图像分割、生成式AI和3D重建等热门研究方向。提供论文标题、GitHub仓库和arXiv链接,方便研究人员和开发者快速了解计算机视觉领域的最新进展。该资源汇总了CVPR 2023的重要贡献,为相关领域从业者提供了有价值的参考。
PointLLM - 多模态大语言模型理解点云数据的突破性进展
PointLLM3D点云大语言模型多模态计算机视觉Github开源项目
PointLLM是一个创新的多模态大语言模型,可理解物体的彩色点云数据。该模型能够感知物体类型、几何结构和外观,而不受深度模糊、遮挡或视角依赖等问题影响。项目团队收集了包含660K简单和70K复杂点云-文本指令对的数据集,并采用两阶段训练策略。为评估模型的感知和泛化能力,研究人员建立了生成式3D物体分类和3D物体描述两个基准,并使用三种评估方法进行测试。
Forge_VFM4AD - DriveGAN实现高质量可控神经网络环境模拟
自动驾驶计算机视觉基础模型深度学习人工智能Github开源项目
DriveGAN是一种高质量神经网络模拟器,通过无监督学习实现环境组成部分的解耦控制。它可模拟转向控制、场景天气和非玩家对象位置等特征。DriveGAN的全微分特性支持视频序列重新模拟,允许在已记录场景中采取不同行动。该方法在多个数据集上训练,包括160小时真实驾驶数据,性能显著优于现有技术。
Awesome-Multimodal-LLM-Autonomous-Driving - 多模态大语言模型推动自动驾驶技术创新
多模态大语言模型自动驾驶计算机视觉人工智能WACVGithub开源项目
该资源库汇集自动驾驶领域多模态大语言模型(MLLM)相关研究,全面介绍MLLM在感知、规划和控制方面的应用。内容涵盖最新模型、数据集和基准,并总结WACV 2024 LLVM-AD研讨会成果。项目探讨了MLLM应用于自动驾驶系统的挑战和机遇,为研究人员和工程师提供了解该前沿领域发展的宝贵参考。
Face-X - 全面的开源人脸识别与处理平台
Face-X人脸识别开源项目计算机视觉图像处理Github
Face-X是一个综合性的开源人脸识别和处理平台,集成了多种先进算法。该项目提供人脸滤镜、图像处理、口罩检测等功能,还支持人脸卡通化、表情动画等创新应用。Face-X为开发者提供了丰富的人脸相关任务解决方案,并鼓励开源社区参与贡献。
hold - 视频中手物交互的无模板3D重建技术
HOLD3D重建手部交互物体重建计算机视觉Github开源项目
HOLD是一种先进的计算机视觉技术,可从单目视频中重建手部和物体的3D几何形状,无需预先扫描物体模板。这项技术能够重建新颖物体和手部的3D结构,支持双手操作物体、无纹理物体以及多物体交互场景的重建。项目提供预处理数据、训练脚本和评估工具,为研究人员和开发者提供了全面的3D重建解决方案。
MIVisionX - AMD开源计算机视觉和机器智能开发工具包
MIVisionXOpenVX计算机视觉机器学习AMDGithub开源项目
MIVisionX是一套开源的计算机视觉和机器智能开发工具包。它包含优化的OpenVX实现、神经网络模型编译器和多种实用工具。支持ONNX和NNEF格式,可在嵌入式设备到高性能服务器等多种硬件平台上部署计算机视觉和机器学习应用。
aruco-markers - ArUco库实现增强现实标记检测和姿态估计
ArUcoOpenCV计算机视觉增强现实姿态估计Github开源项目
本项目基于OpenCV 4和ArUco库,提供增强现实标记检测和姿态估计功能。包含标记生成、检测、相机校准、姿态估计和3D渲染等模块,并附有详细文档。适合从事计算机视觉和增强现实研究的开发者使用。
ECON - 单图高精度3D人体重建 支持复杂姿态和宽松服装
3D人体重建深度学习计算机视觉CVPRECONGithub开源项目
ECON是一种从单张彩色图像进行人体数字化的先进技术。它结合隐式和显式表示的优点,能从日常图像中重建高保真3D着装人体模型,即使对象穿着宽松服装或处于复杂姿势。该技术支持多人重建和SMPL-X动画,采用创新的d-BiNI方法优化前后2.5D表面,保证细节与法线图一致并与SMPL-X表面对齐。ECON在处理各种实际场景中的人体重建任务时表现出色。
Machine-Learning-Guide - 全面的机器学习指南,从基础到前沿应用
机器学习人工智能深度学习自然语言处理计算机视觉Github开源项目
这份机器学习指南涵盖了从基础概念到前沿技术的各个方面,包括丰富的学习资源、主流框架工具介绍和热门应用领域。指南详细讲解了算法、深度学习、强化学习等核心主题,还提供了CUDA、MATLAB等相关技术的开发指南。涉及计算机视觉、自然语言处理等热门领域,并深入介绍PyTorch、TensorFlow等主流机器学习框架和工具,旨在提高机器学习开发效率。
pipeless - 开源框架,简化计算机视觉应用开发和部署
Pipeless计算机视觉开源框架实时处理多流处理Github开源项目
Pipeless是一个开源框架,旨在简化计算机视觉应用的开发和部署过程。该框架自动化处理代码并行化、多媒体管道和内存管理等复杂任务,加速实时应用开发。Pipeless采用模块化设计,支持动态组合处理阶段和多种推理运行时,可部署于边缘设备和云端。通过简化开发流程,Pipeless有效提升了计算机视觉项目的开发效率。
Papers-in-100-Lines-of-Code - 45篇深度学习论文的100行代码实现集锦
深度学习神经网络机器学习计算机视觉NeRFGithub开源项目
Papers-in-100-Lines-of-Code项目汇集了45篇深度学习领域重要论文的精简实现。覆盖范围广泛,从经典网络架构到前沿神经渲染技术,每个算法都浓缩为100行以内的代码。这种简洁实现有助于理解算法核心思想,为研究者和开发者提供了快速上手的机会。项目既展示了复杂算法的精髓,又为深度学习实践提供了便捷途径。
Fast-BEV - 新一代鸟瞰视角感知系统
Fast-BEV鸟瞰图感知深度学习计算机视觉自动驾驶Github开源项目
Fast-BEV是一种先进的鸟瞰视角感知系统,专注于3D目标检测和BEV语义分割。该项目针对自动驾驶等应用场景进行了优化,提供多种模型配置和CUDA、TensorRT加速支持。Fast-BEV不仅在性能和速度方面表现卓越,还提供了完整的安装指南、数据准备流程和训练方法,为研究人员和开发者提供了强大的工具。作为领先的感知算法和计算机视觉解决方案,Fast-BEV为鸟瞰视角感知任务设立了新的标准。