#计算机视觉

awesome-segment-anything - Segment Anything项目研究进展
Segment Anything计算机视觉医疗图像分割Inpainting项目专有名称Github开源项目
本项目专注于追踪和总结Segment Anything在计算机视觉领域的最新研究进展,内容涵盖基准模型论文、衍生论文和衍生项目,覆盖医学影像分割、视频帧插值、低层视觉、图像插补等多个领域。如觉得本资源库有帮助,请星标或分享。这里提供最新的项目更新和丰富的资源链接,助力进一步研究和应用。
sports - 使用YOLOv5和ByteTrack追踪足球运动员,结合YOLOv7进行3D姿势估计及GPT-4V分析队服颜色分配球员
YOLOv5ByteTrack足球运动员计算机视觉GPT-4VGithub开源项目
本文介绍了如何在足球赛事中使用YOLOv5和ByteTrack技术进行球员追踪,使用YOLOv7实现3D姿势估计,并通过GPT-4V基于球衣颜色分配球员。文章包含技术应用示例、实现方法以及相关视频和代码资源,旨在帮助读者更好地理解和应用这些技术。
MambaVision - 高效且灵活的视觉骨干网络,适用于各种分辨率的图像处理
MambaVision深度学习计算机视觉图像分类Hugging FaceGithub开源项目
MambaVision采用混合Mamba-Transformer架构,结合自注意力和混合块,实现了卓越的图像分类和特征提取效果。其创新的对称路径设计提升了全局上下文的建模能力,并提供多种预训练模型。MambaVision支持多种分辨率图像处理,适用于分类、检测和分割等任务。最新模型支持Hugging Face和pip包,详细信息见[官网](https://huggingface.co/collections/nvidia/mambavision-66943871a6b36c9e78b327d3)。
boxx - 高效Python工具箱,助力科学计算和计算机视觉调试
Box-XPython计算机视觉科学计算工具箱Github开源项目
Box-X是一款为Python开发者设计的高效构建与调试工具箱,特别适用于科学计算和计算机视觉。它兼容Linux、macOS和Windows平台,并支持Python 2/3环境(包括CPython、IPython、Spyder和Notebook)。主要功能包括变量打印和传输、矩阵及张量可视化、复杂结构的树状显示以及多进程加速。用户可通过Binder在线互动教程或本地Jupyter Notebook查看详细教程,推荐通过源代码安装以确保版本的及时更新。
visionscript - 抽象编程语言,用于快速执行计算机视觉任务
VisionScript计算机视觉Python对象检测图像分类Github开源项目
VisionScript是一个基于Python的编程语言,专门用于快速执行目标检测、分类和分割等常见计算机视觉任务。其简洁的语法允许用户通过少量代码完成复杂的视觉操作,并支持在交互式网络笔记本中运行。VisionScript兼容多个知名模型,包括CLIP、YOLOv8和BLIP,适合新手上手。无论是执行零样本分类,还是在照片中替换特定对象,VisionScript均能提供高效解决方案。
ML-ProjectKart - 机器学习和人工智能的优质开源项目集合
ML-ProjectKart机器学习深度学习自然语言处理计算机视觉Github开源项目
这个平台展示了多种机器学习、深度学习、计算机视觉和自然语言处理项目,帮助不同水平的用户熟练掌握ML/AI算法。技术从业人员可以通过遵循贡献指南参与项目贡献,获取实践经验并提升技能,推动开源社区的持续发展。
trainbot - 火车轨道监控与图像处理解决方案
OnlytrainsRaspberry Pi Camera v3前端图像拼接计算机视觉Github开源项目
Trainbot是一个开源项目,使用video4linux USB摄像头或Raspberry Pi摄像头模块监控铁路线,检测火车通过并缝合其图像。项目采用简单高效的计算机视觉方法,无需复杂依赖,在CPU上完成全部处理,支持X86_64和Raspberry Pi 4 B等硬件。用户可以通过不同方式获取或编译二进制文件,前端由VueJS和Typescript构建,能够独立展示数据。项目提供简便可行的部署方案和详细文档。
bpycv - Blender中的计算机视觉与深度学习实用工具,支持标注和深度数据的生成
bpycvBlender深度学习计算机视觉语义分割Github开源项目
bpycv是Blender中用于计算机视觉和深度学习的实用工具,提供语义分割、实例分割和全景分割的标注生成,以及6DoF姿态和深度数据的渲染。支持简单安装和Docker环境,适用于大规模合成数据集的构建,包含Cityscapes标注格式转换和域随机化功能。提供便捷的演示示例,方便开发与调试,适合计算机视觉研究人员和开发者。
superpixel-benchmark - 超像素算法的全面评估与性能比较
Superpixels计算机视觉图像处理算法比较数据集Github开源项目
该项目是一款全面的超像素算法评估平台,评估28种算法在5个数据集上的性能。通过参数优化和使用边界召回率、分割错误率、解释方差等指标,实现了客观和公平的比较。项目包含Docker实现、平均指标计算工具和详细文档,适用于研究人员和开发者进行深入研究与应用。
menpo - 图像与网格数据的导入、操作和可视化工具
MenpoPython机器学习计算机视觉数据处理Github开源项目
Menpo项目提供了一套Python库,简化图像和网格数据的导入、操作和可视化。作为机器学习和计算机视觉常用工具,Menpo支持标注数据的操作,使图像遮罩、裁切和对齐等任务变得简单。支持多个Python版本,建议使用conda安装,以解决复杂的依赖问题。Menpo还包含menpofit、menpo3d和menpodetect等附加库,以扩展功能。用户可以通过Jupyter Notebooks学习并在线浏览示例笔记本。
imageprocessing-labs - 实现计算机视觉与图像处理的开源项目
Image processing机器学习计算机视觉FFTWebGLGithub开源项目
该项目在网页和Node环境中实现了计算机视觉、图像处理和机器学习功能,包括FFT、立体匹配、Poisson图像编辑等。还支持决策树、K-Means++、逻辑回归等机器学习算法,并提供WebGL样例和ONNX Runtime支持。项目开源,采用MIT许可证。
CVPR-2023-24-Papers - 汇集CVPR 2024会议的最新计算机视觉与深度学习研究
CVPR 2024计算机视觉深度学习研究论文GitHubGithub开源项目
构建CVPR 2024会议最新研究论文的全面合集,涵盖计算机视觉和深度学习领域的最新进展。提供代码实现,适用于科研和开发,助力推动视觉智能的发展。
RoboticsAcademy - 学习机器人技术与人工智能的开放平台
RoboticsAcademy机器人学人工智能计算机视觉开源平台Github开源项目
RoboticsAcademy是一个开源平台,提供实践机器人技术、人工智能和计算机视觉的练习。最新文档涵盖了安装指南、现有练习和示范视频,完全基于ROS,包含Gazebo和Rviz等工具。开发者可以通过GitHub Pages和Jekyll主题进行贡献。
Holocron - 深度学习计算机视觉技巧的高效实现与应用
HolocronPyTorch深度学习计算机视觉模型Github开源项目
Holocron项目提供深度学习计算机视觉最新技术的高效实现,增强开发者灵活性并与PyTorch生态系统兼容。支持多种图像分类、目标检测和语义分割模型,包括Res2Net、Darknet和YOLO等。项目附带详细文档、示例代码和实时演示,助力开发者快速上手并部署高性能视觉解决方案,并提供多种优化算法和工具提升训练效率与准确性。适用于追求前沿性能和灵活开发环境的研究人员和工程师。
CCTag - 检测和定位同心圆标记的高效工具库
CCTag检测计算机视觉GPUCUDAGithub开源项目
CCTag库是一款用于检测和定位同心圆标记的高效工具,兼容CPU和GPU实现。基于CVPR 2016会议论文,该库在严苛条件下表现出色。支持CUDA 8.0及更新版本,建议使用平面支撑材料以保证检测准确性。提供详细文档和持续集成支持,适用于Windows和Linux系统。
xtreme1 - 开源多模态训练数据平台,专注于数据标注、管理和本体管理,支持计算机视觉和大模型项目
Xtreme1数据标注AI驱动工具多模式训练数据计算机视觉Github开源项目
Xtreme1是一款开源多模态训练数据平台,专注于数据标注、管理和本体管理,支持计算机视觉和大模型项目。凭借AI驱动工具,高效进行2D/3D物体检测、分割及LiDAR-摄像头融合,提升效率。平台具有强大的数据管理和质量监控功能,并提供模型结果可视化,辅助模型评估。Xtreme1云端版本长期免费,安装方便,兼容多种操作系统和硬件。
lightly - 简单易用的自监督学习工具,支持自定义骨干模型和分布式训练
Lightly自监督学习计算机视觉多模型支持PyTorchGithub开源项目
这个开源项目提供简单易用的自监督学习工具,支持自定义骨干模型和分布式训练。通过模块化设计,用户可以自由调整损失函数和模型头。项目还提供商业版本,包含用于嵌入、分类、检测和分割任务的预训练模型。此外,平台集成了主动学习和数据策划功能,适用于大规模数据处理和强大算法的应用。
ffcv - 插入式数据加载系统,可显著提高模型训练中的数据吞吐量
ffcv模型训练数据加载计算机视觉加速Github开源项目
FFCV通过加速数据加载,显著提升模型训练的数据吞吐量,同时保持训练算法不变,极大地减少训练时间和成本。例如,使用FFCV在一块GPU上训练ImageNet模型仅需35分钟,而CIFAR-10模型仅需36秒。FFCV还提供预封装的标准视觉基准代码、自动优化的数据处理功能,以及适用于各种资源约束环境的灵活选项。更多详细信息和安装指南,请访问官方网站。
SRGAN - 使用生成对抗网络提升单图像超分辨率效果
SRGANTensorLayerX超分辨率计算机视觉VGG19Github开源项目
本项目展示了使用生成对抗网络(GAN)如何实现单图像的高分辨率超分辨率。使用预训练的VGG19模型和高分辨率图像进行训练,支持多种深度学习框架,如TensorFlow、PaddlePaddle、MindSpore,未来还将支持PyTorch。项目提供完整的训练和评估指南,并通过简单的代码修改可以切换不同的后端框架。适用于图像处理和计算机视觉领域的研究人员和开发人员,项目中展示了技术实现的详细结果,还提供了参考文献和讨论资源。
DeepLearing-Interview-Awesome-2024 - 2024深度学习面试题与资源汇总
DeepLearning-Interview-Awesome-2024大模型深度学习计算机视觉算法面试Github开源项目
该项目涵盖大模型、计算机视觉、深度学习基础与框架、行业应用等六大专题,提供最新的面试题目总结与详细解析。本指南通过高频面试题和学术创新思考的汇总,帮助学习者和求职者为2024年深度学习算法职位做好准备。项目内容持续更新,紧跟科技发展趋势。
adversarial-attacks-pytorch - 提供对抗攻击方法的PyTorch库,支持多种攻击技术
TorchattacksPyTorch对抗攻击Adversarial Examples计算机视觉Github开源项目
Torchattacks是一个专为PyTorch用户设计的对抗攻击库,提供类似PyTorch的接口和函数,便于生成对抗样本。支持包括FGSM、PGD、CW和AutoAttack在内的多种攻击方法,并附有详细的使用案例和安装指南,适用于机器学习和深度学习模型的安全性测试和对抗训练效果的提升。
ml-cvnets - 灵活的计算机视觉模型训练库
CVNets计算机视觉模型训练对象检测图像分类Github开源项目
CVNets是一个计算机视觉库,支持研究人员和工程师训练和评估多种计算机视觉模型,包括对象分类、对象检测和语义分割等任务。最新版本引入了直接处理文件字节的Transformer和高效在线增强,支持如Mask R-CNN、EfficientNet、Swin Transformer和ViT等模型,并增强了蒸馏功能。
make-sense - 免费跨平台图片标注工具,简化深度学习数据集准备,支持多种格式导出
makesense.ai深度学习计算机视觉照片标注TensorFlow.jsGithub开源项目
makesense.ai是一个免费且跨平台的在线图片标注工具,无需复杂安装,特别适合小型计算机视觉深度学习项目。支持多种标签格式导出,如CSV、YOLO、VOC XML等,并集成先进的AI模型如YOLOv5、SSD等,以自动化标注过程。项目基于TypeScript和React/Redux构建,提供详细的文档及本地和Docker部署指引。
notebooks - 使用 SOTA 计算机视觉模型和技术的示例和教程
Roboflow计算机视觉GPT-4 VisionYOLODETRGithub开源项目
提供详尽的计算机视觉教程,包括ResNet、YOLO、DETR等经典模型,以及最新的Grounding DINO、SAM和GPT-4 Vision技术。这个资源库适合初学者和专家学习最前沿的计算机视觉方法和应用。
cv_note - 分享计算机视觉和模型压缩部署技术栈笔记
CV算法工程师机器学习深度学习计算机视觉Github开源项目
这个开源项目详细记录了计算机视觉算法工程师的成长路径,从基础编程知识到深度学习,再到模型部署。项目还提供了算法实习内推表、校招可投递公司汇总及技术栈笔记等实用资源,涵盖了编程开发、机器学习、图像识别、模型压缩等关键技术点,适合希望系统提升技术水平的工程师。
Make-Your-Video - 结合文本和深度信息的智能视频生成模型
Make-Your-Video视频生成AI模型深度学习计算机视觉Github开源项目
Make-Your-Video是一个结合文本和深度信息的视频生成模型。它继承了图像潜在扩散模型的丰富视觉概念,支持长视频推理。该模型可将真实场景和3D建模场景转化为视频,并支持视频重渲染。相比其他方法,Make-Your-Video在视觉质量和动作控制方面表现优异,为视频创作提供了新的可能性。
GroupMixFormer - 视觉Transformer的群组混合注意力革新
GroupMixFormer视觉Transformer自注意力机制图像分类计算机视觉Github开源项目
GroupMixFormer是一种创新的视觉Transformer模型,引入群组混合注意力(GMA)机制来增强传统自注意力。GMA可同时捕捉不同尺度的token和群组相关性,显著提升模型表征能力。在多项计算机视觉任务中,GroupMixFormer以较少参数实现了领先性能。其中GroupMixFormer-L在ImageNet-1K分类上达到86.2% Top-1准确率,GroupMixFormer-B在ADE20K分割上获得51.2% mIoU,展现出强大潜力。
LangSplat - 将3D场景与自然语言融合的高斯点云渲染技术
LangSplat3D语言高斯分散CVPR2024计算机视觉语言特征Github开源项目
LangSplat是一种创新的3D语言高斯点云渲染技术,融合3D场景重建和自然语言处理。该技术引入场景级语言自动编码器,降低内存需求,实现高效语言特征建模。项目提供完整训练流程,涵盖特征生成、自动编码器训练和模型优化,支持研究者在自定义场景中应用LangSplat。
ECCV2024-Papers-with-Code - ECCV 2024开源项目与论文合集
ECCV 2024计算机视觉深度学习自动驾驶AIGCGithub开源项目
探索ECCV 2024的最新论文和开源项目,其中涵盖3D点云、自动驾驶、GAN和Vision Transformer等领域。ECCV 2024展示了前沿的计算机视觉和深度学习研究成果,提供论文和代码链接,帮助研究人员和开发者紧跟技术前沿。加入CVer学术交流群,与顶尖学者交流并获取最新的学习资料。
transformers.js - 浏览器端运行先进机器学习模型的JavaScript库
Transformers.js机器学习ONNX Runtime自然语言处理计算机视觉Github开源项目
Transformers.js是一个JavaScript库,可在浏览器中直接运行Hugging Face的Transformers模型,无需服务器。该库支持自然语言处理、计算机视觉、音频处理和多模态任务,使用ONNX Runtime执行模型。它的设计与Python版Transformers功能相同,提供简单API运行预训练模型,并支持将自定义模型转换为ONNX格式。
imageinwords - 致力于生成超详细图像描述的研究项目
ImageInWords图像描述数据集机器学习计算机视觉Github开源项目
ImageInWords 是一个致力于生成超详细图像描述的研究项目。该项目提供基准评估数据集,可通过 Hugging Face 访问。它集成了计算机视觉和自然语言处理技术,为研究人员和开发者提供数据集、可视化工具和探索接口。这项研究旨在推进图像理解和描述生成领域的发展。
jaxlie - JAX Lie群库为计算机视觉和机器人应用提供刚体变换
jaxlieLie群计算机视觉机器人学JAXGithub开源项目
jaxlie是一个基于JAX的Lie群实现库,专注于计算机视觉和机器人应用中的刚体变换。它实现了SO2、SE2、SO3和SE3等常用Lie群,支持自动微分、优化和JAX函数变换。该库提供前向和反向模式AD、流形优化、广播和序列化等功能,为开发者提供刚体变换的高效工具。
GiT - 通用视觉Transformer模型实现多任务统一
GiT视觉Transformer多任务学习计算机视觉语言接口Github开源项目
GiT是一种通用视觉Transformer模型,采用单一ViT架构处理多种视觉任务。该模型设计简洁,无需额外视觉编码器和适配器。通过统一语言接口,GiT实现了从目标检测到图像描述等多任务能力。在多任务训练中,GiT展现出任务间协同效应,性能超越单任务训练且无负迁移。GiT在零样本和少样本测试中表现优异,并随模型规模和数据量增加而持续提升性能。
RegionSpot - 基于深度学习的智能区域识别开源项目
RegionSpot图像识别区域检测AI模型计算机视觉Github开源项目
RegionSpot是一个开源计算机视觉项目,专门用于识别图像中的任意区域。该项目利用深度学习技术,通过文本提示或边界框输入来定位和分割图像中的特定区域。RegionSpot提供了多个预训练模型,在罕见物体检测中实现了26.3%的框AP和23.4%的掩码AP。项目支持自定义词汇,并提供简单的API接口,适用于多种计算机视觉应用场景。
slambook2 - 视觉SLAM理论与实践开源代码库
视觉SLAMSlambook2计算机视觉机器人技术开源代码Github开源项目
slambook2是《视觉SLAM十四讲:从理论到实践》第二版的开源代码库,涵盖视觉SLAM理论基础和实践应用。项目提供丰富的代码示例,包括视觉里程计、后端优化、回环检测等核心模块的实现,帮助SLAM爱好者和研究人员深入理解核心概念和实现技术。代码库包含中英文版本,并提供相关学习资源链接,适合不同背景的用户学习和研究视觉SLAM技术。
fastai - 一个为从业者提供快速提供在标准深度学习领域中提供最先进的高级组件,并提供可以混合和匹配的低级组件构建新方法的深度学习库
fastaiPyTorch深度学习计算机视觉GPU优化Github开源项目
fastai是一个深度学习库,提供高层组件以快速实现高性能结果,同时为研究人员提供可组合的低层组件。通过分层架构和Python、PyTorch的灵活性,fastai在不牺牲易用性、灵活性和性能的情况下,实现了高效的深度学习。支持多种安装方式,包括Google Colab和conda,适用于Windows和Linux。学习资源丰富,包括书籍、免费课程和详细文档。