Logo

#计算机视觉

Logo of opencv
opencv
OpenCV是开源的计算机视觉库,提供详尽的文档、在线课程和活跃的Q&A论坛。用户可在GitHub上报告问题和贡献代码,需遵循明确的贡献指南。此外,OpenCV支持提交社区项目和参与志愿者活动,通过多个平台获取最新的计算机视觉与AI动态。
Logo of daily-paper-computer-vision
daily-paper-computer-vision
该项目每日更新和整理计算机视觉、深度学习及机器学习领域的最新优质论文和项目,涵盖多个研究方向。内容涵盖从2017年至今的顶会顶刊论文列表和代码链接,为研究人员提供丰富的资源参考。
Logo of SmartOpenCV
SmartOpenCV
SmartOpenCV是一个用于Android平台的增强型OpenCV库,解决了官方SDK在图像预览中的问题。无需修改SDK源码,只需替换xml标签,即可自动适应摄像头参数、横竖屏切换及预览帧大小。该库支持USB摄像头,提供友好的API接口,方便开发者灵活控制预览显示。SmartOpenCV与官方SDK解耦,确保项目能够轻松升级至最新版本。
Logo of sahi
sahi
SAHI是一款轻量级视觉工具库,专注于解决小物体检测和大图像推理难题,支持多种框架如YOLOv5、MMDetection和Detectron2。提供丰富的命令行工具及COCO数据集处理功能,适用于精细化的计算机视觉应用,特别在复杂图像处理中表现优异。通过多种教程和示例,帮助开发者快速上手并优化视觉任务。
Logo of Best_AI_paper_2020
Best_AI_paper_2020
探索2020年AI研究的顶尖成果。本页面提供从计算机视觉到自然语言处理的最新AI研究论文,每篇论文均配有清晰视频讲解及深度分析链接,同时提供开源代码下载,助您深入了解AI技术如何塑造未来。
Logo of albumentations
albumentations
Albumentations, 一个高效的Python库用于图像增强,通过逾70种方法优化深度学习和计算机视觉模型性能。支持PyTorch和TensorFlow框架,适合多种视觉任务如分类、语义分割和目标检测。
Logo of Awesome-MIM
Awesome-MIM
该项目汇总了掩码图像建模(MIM)及相关的自监督学习方法。涵盖了从2008年以来的主要自监督学习研究,并展示了其在自然语言处理和计算机视觉领域的发展历程和关键节点。所有内容按时间顺序排列并定期更新,包括相关论文、代码和框架的详细信息,旨在帮助研究者深入理解和应用MIM方法。欢迎贡献相关文献或修正建议。
Logo of Transformer-in-Computer-Vision
Transformer-in-Computer-Vision
项目汇总了最新的基于Transformer的计算机视觉研究论文,涵盖了视频处理、图像分类、目标检测和异常检测等广泛应用场景。用户可点击链接查看具体类别的论文和代码。若发现遗漏研究,欢迎提交问题或请求。最新版本更新于2024年8月8日,为科研人员与开发者提供丰富资源。
Logo of ImageAI
ImageAI
ImageAI是一款开源的Python库,帮助开发者使用简便的代码实现深度学习和计算机视觉功能。该库支持图像预测、目标检测、视频检测及对象跟踪等多种功能。新版本引入了PyTorch后端和TinyYOLOv3模型训练,提升了性能并扩展了功能。用户还可以训练自定义模型识别新对象。有关如何安装和使用ImageAI的详细信息,请参阅项目文档和指南。
Logo of awesome-segment-anything
awesome-segment-anything
本项目专注于追踪和总结Segment Anything在计算机视觉领域的最新研究进展,内容涵盖基准模型论文、衍生论文和衍生项目,覆盖医学影像分割、视频帧插值、低层视觉、图像插补等多个领域。如觉得本资源库有帮助,请星标或分享。这里提供最新的项目更新和丰富的资源链接,助力进一步研究和应用。
Logo of visionscript
visionscript
VisionScript是一个基于Python的编程语言,专门用于快速执行目标检测、分类和分割等常见计算机视觉任务。其简洁的语法允许用户通过少量代码完成复杂的视觉操作,并支持在交互式网络笔记本中运行。VisionScript兼容多个知名模型,包括CLIP、YOLOv8和BLIP,适合新手上手。无论是执行零样本分类,还是在照片中替换特定对象,VisionScript均能提供高效解决方案。
Logo of superpixel-benchmark
superpixel-benchmark
该项目是一款全面的超像素算法评估平台,评估28种算法在5个数据集上的性能。通过参数优化和使用边界召回率、分割错误率、解释方差等指标,实现了客观和公平的比较。项目包含Docker实现、平均指标计算工具和详细文档,适用于研究人员和开发者进行深入研究与应用。
Logo of RoboticsAcademy
RoboticsAcademy
RoboticsAcademy是一个开源平台,提供实践机器人技术、人工智能和计算机视觉的练习。最新文档涵盖了安装指南、现有练习和示范视频,完全基于ROS,包含Gazebo和Rviz等工具。开发者可以通过GitHub Pages和Jekyll主题进行贡献。
Logo of supervision
supervision
Supervision 是一个模型无关的计算机视觉工具包,支持分类、检测和分割模型的集成。用户可以加载数据集、可视化检测结果并进行区域统计。该工具包提供了丰富的注释和数据集处理功能,适用于零售和交通管理等领域。了解更多关于使用 Supervision 加速计算机视觉应用开发的信息。
Logo of fiftyone
fiftyone
FiftyOne 是一款提升机器学习工作流的开源工具,通过可视化数据集和解读模型结果来提高效率。用户可用它处理复杂标签、评估模型、探索场景、识别错误模式和注释错误等。安装简便,可通过 pip 安装并运行示例代码快速上手。
Logo of pytorch-grad-cam
pytorch-grad-cam
pytorch-grad-cam是一个先进的AI解释性工具包,适用于PyTorch平台,提供了多种像素归因方法,支持常见的CNN和视觉变换器模型。这个包不仅可以用于生产中对模型预测的诊断,也适用于模型开发阶段。通过包括平滑方法和高性能的批处理支持,pytorch-grad-cam能够在多种场景下提供详尽可靠的视觉解释,助力研究人员和开发者深入理解模型决策过程。
Logo of PyTorch-Tutorial-2nd
PyTorch-Tutorial-2nd
本书基于PyTorch,系统性涵盖深度学习的核心知识,包括计算机视觉、自然语言处理、大语言模型等实战案例,详解ONNX和TensorRT推理部署框架,为读者提供从基础到应用的完整指导,帮助快速掌握PyTorch并实现项目落地。适合AI自学者、产品经理及跨领域人士阅读。
Logo of best_AI_papers_2021
best_AI_papers_2021
best_AI_papers_2021项目精选2021年AI领域的关键研究,涵盖从伦理到技术实用性的多方面进展。探索每项研究的创新及其未来影响,包括视频讲解与相关代码。
Logo of deep-learning-drizzle
deep-learning-drizzle
deep-learning-drizzle 集结了全球顶尖院校与研究机构的深度学习与AI在线课程。覆盖初级到高级课程,涉及自然语言处理、计算机视觉、机器学习等多个领域,提供视频教程及实战操作指南。适合各层次人士学习,助您深入AI领域。
Logo of NLP-Natural-Language-Processing
NLP-Natural-Language-Processing
提供全面的自然语言处理(NLP)资源,涵盖数据集、前沿技术、课程、书籍推荐、GitHub代码示例及流行工具。涉及数据分析、知识图谱、模型与算法、情感分析、主题建模等任务的详细资料与学习路径。了解最新NLP动态,探索自然语言处理的应用潜力。
Logo of Transformer-in-Vision
Transformer-in-Vision
本页面收录并介绍了最新的基于Transformer的计算机视觉研究和相关资源,内容涵盖机器人应用、视频生成、文本-图像检索、多模态预训练模型等领域。用户可访问开源代码和论文链接,如ChatGPT在机器人领域的应用、DIFFUSIONDB、LAION-5B、LAVIS、Imagen Video和Phenaki等。页面会不定期更新,提供Transformer在视觉领域应用的全面信息和资源汇总。
Logo of overeasy
overeasy
Overeasy允许无大规模数据集,通过链式预训练零样本视觉模型实现高效图像处理。利用专用工具和工作流,用户可定制端到端管道,支持边框检测及分类。功能涵盖执行图和检测,安装简便,文档详尽,并提供Colab示例。
Logo of sports
sports
本文介绍了如何在足球赛事中使用YOLOv5和ByteTrack技术进行球员追踪,使用YOLOv7实现3D姿势估计,并通过GPT-4V基于球衣颜色分配球员。文章包含技术应用示例、实现方法以及相关视频和代码资源,旨在帮助读者更好地理解和应用这些技术。
Logo of ML-ProjectKart
ML-ProjectKart
这个平台展示了多种机器学习、深度学习、计算机视觉和自然语言处理项目,帮助不同水平的用户熟练掌握ML/AI算法。技术从业人员可以通过遵循贡献指南参与项目贡献,获取实践经验并提升技能,推动开源社区的持续发展。
Logo of menpo
menpo
Menpo项目提供了一套Python库,简化图像和网格数据的导入、操作和可视化。作为机器学习和计算机视觉常用工具,Menpo支持标注数据的操作,使图像遮罩、裁切和对齐等任务变得简单。支持多个Python版本,建议使用conda安装,以解决复杂的依赖问题。Menpo还包含menpofit、menpo3d和menpodetect等附加库,以扩展功能。用户可以通过Jupyter Notebooks学习并在线浏览示例笔记本。
Logo of fastai
fastai
fastai是一个深度学习库,提供高层组件以快速实现高性能结果,同时为研究人员提供可组合的低层组件。通过分层架构和Python、PyTorch的灵活性,fastai在不牺牲易用性、灵活性和性能的情况下,实现了高效的深度学习。支持多种安装方式,包括Google Colab和conda,适用于Windows和Linux。学习资源丰富,包括书籍、免费课程和详细文档。
Logo of cvat
cvat
CVAT是一个计算机视觉的交互式视频和图像标注工具,被全球数万用户和企业广泛使用。提供免费在线版和自托管解决方案,支持Roboflow和HuggingFace集成。支持多种标注格式,并通过自动标注功能加速标注过程。企业用户可享受高级功能和专业支持服务。
Logo of gluon-cv
gluon-cv
GluonCV是一个面向工程师、研究人员和学生的计算机视觉深度学习工具包,支持快速原型设计。其主要功能包括可复现SOTA结果的训练脚本、对PyTorch和MXNet框架的支持、大量预训练模型,以及简化实现的API设计和社区支持。用户还可以通过AutoGluon执行图像分类和目标检测任务。
Logo of kornia
kornia
Kornia是一款基于PyTorch的差分化计算机视觉库,提供一系列可插入神经网络的运算和模块,用于解决通用的计算机视觉问题。该库利用PyTorch高效性和自适应反向传播算法,支持图像变换、视觉几何、深度估算及基于张量的低层图像处理等功能,适用于研究和商业用途。
Logo of learnopencv
learnopencv
LearnOpenCV.com 博客提供了众多关于计算机视觉、深度学习及人工智能的最新技术和代码实例。该平台聚焦于为AI学习者及技术实践者提供丰富的资源和项目实践,帮助用户全面掌握并应用AI技术。
Logo of Transformers-Recipe
Transformers-Recipe
该指南为自然语言处理(NLP)及其他领域的学习者提供了丰富的Transformer学习资源,包括基础介绍、技术解析、实际实现和应用。通过精选的文章、视频和代码示例,帮助用户深入掌握Transformer模型的理论与实践。
Logo of graph-based-deep-learning-literature
graph-based-deep-learning-literature
该项目收录了基于图的深度学习领域内,例如NeurIPS、ICML和ICLR等顶级会议的出版物、相关工作坊、综述文章、书籍以及软件资源链接。这些资源为学术研究人员和专业学者提供了方便的一站式服务,便于他们探索、查询及利用该领域内的最新科研成果和工具。
Logo of ICCV2023-Papers-with-Code
ICCV2023-Papers-with-Code
收录ICCV 2023大会接受的2160篇论文及开源代码,涵盖计算机视觉领域的多个前沿主题,包括Backbone、CLIP、GAN、NeRF、扩散模型、自监督学习、目标检测和医学图像处理,为研究和学习者提供一站式资源。
Logo of inference
inference
Roboflow Inference 是一个开源平台,简化了计算机视觉模型的部署。通过 Python 原生包、自托管推理服务器或托管的 API,开发者可以执行对象检测、分类和实例分割,并使用基础模型如 CLIP、Segment Anything 和 YOLO-World。平台提供了高级功能,如服务器部署、设备管理和主动学习。支持 GPU 加速环境,并提供详尽的文档和教程,帮助用户充分利用 Inference 包的功能。
Logo of Diffusion-Models-Papers-Survey-Taxonomy
Diffusion-Models-Papers-Survey-Taxonomy
本文系统梳理了扩散模型的最新进展,涵盖算法和应用分类,包括计算机视觉、自然语言处理及医疗图像重建等领域。项目持续更新,整合最新研究成果。读者将收获从无监督学习到高分辨率图像生成及多模态学习的丰富知识,掌握这一前沿技术。
Logo of MambaVision
MambaVision
MambaVision采用混合Mamba-Transformer架构,结合自注意力和混合块,实现了卓越的图像分类和特征提取效果。其创新的对称路径设计提升了全局上下文的建模能力,并提供多种预训练模型。MambaVision支持多种分辨率图像处理,适用于分类、检测和分割等任务。最新模型支持Hugging Face和pip包,详细信息见[官网](https://huggingface.co/collections/nvidia/mambavision-66943871a6b36c9e78b327d3)。
Logo of trainbot
trainbot
Trainbot是一个开源项目,使用video4linux USB摄像头或Raspberry Pi摄像头模块监控铁路线,检测火车通过并缝合其图像。项目采用简单高效的计算机视觉方法,无需复杂依赖,在CPU上完成全部处理,支持X86_64和Raspberry Pi 4 B等硬件。用户可以通过不同方式获取或编译二进制文件,前端由VueJS和Typescript构建,能够独立展示数据。项目提供简便可行的部署方案和详细文档。
Logo of imageprocessing-labs
imageprocessing-labs
该项目在网页和Node环境中实现了计算机视觉、图像处理和机器学习功能,包括FFT、立体匹配、Poisson图像编辑等。还支持决策树、K-Means++、逻辑回归等机器学习算法,并提供WebGL样例和ONNX Runtime支持。项目开源,采用MIT许可证。
Logo of skyvern
skyvern
Skyvern结合大语言模型(LLMs)和计算机视觉,提供简单的API端点,实现大量网站的工作流自动化,解决传统方法的不稳定性。无需定制代码即可操作新网站,对布局变化具有抗性,并能在多个网站上应用相同工作流。Skyvern云版本让用户无需管理基础设施即可运行多个实例,并提供反机器人检测、代理网络和验证码解决方案。
Logo of monodepth2
monodepth2
本项目提供了PyTorch实现的代码,用于训练和测试深度估计模型。代码采用自监督学习方法,支持单目和立体图像的深度预测。提供多种预训练模型和自定义数据集,兼容不同的图像分辨率。适用于研究和非商业用途,包含详细的设置指南、训练和评估说明。用户可通过此项目高效开发和优化深度估计模型。
Logo of Conference-Acceptance-Rate
Conference-Acceptance-Rate
本项目详细汇总了顶级人工智能相关会议的录取率数据,包括自然语言处理、计算机视觉、机器学习、数据挖掘等领域。通过多年会议数据分析,提供对学术界趋势的深入洞见。适用于学者和研究人员规划提交论文,以及对AI研究领域发展感兴趣的读者。
Logo of CVPR2024-Papers-with-Code
CVPR2024-Papers-with-Code
CVPR 2024的论文和代码集锦,涵盖3D建模、机器学习、视觉感知等多种计算机视觉领域,为研究人员和技术开发者提供一站式检索最新科研成果与实用工具。
Logo of computervision-recipes
computervision-recipes
computervision-recipes为数据科学家和机器学习工程师提供计算机视觉领域的实用示例和指南,涵盖面部识别、图像识别等多种视觉任务,并便利地利用先进库加速从概念到实现的全过程,并在云端实现模型训练与部署。
Logo of pytorch-deep-learning
pytorch-deep-learning
本课程涵盖从基础到高级的深度学习概念,通过实践教学与丰富的视频材料,讲解PyTorch操作和应用。包括神经网络分类、计算机视觉和数据集处理等主题,适合希望深化机器学习理解和应用的学习者。课程包括最新的PyTorch 2.0教程,确保内容的时效性和专业性。
Logo of computer-vision-in-action
computer-vision-in-action
本项目提供全面且前沿的计算机视觉学习资源,涵盖深度学习基础、神经网络模型及其优化方法。核心内容包括卷积神经网络、循环神经网络以及现代技术如Transformer、强化学习和迁移学习。通过实战项目和详细的代码实现,用户可以学习图像分类、目标检测、语义分割和3D重建等应用。此外,项目提供在线运行的notebook,简化本地调试过程。
Logo of raster-vision
raster-vision
Raster Vision是一个开源的Python库和框架,用于构建卫星、航空和其他大型影像集的计算机视觉模型。它支持芯片分类、目标检测和语义分割,后端采用PyTorch。作为低代码框架,它允许用户无需深度学习专业知识即可配置和运行机器学习管道,并支持通过AWS Batch和AWS Sagemaker在云端进行部署。用户可以通过pip或Docker镜像进行安装和使用。更多详情参阅官方文档。
Logo of InstructCV
InstructCV
InstructCV 项目通过指令调优的文本到图像扩散模型,简化了计算机视觉任务的执行方式。该项目将多个计算机视觉任务转化为文本描述的图像生成问题,并使用涵盖分割、物体检测、深度估计和分类等任务的数据集进行训练。利用大型语言模型生成任务提示,该模型从生成模型转变为指令引导的多任务视觉学习者。项目实现了多种环境配置,包括在Huggingface Spaces的Gradio演示和Google Colab的运行示例,并支持PyTorch 1.5+。
Logo of boxx
boxx
Box-X是一款为Python开发者设计的高效构建与调试工具箱,特别适用于科学计算和计算机视觉。它兼容Linux、macOS和Windows平台,并支持Python 2/3环境(包括CPython、IPython、Spyder和Notebook)。主要功能包括变量打印和传输、矩阵及张量可视化、复杂结构的树状显示以及多进程加速。用户可通过Binder在线互动教程或本地Jupyter Notebook查看详细教程,推荐通过源代码安装以确保版本的及时更新。
Logo of bpycv
bpycv
bpycv是Blender中用于计算机视觉和深度学习的实用工具,提供语义分割、实例分割和全景分割的标注生成,以及6DoF姿态和深度数据的渲染。支持简单安装和Docker环境,适用于大规模合成数据集的构建,包含Cityscapes标注格式转换和域随机化功能。提供便捷的演示示例,方便开发与调试,适合计算机视觉研究人员和开发者。
Logo of CVPR-2023-24-Papers
CVPR-2023-24-Papers
构建CVPR 2024会议最新研究论文的全面合集,涵盖计算机视觉和深度学习领域的最新进展。提供代码实现,适用于科研和开发,助力推动视觉智能的发展。