#计算机视觉
pytorch-hed - PyTorch重实现的全息嵌套边缘检测HED算法
HED边缘检测PyTorch计算机视觉深度学习Github开源项目
该项目是Holistically-Nested Edge Detection (HED)算法的PyTorch重新实现。项目提供命令行工具进行图像边缘检测,使用官方权重但在BSDS500数据集上ODS评分为0.774,略低于原始Caffe版本的0.780。项目包含使用说明、性能对比和引用信息,为研究和开发人员提供HED算法的实现参考。
super-gradients - 开源工具库简化SOTA计算机视觉模型的训练与部署
SuperGradients深度学习计算机视觉预训练模型模型训练Github开源项目
Super-Gradients是一个专注于计算机视觉的开源深度学习库。它提供预训练SOTA模型和易用训练工具,支持分类、分割、检测等任务。该项目集成多种训练技巧,兼容主流部署框架,可快速将模型应用于生产。Super-Gradients适用于学术研究和工业应用,是一个高效的计算机视觉开发工具。
TokenHMR - 基于令牌化姿态表示的人体网格重建新方法
TokenHMR人体网格恢复计算机视觉姿态表示深度学习Github开源项目
TokenHMR采用阈值自适应损失缩放和令牌预测技术,通过令牌化和TokenHMR两个阶段提高3D人体网格重建精度。该方法在图像对齐和3D姿态估计方面均有良好表现,可用于图像和视频处理,对人体姿态和形状估计研究具有重要意义。
WHAM - 基于世界坐标系的高精度3D人体动作重建技术
WHAM3D人体重建人体姿态估计计算机视觉深度学习Github开源项目
WHAM是一种创新的3D人体动作重建技术,能在世界坐标系中精确重现人体动作。该技术基于PyTorch平台,整合了视觉变换器和SLAM技术,可从单一视频中提取精确的人体运动和姿态数据。WHAM在3DPW和EMDB等多个基准数据集上展现出卓越性能,为人体动作分析和计算机视觉研究开辟了新途径。
VisionLLM - 面向视觉任务的开放式多模态大语言模型
VisionLLM多模态大语言模型视觉语言任务计算机视觉人工智能Github开源项目
VisionLLM 系列是一种多模态大语言模型,专注于视觉相关任务。该模型利用大语言模型作为开放式解码器,支持数百种视觉语言任务,包括视觉理解、感知和生成。VisionLLM v2 进一步提升了模型的通用性,扩展了其在多模态应用场景中的能力,推动了计算机视觉与自然语言处理的融合。
SportsLabKit - 专业体育分析工具包 实现比赛视频数据化
SportsLabKit体育分析目标跟踪数据处理计算机视觉Github开源项目
SportsLabKit是一个开源的体育分析工具包,可将比赛视频转换为可分析的数据。目前主要用于足球领域,计划扩展到其他运动。核心功能包括高性能追踪、灵活架构、2D场地校准和数据封装,便于进行运动员追踪和数据分析。该项目集成了SORT、DeepSORT、ByteTrack等多种追踪算法,支持YOLOv8等检测模型,为研究人员和开发者提供了灵活的开发环境。SportsLabKit正在持续开发中,旨在提供更多计算机视觉工具和统一的数据表示方法。
yolov9-face-detection - YOLOv9在WIDER Face数据集上的人脸检测实现
YOLOv9人脸检测深度学习计算机视觉WIDER Face数据集Github开源项目
这个开源项目展示了如何利用YOLOv9模型在WIDER Face数据集上实现高精度人脸检测。项目提供了完整的工作流程,包括安装指南、预训练模型、数据准备、训练和推理方法。同时还包含数据集转换脚本和配置文件,方便研究者和开发者快速上手并应用于实际场景。
tram - 从非受控视频中重建3D人体全局轨迹和动作
TRAM3D人体捕捉视频处理计算机视觉深度学习Github开源项目
TRAM是一个开源的4D人体捕捉系统,专门用于从非受控视频中估计3D人体的全局轨迹和动作。该系统集成了目标跟踪、SLAM和4D人体捕捉技术,能在世界坐标系中精确重建人体运动。TRAM的工作流程包括相机位姿估计、人体检测跟踪和4D人体重建,为复杂场景中的人体运动分析提供了有力工具。
MAD - 大规模电影音频数据集用于视频语言定位研究
MAD数据集视频语言定位电影音频描述计算机视觉CVPRGithub开源项目
MAD是一个用于视频语言定位研究的大规模数据集,源自电影音频描述。它包含384K个句子,涵盖650部电影的1.2K小时视频内容。数据集横跨22个电影类型和90年电影史,提供多样化的动作、场景和语言素材。MAD的独特之处在于其长形式定位设置,具有庞大的语言词汇量,对准确性和效率提出了挑战。这一资源为研究人员开拓了视频语言理解的新领域。
SMPLer-X - 基于ViT的高效人体3D重建框架
SMPLer-X人体姿态估计3D人体重建计算机视觉深度学习Github开源项目
SMPLer-X是一个基于ViT主干网络的人体姿态和形状估计框架,通过多数据集训练实现高精度和高效率。该框架提供多种规模的模型版本,适应不同计算资源。SMPLer-X在多个基准测试中表现优异,支持便捷的推理、训练和测试。项目还提供Docker部署,为研究和开发提供灵活的人体3D重建工具。
multi-hmr - 单次处理实现多人全身3D人体网格重建
人体网格重建多人检测计算机视觉深度学习Multi-HMRGithub开源项目
Multi-HMR是一种高效的单次处理模型,用于多人全身人体网格重建。该模型仅需一张RGB图像输入,即可在相机空间中重建多个人的3D模型。项目在BEDLAM、EHF等多个数据集上实现了领先性能,并提供预训练模型和演示代码,可应用于图像中的多人3D重建任务。
WinClip - 先进的零样本和少样本异常检测算法
WinCLIP异常检测计算机视觉零样本学习少样本学习Github开源项目
WinCLIP是计算机视觉领域的创新零样本和少样本异常检测算法,专注于异常分类和异常分割。该方法在MVTec-AD和VisA数据集上表现出色,在图像级和像素级异常检测任务中均展现优异性能。项目提供完整实现代码,包含环境配置、数据集准备和结果复现指南,为研究人员和开发者提供重要参考,推动了异常检测技术的发展。
awesome-machine-learning - 机器学习框架与资源汇总 多语言开源项目集锦
机器学习深度学习计算机视觉自然语言处理数据分析Github开源项目
Awesome Machine Learning项目汇集了按编程语言分类的机器学习开源资源。涵盖计算机视觉、自然语言处理、深度学习等领域的框架、库和工具,涉及Python、Java、C++等多种语言。此外还收录相关书籍、课程和博客,为机器学习从业者提供全面参考。项目保持活跃更新,欢迎社区贡献优质资源。
yolov8-face - YOLOv8优化的实时人脸检测与关键点定位框架
YOLOv8人脸检测目标检测深度学习计算机视觉Github开源项目
yolov8-face项目基于YOLOv8架构,专注于人脸检测和关键点定位。该项目提供多个模型版本,涵盖轻量级到高精度的不同需求,适用于各种应用场景。支持Android和OpenCV等多平台部署,具备高精度和实时性能。新增的yolov8-lite系列进一步优化了模型大小和计算效率,使其更适合移动设备和嵌入式系统应用。
hagrid - 大规模手势识别图像数据集助力人机交互系统开发
HaGRID手势识别图像数据集机器学习计算机视觉Github开源项目
HaGRID是一个包含554,800张全高清RGB图像的手势识别数据集,涵盖18种手势类别。数据集由37,583名受试者在多种光照条件下采集,适用于图像分类和目标检测任务。HaGRID可用于开发视频会议、家庭自动化和汽车领域的手势识别系统,推动人机交互技术进步。
3DModelingRL - 深度强化学习在3D建模中的应用与突破
3D建模强化学习PyTorch计算机视觉ECCV 2020Github开源项目
3DModelingRL项目展示了一种创新的3D建模方法,利用深度强化学习模拟人类建模过程。项目包含Prim-Agent和Mesh-Agent两个核心组件,分别用于生成基于图元的表示和编辑网格。该方法在ECCV 2020会议发表,为3D建模领域开辟新方向。项目提供完整代码、预训练模型和数据集,便于研究者进一步探索和应用。
End-to-end-Autonomous-Driving - 端到端自动驾驶研究资源综合集成
自动驾驶端到端机器学习计算机视觉CARLAGithub开源项目
该项目整合端到端自动驾驶研究资源,涵盖学习材料、研讨会、论文集、基准测试、数据集及竞赛信息。旨在为自动驾驶研究提供全面参考,推动技术发展。内容定期更新,欢迎社区参与贡献。
instruct-nerf2nerf - 基于指令的3D场景编辑神经辐射场技术
Instruct-NeRF2NeRF3D场景编辑NeRFAI绘图计算机视觉Github开源项目
Instruct-NeRF2NeRF是一种神经辐射场编辑技术,通过文本指令实现3D场景修改。该项目基于Nerfstudio开发,融合NeRF和InstructPix2Pix技术,提供高质量的3D场景编辑功能。项目文档包含详细的安装说明、使用方法和训练建议,并提供多种配置选项以适应不同GPU内存限制。Instruct-NeRF2NeRF为3D内容创作领域带来了新的可能性。
Gaussian-SLAM - 革新性实时3D重建技术,融合高斯散射实现逼真效果
Gaussian-SLAMSLAM3D重建计算机视觉神经渲染Github开源项目
Gaussian-SLAM是一种创新的3D场景重建技术,将高斯散射与SLAM系统相结合。该技术能够准确映射环境,生成高质量纹理和细节,实现照片级真实的稠密重建效果。Gaussian-SLAM在Replica、TUM_RGBD、ScanNet等多个数据集上展示了优秀性能,为实时3D重建和增强现实应用开辟了新途径,是计算机视觉和机器人领域的重要进展。
KinD_plus - 创新低光照图像增强技术
KinD++低光照图像增强深度学习计算机视觉TensorFlowGithub开源项目
KinD++是一个开源的低光照图像增强项目,基于TensorFlow实现。其核心创新在于引入多尺度照明注意力模块(MSIA),有效减少了非均匀斑点和过度平滑等视觉缺陷。项目提供完整的训练测试代码,兼容TensorFlow 2.0,并附带预训练模型。KinD++在多个标准数据集上表现优异,为低光照图像增强研究提供了新思路。
night-enhancement - 将层分解与光效抑制结合的无监督夜间图像增强方法
夜间图像增强无监督学习图像处理计算机视觉ECCVGithub开源项目
这个项目提出了一种新型无监督夜间图像增强方法,结合层分解和光效抑制技术来提升夜间图像质量。该方法能有效去除不必要的光效,同时提高图像整体可见度。在多个低光照数据集上,这种方法展现出优异性能,为夜间图像处理领域开辟了新思路。项目公开了源代码、预训练模型和数据集,便于研究人员进行深入研究和应用。
tetra-nerf - 四面体表示法提升神经辐射场渲染效率
Tetra-NeRF神经辐射场四面体表示3D渲染计算机视觉Github开源项目
Tetra-NeRF是一种创新的神经辐射场表示方法,通过四面体结构提高渲染效率和质量。该方法将输入点云三角化为四面体集合,使用重心插值和浅层MLP进行体积渲染。在Blender、Tanks and Temples及Mip-NeRF 360等数据集上表现出色。项目提供完整实现代码、预训练模型和详细使用说明,便于研究人员复现和拓展。
NATTEN - 高效实现多维滑动窗口自注意力的开源库
NATTENNeighborhood Attention自注意力机制深度学习计算机视觉Github开源项目
NATTEN是一个开源库,专门用于快速实现Neighborhood Attention。该项目支持1D、2D和3D问题空间,提供naive、GEMM以及新型Fused Neighborhood Attention (FNA)等多种后端实现。FNA引入反向传播支持,显著提高了模型训练效率。NATTEN兼容PyTorch 2.0及更高版本,同时支持CPU和CUDA后端,并实现了因果掩码、可变参数和相对位置偏置等功能。
awesome-NeRF - 全面汇总神经辐射场研究进展和应用
NeRF神经辐射场视图合成3D重建计算机视觉Github开源项目
该项目汇集了神经辐射场(NeRF)领域的前沿论文、讲座和实现资源。内容涵盖加速推理和训练、压缩技术、非受限图像处理、可变形NeRF以及视频应用等多个研究方向。通过这份全面的资源列表,研究人员和开发者可以快速了解NeRF技术的最新进展和关键文献,为相关研究和应用提供参考。
x-unet - 集成高效注意力机制的先进U-Net框架
U-Net深度学习图像分割神经网络计算机视觉Github开源项目
x-unet是一个基于U-Net架构的开源项目,融合了高效注意力机制和最新研究成果。支持2D和3D图像处理,提供嵌套U-Net深度和上采样特征图合并等灵活配置。适用于生物医学图像分割和显著对象检测等任务,是一个功能强大的深度学习工具。
Awesome-CVPR2024-Low-Level-Vision - CVPR2024低层视觉任务论文与代码汇总
CVPR2024低层视觉图像处理计算机视觉深度学习Github开源项目
这个项目汇总了CVPR2024会议中与低层视觉任务相关的论文和代码,内容涵盖图像复原、超分辨率、去噪和去模糊等多个研究方向。项目提供了这些领域最新研究成果的概览,包括创新方法及其开源实现。通过持续更新,该资源库为计算机视觉领域的研究人员和开发者提供了及时、全面的学术参考。
VoxFormer - 基于稀疏体素变换器的相机驱动3D语义场景补全方法
VoxFormer3D语义场景补全计算机视觉CVPR语义分割Github开源项目
VoxFormer是一种基于Transformer的创新框架,仅通过2D图像即可生成完整的3D语义体素。它采用两阶段设计:先从深度估计生成可见占据体素查询,再通过密集化阶段生成完整3D体素。在SemanticKITTI数据集上,VoxFormer在几何和语义方面分别提升了20.0%和18.1%,同时将训练所需GPU内存减少约45%。这为相机驱动的3D语义场景补全任务提供了一个强有力的基线。
parti-pytorch - Google Parti模型的PyTorch实现 基于注意力的文本到图像生成
Parti文本到图像生成深度学习计算机视觉PytorchGithub开源项目
本项目是Google Parti模型的PyTorch实现,Parti是一种基于纯注意力机制的文本到图像生成神经网络。项目包含ViT VQGan VAE训练代码和视觉Transformer的优化,提高了训练效率。实现了简便的安装和使用流程,支持条件生成和分类器引导。这为研究人员和开发者提供了探索和改进文本到图像生成技术的平台。
awesome-image-translation - 综合图像到图像转换技术资源库
图像转换深度学习计算机视觉开源框架人工智能Github开源项目
awesome-image-translation是一个精选的图像到图像转换技术资源库。该项目按年份归类了从2018年前至2024年的研究论文和开源框架,如joliGEN等。这个持续更新的知识库为研究人员和开发者提供了全面的图像转换技术资源,并鼓励社区成员贡献新的内容,以保持资源的时效性和完整性。该资源库涵盖了图像到图像转换领域的广泛内容,包括学术论文、开源框架和其他相关资源。通过年份分类,用户可以方便地追踪技术发展历程。项目的开放性质鼓励社区参与,确保了资源的持续更新和多样性,为图像转换技术的研究和应用提供了宝贵的参考。
LaneGCN - 基于车道图表示的车辆运动预测方法
LaneGCN运动预测车道图表示自动驾驶计算机视觉Github开源项目
LaneGCN是一种基于车道图表示的车辆运动预测方法。该方法利用图卷积网络处理复杂道路拓扑,提高了预测准确性。LaneGCN在Argoverse运动预测竞赛中取得第一名,显示了其在自动驾驶领域的应用潜力。项目提供了开源代码和预训练模型,便于研究人员进行复现和深入研究。
FLAVR - 创新视频帧插值方法实现快速多帧预测
FLAVR视频插帧深度学习计算机视觉帧率提升Github开源项目
FLAVR是一种新型视频帧插值方法,无需光流估计即可实现快速多帧预测。该方法采用特殊的编码器-解码器架构,结合时空卷积和通道门控,能有效捕捉复杂运动轨迹并生成高质量高帧率视频。相比现有技术,FLAVR在速度和准确性间取得更好平衡,为视频慢动作和帧率提升等应用提供新选择。
HR-VITON - 高分辨率虚拟试衣技术的突破性进展
虚拟试衣HR-VITON图像生成深度学习计算机视觉Github开源项目
HR-VITON项目开发了创新的虚拟试衣条件生成器,解决了现有技术中的错位和遮挡问题。该方法通过统一模块实现服装变形和分割图生成的信息交换,避免了错位和像素挤压伪影。项目还采用判别器拒绝机制,过滤不正确的分割图预测。高分辨率数据集实验显示,HR-VITON在处理错位和遮挡方面性能显著提升,超越了现有基准方法。
perceiver-pytorch - Perceiver模型的PyTorch实现 迭代注意力处理多模态数据
Perceiver深度学习注意力机制神经网络计算机视觉Github开源项目
perceiver-pytorch项目实现了Perceiver和PerceiverIO模型。这些模型采用迭代注意力机制,能够处理图像、视频和文本等多种输入数据。项目提供灵活的配置选项,包括输入通道数、频率编码和注意力头数等。通过语言模型示例,展示了PerceiverIO架构的通用性。该实现适合处理复杂多模态输入的深度学习研究和应用。项目提供了简单易用的API,支持快速集成到现有PyTorch项目中。代码实现了原论文中的核心概念,如交叉注意力和自注意力机制。此外,项目还包含了实验性的自下而上注意力版本,为研究人员提供了更多探索空间。
MagicDrive - 多样化3D几何控制的街景生成框架
MagicDrive街景生成3D几何控制扩散模型计算机视觉Github开源项目
MagicDrive是一个创新街景生成框架,提供多样化的3D几何控制,包括相机姿态、道路地图和3D边界框。通过结合文本描述、定制编码策略和跨视图注意力模块,实现了多相机视角的一致性。该框架能生成高保真街景图像和视频,精确捕捉3D几何特征和场景细节,有助于提升BEV分割和3D物体检测等任务的性能。
Parts2Whole - 多参考框架实现可控人像生成
Parts2Whole人像生成参考框架深度学习计算机视觉Github开源项目
Parts2Whole提出新型框架,利用多个参考图像生成定制人像。该框架包含语义感知外观编码器和多图像条件生成的共享自注意力机制,能精确选择人体部位实现高度可控生成。项目开源全套代码、模型和数据集,为人像生成研究提供完整解决方案。
pytorch-inpainting-with-partial-conv - PyTorch实现基于部分卷积的不规则孔洞图像修复
pytorch图像修复部分卷积深度学习计算机视觉Github开源项目
这是Liu等人论文《Image Inpainting for Irregular Holes Using Partial Convolutions》的非官方PyTorch实现。项目提供了基于部分卷积的不规则孔洞图像修复方法,包含数据预处理、模型训练、微调和测试的完整流程。尽管尚未完全复现原论文结果,但已展示了部分测试集的修复效果。此实现为研究人员和开发者提供了探索这一图像修复技术的基础。
相关文章
人工智能顶级会议录用率分析:从数据看AI研究的发展趋势
2024年08月30日
SmartOpenCV: 增强Android端OpenCV图像预览功能的开源库
2024年08月30日
SmartOpenCV: Android端OpenCV增强库的革新之作
2024年08月30日
OpenCV:开源计算机视觉库的领军者
2024年08月30日
Supervision: 强大的计算机视觉工具库
2024年08月30日
CVAT:开源计算机视觉标注工具的领军者
2024年08月30日
FiftyOne: 构建高质量数据集和计算机视觉模型的开源工具
2024年08月30日
GluonCV: 先进的计算机视觉深度学习工具包
2024年08月30日
PyTorch-Grad-CAM:计算机视觉的高级AI可解释性工具
2024年08月29日