#计算机视觉

DCR - 扩散模型数据复制研究与优化方法分析
Diffusion模型数据复制生成式AI机器学习计算机视觉Github开源项目
DCR项目聚焦扩散模型中的数据复制问题,整合了两篇重要论文的研究成果和代码。项目内容包括数据复制现象分析、缓解策略提出、模型微调指南、推理方法、评估指标计算以及数据集资源。这些研究成果为提升扩散模型的生成质量和原创性提供了重要参考。
cam_lidar_calibration - 相机与激光雷达自动校准优化工具
相机激光雷达标定计算机视觉传感器融合棋盘格标定点云处理Github开源项目
这是一个开源的相机与激光雷达自动校准工具,通过优化样本选择简化校准流程。它克服了基于目标校准的局限性,可获得适合整个场景的参数估计及不确定性。工具提供硬件设置、配置、数据采集和结果评估的使用说明,支持ROS Melodic环境。
Awesome-Foundation-Models - 视觉语言基础模型精选资源库
基础模型多模态计算机视觉自然语言处理深度学习Github开源项目
Awesome-Foundation-Models项目提供视觉和语言基础模型的精选资源列表,涵盖最新研究论文、综述文章和开源代码。内容包括图像、视频和多模态等领域,助力研究者和开发者追踪前沿进展、了解研究动态和寻找实用实现。该资源库为人工智能领域提供全面而权威的参考。
blur-kernel-space-exploring - 基于编码模糊核空间的图像去模糊新方法
图像去模糊模糊内核空间深度学习数据增强计算机视觉Github开源项目
这个项目开发了一种新颖的图像去模糊技术,通过编码模糊核空间来处理各种模糊类型。该方法采用交替优化算法,可以处理未知的模糊情况,并且易于集成到深度学习模型中。这一技术不仅适用于图像去模糊,还可用于数据增强和模糊生成等相关任务。
BackgroundMattingV2 - 实时高分辨率背景抠图技术的创新突破
背景抠图实时处理高分辨率深度学习计算机视觉Github开源项目
该项目开发了实时高分辨率背景抠图技术,通过额外背景图像实现高质量抠图。研究展示了创新的神经网络架构,并提供新数据集。成果获CVPR 2021最佳学生论文荣誉提名,推动视频处理和图像编辑技术发展。
CVinW_Readings - 聚焦计算机视觉在野外(Computer Vision in the Wild)这一新兴研究领域
计算机视觉迁移学习预训练模型多模态图像分类Github开源项目
CVinW_Readings项目聚焦计算机视觉在野外(Computer Vision in the Wild)这一新兴研究领域。项目提供CVinW简介并维护相关论文集。CVinW致力于开发易于适应广泛视觉任务的可转移基础模型,特点是广泛的任务转移场景和低转移成本。内容涵盖任务级转移、高效模型适应和域外泛化等研究方向的最新进展。
dict-guided - 词典指导场景文字识别方法及VinText数据集
场景文字识别VinText数据集字典引导深度学习计算机视觉Github开源项目
dict-guided项目提出了一种词典指导的场景文字识别方法,旨在改进现有模型性能。项目同时发布了越南语场景文字识别数据集VinText。该方法结合传统和创新策略,提高了文字识别准确率。项目开源了代码、预训练模型,并提供了数据集构建、模型架构和实验结果等详细信息,便于研究人员进行深入研究。
X-Decoder - 像素、图像和语言的统一解码模型
X-Decoder图像分割计算机视觉多任务学习开放词汇分割Github开源项目
X-Decoder是一个通用解码模型,可生成像素级分割和标记级文本。该模型在多个数据集上实现了开放词汇分割和指代分割的最佳结果,在分割和视觉语言任务上表现出色。X-Decoder支持语义、实例和全景分割,以及图像描述、图像-文本检索等多种任务。此外,它还能进行区域检索、指代描述、图像编辑等零样本任务组合。
MotionBERT - 多任务人体运动表征学习框架
MotionBERT人体动作表示深度学习计算机视觉姿态估计Github开源项目
MotionBERT是一个多任务人体运动表征学习框架,整合了3D人体姿态估计、基于骨骼的动作识别和人体网格恢复等任务。该项目提供预训练模型和下游任务实现,支持自定义视频推理和生成以人为中心的视频表征。MotionBERT在多个基准测试中展现出优异性能,为人体运动分析研究提供了一个统一且高效的解决方案。
diffusion_policy - 扩散模型驱动的机器人控制算法实现复杂任务执行
Diffusion Policy机器人控制强化学习计算机视觉模拟环境Github开源项目
Diffusion Policy是一种基于扩散模型的机器人控制算法,旨在高效执行复杂任务。该项目提供实验日志、预训练检查点和完整代码库,支持模拟环境和真实机器人的训练与评估。其代码结构便于添加新任务和方法,同时保持灵活性。研究人员可复现实验结果,并将算法应用于多种机器人控制场景。
GLIGEN - 开放式条件引导的文本到图像生成模型
GLIGEN文本到图像生成人工智能计算机视觉深度学习Github开源项目
GLIGEN是一个创新的开放式条件引导文本到图像生成模型。它扩展了冻结文本到图像模型的功能,支持框、关键点和图像等多种引导条件。在COCO和LVIS数据集的零样本测试中,GLIGEN大幅超越了现有的有监督布局到图像生成基线。这项技术在开放世界场景下的应用前景广阔,同时也需关注其局限性和伦理影响。
ISBNet - 高效准确的3D点云实例分割网络实现先进场景理解
3D点云实例分割ISBNet深度学习计算机视觉Github开源项目
ISBNet是一种创新的3D点云实例分割网络,采用实例感知采样和框感知动态卷积技术。通过多任务学习方法和轴对齐边界框预测,ISBNet在ScanNetV2、S3DIS和STPLS3D等数据集上实现了领先的分割精度,同时保持快速推理速度。该方法有效解决了密集场景中相同语义类别物体的分割问题,为3D场景理解提供了新的解决方案。
corenet - 用于训练多任务深度神经网络的工具库
CoreNet神经网络深度学习模型训练计算机视觉Github开源项目
CoreNet是一款多功能深度神经网络工具库,支持训练各种规模的标准和创新模型。它适用于基础模型、计算机视觉和自然语言处理等多个领域。该项目提供可复现的训练方案、预训练模型权重和针对Apple Silicon优化的MLX示例,有助于推动AI研究和应用的发展。
mediapipe-rs - MediaPipe任务的Rust库 为WasmEdge WASI-NN提供支持
MediaPipe-rsWasmEdge计算机视觉机器学习音频处理Github开源项目
mediapipe-rs是一个为WasmEdge WASI-NN设计的Rust库,实现MediaPipe任务。该库提供简单易用的API,支持多种视觉、音频和文本处理任务,包括对象检测、图像分类和手势识别等。它具有低开销和灵活性,支持TfLite模型,可在CPU、GPU和TPU上运行。mediapipe-rs为开发者提供了在WebAssembly环境中高效执行机器学习任务的解决方案。
avatarify-python - 实时视频会议的逼真数字化身技术
Avatarify Python视频会议头像生成深度学习计算机视觉Github开源项目
Avatarify Python是一个开源项目,基于First Order Motion Model技术,为视频会议提供逼真的数字化身。该项目支持Linux、Windows和Google Colab等多个平台,并提供Docker支持。Avatarify能实现实时人脸动画,甚至可使用AI生成的虚拟人物作为化身。此外,项目还衍生出了更易于安装和使用的Avatarify Desktop版本,以及iOS和Android移动应用。
vision-agent - 开源AI代理库用于生成计算机视觉代码
Vision Agent计算机视觉AI代码生成OpenAI API图像处理Github开源项目
Vision Agent是一个开源库,通过AI代理框架快速生成计算机视觉任务代码。用户可以用文本描述问题,AI代理会生成相应的解决方案。该库包括对话型VisionAgent和代码生成型VisionAgentCoder两种代理,提供多种视觉工具,支持自定义工具添加,并可与Azure OpenAI集成。Vision Agent能将解决视觉问题的时间大幅缩短,提高开发效率。
MobileSAM - 高效轻量化图像分割模型,适用于移动设备
MobileSAM图像分割计算机视觉AI模型深度学习Github开源项目
MobileSAM是一种轻量级图像分割模型,专为移动应用优化。它保持了与原始SAM相当的性能,同时大幅减少了模型参数和推理时间。通过将ViT-H编码器替换为TinyViT,MobileSAM将参数量从615M降至9.66M,推理速度从456ms提升至12ms。该项目提供完整的训练和使用文档,支持ONNX导出,可轻松集成到现有SAM项目中。
Transformers-Tutorials - Transformers库深度学习模型教程集合
TransformersHuggingFace深度学习自然语言处理计算机视觉Github开源项目
这个项目汇集了基于HuggingFace Transformers库的多种深度学习模型教程,涵盖自然语言处理和计算机视觉等领域。内容包括BERT、DETR、LayoutLM等模型的微调和推理示例,展示了在图像分类、目标检测、文档分析等任务中的应用。所有代码采用PyTorch实现,并提供Colab notebooks方便实践。
3d-bat - 全面高效的3D全景数据标注工具箱
3D BAT标注工具计算机视觉自动驾驶多模态数据Github开源项目
3D-BAT是一个开源的3D边界框标注工具箱,专门用于全景多模态数据流的处理。该工具支持AI辅助标注、批量编辑和插值模式等功能,实现了3D到2D的标签转换和自动跟踪。作为基于Web的应用,3D-BAT支持在线访问和跨平台使用,并提供了高度的可定制性。这个工具箱为自动驾驶和计算机视觉等领域的研究提供了一个实用的数据标注解决方案。
MeshAnything - 自回归Transformer实现的3D网格生成技术
三维模型生成人工智能机器学习深度学习计算机视觉Github开源项目
MeshAnything是一种基于自回归Transformer的3D网格生成技术,可根据输入生成高质量3D模型。支持网格和点云输入,能生成最多800面的模型。提供命令行接口和Gradio演示,适用于3D重建、扫描等场景。项目采用Python实现,支持Ubuntu系统和CUDA 11.8。安装简便,可通过pip直接安装或从GitHub克隆。目前已发布350m版本,并推出支持1600面的V2版本。
SegmentAnything3D - Segment Anything技术在3D场景中的创新应用
Segment Anything 3D3D感知图像分割点云处理计算机视觉Github开源项目
SAM3D项目将Segment Anything技术扩展到3D感知领域,通过将2D图像分割信息转移到3D空间,为3D场景理解提供新思路。该项目结合SAM生成掩码、点云合并和区域合并等技术,实现2D到3D的有效转换。SAM3D不仅拓展了计算机视觉的应用范围,也为3D场景分析和理解开辟了新的研究方向。
LIVE-Layerwise-Image-Vectorization - 基于层次化方法的图像矢量化技术
LIVE图像矢量化SVG生成计算机视觉CVPRGithub开源项目
LIVE-Layerwise-Image-Vectorization是一个图像矢量化项目,采用逐层生成SVG的方法拟合栅格图像。该技术通过递归学习视觉概念,添加和优化闭合贝塞尔路径来重建输入图像。LIVE能以更少的路径实现精确的图像重建,展示了紧凑的层次化表示能力。这一方法在图像矢量化领域具有潜在应用价值,可能对图形设计和图像处理等领域产生影响。
nerf-factory - PyTorch实现的NeRF算法集合
NeRFPyTorch计算机视觉3D渲染神经辐射场Github开源项目
NeRF-Factory是一个包含7种流行NeRF模型PyTorch实现的开源库。该项目支持7个常用NeRF数据集,提供可视化工具,易于扩展和使用。研究人员可通过简单命令运行不同NeRF模型,进行训练和评估。这个由POSTECH、KAIST和Kakao Brain维护的项目为NeRF研究提供了实用的实验平台。
ER-NeRF - 区域感知神经辐射场技术实现高保真说话人物肖像合成
ER-NeRF神经辐射场人像合成深度学习计算机视觉Github开源项目
ER-NeRF项目开发了一种区域感知神经辐射场技术,用于生成高保真的说话人物肖像。这种方法通过区域化处理提升了渲染效率和质量,可以渲染头部和躯干。项目开源了预训练模型和使用指南,涵盖数据预处理、模型训练和推理等环节。ER-NeRF在说话人物肖像合成领域展现出优异性能,为相关研究提供了新的思路。
EasyAnimate - 基于Transformer的高分辨率长视频生成框架
EasyAnimate视频生成AI绘图深度学习计算机视觉Github开源项目
EasyAnimate是一个开源的高分辨率长视频生成框架。该项目基于Transformer架构,采用类Sora结构和DIT技术,使用Transformer作为视频生成的扩散器。EasyAnimate支持训练扩散模型生成器、处理长视频的VAE和元数据预处理。用户可直接使用预训练模型生成多种分辨率的6秒24帧视频,也可训练自定义基线模型和Lora模型实现特定风格转换。
parseq - 创新的场景文本识别统一模型
场景文本识别PARSeq深度学习计算机视觉ECCVGithub开源项目
PARSeq是一种创新的场景文本识别模型,采用置换自回归序列方法,实现了上下文无关和上下文感知推理及迭代预测细化。该模型统一了现有STR解码方法,无需独立语言模型,在多个基准数据集上展现出优异性能,同时保持较低计算成本。PARSeq支持灵活的字符集训练和多种评估配置,为OCR应用提供了高效而强大的解决方案。
DEADiff - DEADiff模型实现高效风格化图像生成
DEADiff图像风格化文本到图像生成扩散模型计算机视觉Github开源项目
DEADiff是一种风格化扩散模型,通过参考图像风格和文本提示生成新颖图像。该模型利用解耦表示技术,实现高效风格迁移和文本引导图像生成。DEADiff可将多种风格应用于不同场景,同时保持内容准确性。这项研究由中国科学技术大学和字节跳动的团队完成,并在CVPR 2024上发表。
detectron2 - Facebook开源的高性能目标检测和图像分割框架
Detectron2计算机视觉目标检测图像分割深度学习Github开源项目
Detectron2是Facebook AI Research开发的开源计算机视觉库,提供先进的目标检测和图像分割算法。它支持全景分割、Densepose和级联R-CNN等功能,可用于研究项目和生产应用。该库训练速度快,支持模型导出,并提供大量预训练模型。Detectron2为研究人员和开发者提供了强大而灵活的工具,推动计算机视觉技术的发展和应用。
segment-anything-video - MetaSeg 开源图像和视频分割框架
Segment AnythingMetaSeg图像分割计算机视觉深度学习Github开源项目
MetaSeg是Segment Anything模型的封装版本,提供自动和手动图像视频分割功能。该项目支持多种预训练模型,可与SAHI和FalAI等工具集成,实现物体分割。MetaSeg支持pip安装,提供丰富的API接口,适用于图像分析和处理任务。
segment-anything - 革命性AI模型实现高效图像分割
Segment Anything图像分割AI模型计算机视觉深度学习Github开源项目
Segment Anything是Meta AI Research开发的图像分割模型,能通过简单输入生成高质量物体遮罩。该模型经过大规模数据训练,具备强大的零样本分割能力。它提供多种版本,支持ONNX导出,并附有示例和文档,便于集成应用。
Panda-70M - 开创性大规模视频描述数据集融合多重跨模态技术
Panda-70M视频描述数据集计算机视觉深度学习Github开源项目
Panda-70M是一个包含7000万个高质量视频-描述对的大规模数据集,采用多重跨模态技术构建。项目提供数据集加载下载工具、长视频语义分割和视频描述模型。该数据集为计算机视觉和自然语言处理研究提供丰富资源,有助于推进视频理解和描述技术的发展。
HumanBench - 推动人体感知基础模型研究进展
HumanBench人体感知基础模型计算机视觉CVPRGithub开源项目
HumanBench项目致力于开发通用人体感知基础模型,包含PATH和UniHCP两个子项目,均发表于CVPR 2023。该项目采用投影辅助预训练技术,旨在提升模型性能,为计算机视觉领域提供新的研究方向。项目代码已开源,上海人工智能实验室正在招募相关研究人员和工程师,共同推进人体感知基础模型的研究。
OBBDetection - 多框架支持的开源目标检测工具箱 提供灵活表示方法
目标检测OBBDetection深度学习计算机视觉MMdetectionGithub开源项目
OBBDetection是基于MMdetection v2.2的开源目标检测工具箱。它支持多种检测框架,包括RoI Transformer和Gliding Vertex等。该工具箱提供灵活的检测框表示方法,涵盖水平边界框、定向边界框和4点框。OBBDetection实现了S2ANet、Oriented R-CNN等多种最新定向目标检测方法,同时也兼容多种水平检测算法。作为一个全面的目标检测工具,它继承了MMdetection的特性,适用于各种复杂场景的目标检测任务。
yolov9 - 高效准确的目标检测算法
YOLOv9目标检测深度学习计算机视觉神经网络Github开源项目
YOLOv9是一种新型目标检测算法,采用可编程梯度信息技术提高学习能力。该开源项目提供YOLOv9的官方实现,包含预训练模型、训练评估脚本和使用文档。在COCO数据集上,YOLOv9展现出优异的检测性能,同时保持较低的模型复杂度。研究人员和开发者可利用这一工具进行高效准确的目标检测任务。
DCNv4 - 为视觉应用设计的高效算子,通过优化空间聚合和内存访问
DCNv4可变形卷积计算机视觉深度学习神经网络Github开源项目
DCNv4是一种为视觉应用设计的高效算子。通过优化空间聚合和内存访问,它解决了DCNv3的局限性。DCNv4在图像分类、分割和生成等任务中表现优异,收敛和处理速度显著提升,前向速度提高3倍以上。其卓越的性能和效率使DCNv4成为未来视觉模型的潜力基础构建块。
fastai - 一个为从业者提供快速提供在标准深度学习领域中提供最先进的高级组件,并提供可以混合和匹配的低级组件构建新方法的深度学习库
fastaiPyTorch深度学习计算机视觉GPU优化Github开源项目
fastai是一个深度学习库,提供高层组件以快速实现高性能结果,同时为研究人员提供可组合的低层组件。通过分层架构和Python、PyTorch的灵活性,fastai在不牺牲易用性、灵活性和性能的情况下,实现了高效的深度学习。支持多种安装方式,包括Google Colab和conda,适用于Windows和Linux。学习资源丰富,包括书籍、免费课程和详细文档。