#计算机视觉
AGI-Papers - 人工智能前沿研究聚焦大语言模型和多模态系统
AGI大语言模型多模态自然语言处理计算机视觉Github开源项目
AGI-Papers收录人工智能领域最新研究成果,重点关注大语言模型、多模态系统等热门方向。项目提供论文摘要和分析,为AI研究者和开发者提供学习参考。通过持续更新前沿进展,AGI-Papers致力于推动人工智能技术发展和学术交流。
pytracking - 基于PyTorch的开源视觉目标跟踪和视频对象分割框架
视觉目标跟踪视频目标分割PyTorch深度学习计算机视觉Github开源项目
PyTracking是基于PyTorch的开源视觉目标跟踪和视频对象分割框架。它实现了多个先进的跟踪算法,如TaMOs、RTS和ToMP,并提供完整的训练代码和预训练模型。该框架包含用于实现和评估视觉跟踪器的库,涵盖常用数据集、性能分析脚本和通用构建模块。其LTR训练框架支持多种跟踪网络的训练,提供丰富的数据集和功能。
data-augmentation-review - 全面数据增强技术助力机器学习模型优化
数据增强计算机视觉机器学习GitHubPython库Github开源项目
该项目汇集了多领域数据增强资源,包括计算机视觉、自然语言处理、音频和时间序列分析。内容涵盖GitHub仓库、开源库、学术论文等,详细介绍了图像变换、文本生成、音频处理等增强技术。此外,还收录了自动增强和特定领域增强方法,为机器学习研究人员和实践者提供了全面的数据增强参考。
PedSurvey - 行人检测技术综述,从手工特征到深度学习的演进
行人检测深度学习计算机视觉目标检测多光谱检测Github开源项目
PedSurvey项目提供了一个全面的行人检测研究综述,涵盖单光谱和多光谱检测方法。该项目详细介绍了行人检测的流程、手工特征和深度学习方法、多光谱检测技术、数据集和挑战。项目还展示了不同算法在各种数据集上的性能,并发布了新的大规模数据集TJU-DHD-Pedestrian。这为研究人员提供了行人检测领域的最新进展和未来研究方向的参考。
hmr-survey - 单目图像3D人体网格模型重建技术综述
3D人体网格重建单目图像计算机视觉深度学习人体建模Github开源项目
本文综述了单目图像3D人体网格模型重建技术的最新进展。文章详细介绍了基于优化和基于回归两种主要方法,分析其优缺点,并总结相关数据集、评估指标和基准结果。同时讨论了该领域的开放问题和未来方向,为研究人员提供全面的技术概览。
Awesome-Avatars - 人类头像技术最新进展资源列表
人体头像3D建模神经渲染计算机视觉深度学习Github开源项目
该项目汇总了人类头像技术领域的最新进展,包括生成、重建、编辑等方面的重要论文和开源代码。涵盖头像生成、单人重建、视图合成、网格重建、文本生成头像、头像交互、动作生成等子领域。每项成果均提供论文链接、代码仓库和项目主页,便于研究人员快速了解和应用这些前沿技术。
DiffGesture - 音频驱动协同语音手势生成的扩散模型框架
AI动画语音驱动手势生成扩散模型跨模态学习计算机视觉Github开源项目
DiffGesture是一个基于扩散模型的框架,旨在生成与音频同步的协同语音手势。该框架通过扩散条件生成过程和音频-手势变换器捕捉跨模态关联,并使用手势稳定器和无分类器引导保持时间一致性。DiffGesture生成的手势具有良好的模式覆盖和音频相关性,在多个数据集上展现出优秀性能。
Awesome-Anything - 通用AI方法的精选资源库
Segment Anything人工智能计算机视觉图像分割目标检测Github开源项目
Awesome-Anything是一个精选的通用人工智能资源库,涵盖对象分割、图像生成、3D处理、模型优化和多任务学习等领域。该项目汇集了各种创新技术和工具,为AI研究和开发提供全面支持,助力人工智能技术的进步。
awesome-tiny-object-detection - 微小目标检测研究前沿技术与资源汇总
目标检测小目标检测计算机视觉深度学习人工智能Github开源项目
该项目汇集微小目标检测领域的前沿研究成果和资源。内容涵盖普通微小目标、微小人脸和微小行人检测等多个子领域,同时提供相关数据集、综述文章和挑战赛信息。项目为研究人员和从业者提供了解该领域最新进展的重要参考。
yolov8-streamlit-detection-tracking - YOLOv8和Streamlit打造的实时目标检测追踪应用
YOLOv8Streamlit实时目标检测对象追踪计算机视觉Github开源项目
该项目基于YOLOv8和Streamlit开发,提供实时目标检测和追踪功能的Web应用。支持RTSP、UDP、YouTube等多种视频源,以及静态视频和图像处理。用户可通过直观界面调整模型参数,查看可视化结果并下载。项目展示了计算机视觉与Web应用的集成,适合学习和演示目的。
best_AI_papers_2023 - 2023年人工智能领域重大突破性研究概览
AI深度学习计算机视觉生成模型diffusion模型Github开源项目
本项目整理了2023年人工智能领域的重大突破性研究,涵盖生成式AI、机器人技术等热点方向。汇总了语音合成、图像编辑、音乐生成、视频处理、多模态语言模型等前沿技术的代表性论文,并提供视频讲解、深度分析文章和代码实现(如有)。这份精选资料展示了AI技术的最新进展,为业内人士提供了宝贵的学习参考。
Awesome-Foundation-Models-in-Medical-Imaging - 医学影像基础模型研究文献资源汇总
医学影像基础模型人工智能深度学习计算机视觉Github开源项目
本项目汇总了医学影像领域基础模型相关的研究文献和资源。内容涵盖文本提示模型和视觉提示模型两大类,包括对比学习、对话式、生成式等多种模型。项目提供论文标题、作者、发表时间和链接等详细信息。这一资源集合为医学影像基础模型研究提供了全面的参考材料。
owlv2-base-patch16-finetuned - 介绍OWLv2模型在零样本物体检测中的应用与发展
CLIP零样本检测Huggingface计算机视觉Github开源项目模型OWLv2对象检测
OWLv2模型是用于零样本物体检测的一个创新模型,使用CLIP作为多模态基础,同时采用ViT型Transformer以提取视觉特征,并通过因果语言模型获取文本特征。此模型的最大特点是其开放词汇分类功能,通过将固定分类层权重替换为文本模型中的类别名称嵌入实现。在常见检测数据集上,CLIP从头训练并微调,以学习精确的对象检测方法。此工具为AI研究人员提供了在计算机视觉领域探索鲁棒性、泛化和其他能力的机会。
vip-llava-7b - ViP-LLaVA的多模态对话与视觉指令协同应用
聊天机器人ViP-LLaVA多模态模型自然语言处理计算机视觉HuggingfaceGithub开源项目模型
ViP-LLaVA-7B是一个开源的聊天机器人,通过对LLaMA/Vicuna的图像与区域级指令数据进行微调,采用transformer架构。其主要用于多模态模型及聊天机器人研究,适合计算机视觉、自然语言处理、机器学习与人工智能领域的研究者及爱好者。该模型于2023年11月完成训练,并在四项学术区域级基准测试中表现优异。
MOTSFusion - 将3D多目标跟踪与场景重建融合的创新算法
MOTSFusion目标跟踪3D重建计算机视觉KITTI数据集Github开源项目
MOTSFusion项目提出了一种创新的多目标跟踪算法,通过融合3D跟踪和场景重建技术来提高准确性。该算法利用立体图像、光流和视差信息,结合分割网络和检测器,实现对车辆和行人的精确跟踪。项目在KITTI MOTS数据集上展现了优异性能,并开源了完整代码。这种方法为自动驾驶等应用中的多目标跟踪提供了新的思路。
Awesome-3D-Object-Detection - 3D目标检测研究资源汇总 激光雷达方法全览
3D目标检测激光雷达计算机视觉深度学习自动驾驶Github开源项目
该项目汇总了3D目标检测领域的研究资源,聚焦基于激光雷达的方法。内容包括顶级会议信息、数据集、论文链接等,涵盖从基础到前沿的技术。项目为研究人员提供了解该领域进展的集中平台,是3D目标检测研究的重要参考。
top-cvpr-2024-papers - 2024年CVPR顶级计算机视觉论文集
CVPR 2024计算机视觉深度学习图像生成3D重建Github开源项目
项目精选2024年CVPR重要论文,聚焦3D重建、深度学习和文档分析等热点。收录内容包括论文摘要、源码链接和演示视频,方便研究者掌握计算机视觉前沿动态。作为开源项目,为学术研究和技术创新提供了有价值的参考资料。
Awesome-3D-AIGC - 3D生成AI前沿资源与研究综述
3D AIGC生成式AI深度学习3D建模计算机视觉Github开源项目
该项目汇集3D人工智能生成内容(AIGC)领域的最新论文和开源资源,涵盖文本到3D生成、图像到3D生成、3D编辑、人体头像生成等多个研究方向。项目提供开源实现、数据集和教程视频等实用资源,帮助研究者和开发者跟踪3D AIGC技术的最新进展,为相关创新和应用提供参考。
clip-vit-large-patch14 - OpenAI CLIP模型实现零样本图像分类和跨模态匹配
人工智能计算机视觉GithubHuggingface模型开源项目CLIP图像分类零样本学习
CLIP是OpenAI开发的视觉语言模型,结合ViT-L/14和Transformer架构。通过对比学习,CLIP能够实现零样本图像分类和跨模态匹配。虽然在多项计算机视觉任务中表现优异,但在细粒度分类等方面仍有局限。该模型主要供研究人员探索视觉模型的鲁棒性和泛化能力,不适用于商业部署。CLIP的数据来源广泛,但可能存在偏见,使用时需谨慎评估。
clip-vit-base-patch32 - OpenAI CLIP模型实现零样本图像分类的视觉语言预训练
零样本学习OpenAI图像分类CLIP开源项目计算机视觉GithubHuggingface模型
CLIP是OpenAI开发的视觉语言预训练模型,使用ViT-B/32和Transformer架构分别作为图像和文本编码器。通过对比学习训练,CLIP能实现零样本图像分类等任务,在多项计算机视觉基准测试中表现优异。尽管在细粒度分类和物体计数方面存在局限,CLIP为研究人员提供了探索模型鲁棒性和泛化能力的重要工具。
clip-vit-base-patch16 - OpenAI开发的CLIP模型实现零样本图像分类和跨模态理解
人工智能计算机视觉GithubHuggingface模型开源项目CLIP图像分类零样本学习
CLIP是OpenAI开发的视觉语言模型,结合ViT-B/16和masked self-attention Transformer架构。通过对比学习,实现零样本图像分类和跨模态理解。在多项计算机视觉基准测试中表现优异,但在细粒度分类和对象计数方面存在局限。该模型主要用于研究计算机视觉任务的鲁棒性和泛化能力,不适用于商业部署。
table-transformer-structure-recognition-v1.1-all - Table Transformer开源表格结构识别模型
模型计算机视觉GithubTable Transformer深度学习Huggingface开源项目文档分析表格识别
Table Transformer是一个开源的表格结构识别模型,基于DETR架构设计。该模型在PubTables1M和FinTabNet.c数据集上进行了预训练,采用'normalize before'设置优化了网络结构。Table Transformer能够准确检测文档中的表格,为表格结构分析提供了有力支持。项目提供了详细文档,便于研究人员和开发者进行深入研究和实际应用。
grounding-dino-tiny - Grounding DINO模型实现开放集目标检测的创新突破
模型目标检测零样本学习计算机视觉Github深度学习Grounding DINOHuggingface开源项目
Grounding DINO模型通过结合DINO与接地预训练技术,实现了开放集目标检测。该模型添加文本编码器,扩展了传统闭集检测模型的能力,可进行零样本目标检测。在COCO数据集上,Grounding DINO取得了52.5 AP的优秀成绩,为计算机视觉中未标记物体的识别提供了新的解决方案。
stable-diffusion-2-1-base - 基于稳定扩散技术的高质量文本到图像生成模型
人工智能绘图模型Github开源项目HuggingfaceStable Diffusion计算机视觉深度学习文本生成图像
stable-diffusion-2-1-base是Stability AI开发的文本到图像生成模型,基于潜在扩散技术。该模型在大规模图像数据集上训练,可根据文本提示生成512x512分辨率的高质量图像。相比之前版本,2.1版本在图像质量和文本理解能力上有所提升。模型适用于艺术创作、设计辅助等场景,可通过Hugging Face Diffusers库轻松使用。
edsr-base - 轻量级单图像超分辨率深度残差网络
模型DIV2KGithub图像超分辨率开源项目Huggingface计算机视觉深度学习EDSR
EDSR-base是一种轻量级单图像超分辨率深度学习模型,基于增强型深度残差网络架构。该模型在DIV2K数据集上预训练,支持2倍、3倍和4倍图像放大。与原始EDSR相比,EDSR-base采用16个残差块和64个通道,模型大小约5MB。在多个基准数据集上,其PSNR和SSIM指标均优于双三次插值。研究者可通过super-image库使用该模型进行图像放大实验。
vit-gpt2-image-captioning - ViT-GPT2结合的智能图像描述生成模型
模型计算机视觉Github图像描述深度学习transformers开源项目Huggingface自然语言处理
vit-gpt2-image-captioning是一个结合视觉Transformer和GPT-2的图像描述生成模型。该模型能准确识别图像内容并生成对应文本描述,支持多种图像输入方式,易于集成应用。项目提供简单使用示例和Transformers pipeline部署方法,为开发者提供了实用的开源图像描述解决方案。
clip-vit-large-patch14-336 - 大规模视觉语言预训练模型CLIP-ViT-Large
ViT计算机视觉Huggingface模型深度学习Github模型卡片开源项目CLIP
CLIP-ViT-Large-Patch14-336是一个基于Vision Transformer架构的视觉语言预训练模型。该模型采用ViT-Large结构,patch大小14x14,输入图像尺寸336x336。它能同时处理图像和文本信息,适用于图像分类、图文检索等多模态任务。虽然训练数据和具体性能未知,但该模型有潜力在视觉语言任务中取得良好表现。
git-base - 微软GIT-base模型 图像到文本的多功能视觉语言处理工具
模型图像到文本GIT计算机视觉Github微软Huggingface开源项目自然语言处理
GIT-base是微软开发的基于Transformer的图像到文本生成模型。该模型能够生成图像和视频的文本描述,支持视觉问答等多种应用。GIT-base采用CLIP图像tokens和文本tokens进行条件训练,基于1000万图文对数据集。作为一个灵活多功能的视觉语言处理工具,GIT-base为图像理解和跨模态任务提供了新的解决方案。
owlvit-base-patch32 - OWL-ViT:基于CLIP的开放词汇目标检测模型
模型目标检测Github零样本学习开源项目HuggingfaceCLIP计算机视觉OWL-ViT
OWL-ViT是一种基于CLIP的目标检测模型,专注于开放词汇和零样本检测任务。它结合了ViT结构的视觉编码器和因果语言模型的文本编码器,通过端到端训练实现了灵活的文本条件目标检测。该模型支持单一或多个文本查询,能够在未见过的类别上进行定位和分类,为计算机视觉领域的研究提供了新的工具和方向。
ViT-L-16-SigLIP-384 - 基于SigLIP的先进视觉语言模型实现零样本图像分类
SigLIP计算机视觉图像分类Huggingface深度学习模型Github开源项目自然语言处理
ViT-L-16-SigLIP-384是一个在WebLI数据集上训练的SigLIP模型,专门用于语言-图像预训练。这个模型支持对比式图像-文本学习和零样本图像分类,已从JAX格式转换为PyTorch,可兼容OpenCLIP和timm库。它在视觉-语言处理方面表现出色,能够应用于多种计算机视觉任务,如图像分类和跨模态检索。
segformer-b0-finetuned-ade-512-512 - SegFormer-b0模型实现高效语义分割
模型Github语义分割开源项目Huggingface图像处理SegFormer计算机视觉深度学习
SegFormer-b0是一个在ADE20k数据集上微调的语义分割模型,采用512x512分辨率。其特点是结合了层次化Transformer编码器和轻量级MLP解码头,在语义分割任务中表现优异。模型经过ImageNet-1k预训练后,添加解码头并在特定数据集上微调。研究者可直接应用于语义分割,或根据需求选择针对性微调的版本。
marigold-normals-lcm-v0-1 - 基于扩散技术的高效单图表面法线估计模型
模型GithubMarigold Normals开源项目Huggingface单图像处理表面法线估计计算机视觉LCM
Marigold Normals LCM是一种基于扩散模型的单图表面法线估计工具。该模型利用Stable Diffusion的视觉知识,能够理解场景并估计每个像素的表面法线。通过LCM技术加速推理,在保持输出质量的同时提高了处理效率。作为Marigold系列的组成部分,这个模型展示了扩散技术在计算机视觉领域的应用前景。
sam-vit-base - 基于ViT的高效零样本图像分割模型
模型Github图像分割开源项目HuggingfaceSAM计算机视觉深度学习人工智能
sam-vit-base是Segment Anything Model (SAM)的ViT Base版本,一个强大的图像分割模型。它可根据点或框等输入提示生成高质量对象掩码,适用于多种分割任务。该模型在庞大数据集上训练,具备出色的零样本性能。其架构包含视觉编码器、提示编码器和掩码解码器,支持提示式和自动化掩码生成,为计算机视觉研究提供了新的可能性。
vit-large-patch32-384 - 基于Transformer架构的大规模图像分类模型
模型Github开源项目Huggingface图像分类Vision TransformerImageNet计算机视觉深度学习
Vision Transformer (ViT) 是一个基于Transformer架构的大型视觉模型,在ImageNet-21k数据集上预训练,并在ImageNet 2012数据集上微调。模型采用图像分块和序列化处理方法,支持384x384分辨率的输入。ViT在多个图像分类基准测试中表现优异,可用于图像分类、特征提取等计算机视觉任务。该模型支持PyTorch框架,适合研究人员和开发者使用。
mask2former-swin-large-cityscapes-semantic - Mask2Former大型语义分割模型 适用多种图像分割任务
模型Github图像分割语义分割开源项目HuggingfaceMask2Former计算机视觉深度学习
Mask2Former是一款先进的语义分割模型,基于Swin骨干网络在Cityscapes数据集上训练。该模型采用统一的掩码预测方法,可同时处理实例、语义和全景分割任务。通过引入多尺度可变形注意力Transformer和带掩码注意力的Transformer解码器,Mask2Former在性能和效率上均超越了先前的最佳模型。它为研究人员和开发者提供了一个强大的工具,可用于各种图像分割应用。
Florence-2-large - 多任务视觉AI的统一解决方案
图像处理计算机视觉多任务学习Huggingface模型人工智能GithubFlorence-2开源项目
Florence-2是一个由微软开发的视觉基础模型,能够处理多种视觉和视觉-语言任务。该模型通过解释简单的文本提示,可以执行图像描述、目标检测和分割等任务。Florence-2基于FLD-5B数据集进行训练,在零样本和微调场景下均表现优异。模型提供不同规模的版本,支持多种视觉任务,为研究人员和开发者提供了一个versatile的视觉AI工具。
相关文章
人工智能顶级会议录用率分析:从数据看AI研究的发展趋势
2024年08月30日
SmartOpenCV: 增强Android端OpenCV图像预览功能的开源库
2024年08月30日
SmartOpenCV: Android端OpenCV增强库的革新之作
2024年08月30日
OpenCV:开源计算机视觉库的领军者
2024年08月30日
Supervision: 强大的计算机视觉工具库
2024年08月30日
CVAT:开源计算机视觉标注工具的领军者
2024年08月30日
FiftyOne: 构建高质量数据集和计算机视觉模型的开源工具
2024年08月30日
GluonCV: 先进的计算机视觉深度学习工具包
2024年08月30日
PyTorch-Grad-CAM:计算机视觉的高级AI可解释性工具
2024年08月29日