Objectron

3D对象姿态标注短视频数据集

Objectron 3D物体检测视频数据集人工智能 MediaPipe Github 开源项目

Objectron数据集包含短视频片段，每个片段提供详细的3D对象姿态标注信息。数据集包括15,000个标注视频和4百万个标注图像，涵盖自行车、书籍、瓶子、相机、谷物盒子、椅子、杯子、笔记本电脑和鞋子等类别。数据集支持TensorFlow和PyTorch等深度学习框架，并提供用于3D物体检测的解决方案。数据采集自全球10个国家，确保了地理多样性。

访问官网

Github

介绍知识库相关项目

easyportrait - 人像分割和面部解析大规模数据集

EasyPortraitGithub人像分割人工智能开源项目数据集面部解析

EasyPortrait是一个包含40,000张高质量标注RGB图像的数据集，用于人像分割和面部解析研究。数据集提供9个类别的标注，涵盖背景、人物、皮肤、眉毛、眼睛等。它可应用于视频会议背景移除、面部美化等多个场景。数据集基于用户ID划分训练、验证和测试集，并提供多个基线模型的预训练权重，为计算机视觉研究提供了有价值的资源。

VideoPipe - 跨平台的视频分析和结构化解决方案

GithubVideoPipe开源项目深度学习行为分析视频分析视频结构化

VideoPipe 是一个用 C++ 编写的开源视频分析和结构化框架，依赖少且易于上手。适用于视频结构化、图片搜索、人脸识别、交通和安防领域的行为分析。支持多种视频流协议和解码方式，集成深度学习和传统图像算法，具备目标检测、图像分类、特征提取等功能。插件化设计允许根据需求灵活组合，适用于多种平台，性能优良，广泛适用于各类应用场景。

hagrid - 大规模手势识别图像数据集助力人机交互系统开发

GithubHaGRID图像数据集开源项目手势识别机器学习计算机视觉

HaGRID是一个包含554,800张全高清RGB图像的手势识别数据集，涵盖18种手势类别。数据集由37,583名受试者在多种光照条件下采集，适用于图像分类和目标检测任务。HaGRID可用于开发视频会议、家庭自动化和汽车领域的手势识别系统，推动人机交互技术进步。

openscene - 零样本3D场景理解和任务执行工具

3D场景理解CVPR 2023GithubOpenScene开源项目语义分割零样本

OpenScene是一个实时交互的3D场景理解工具，支持使用开放词汇进行查询。用户可输入任意短语，系统会自动高亮相应区域。支持多种数据集和预处理选项，可执行零样本3D语义分割、稀有物体搜索和基于图像的3D物体检测。其特点包括无需GPU运行、支持多视角特征融合和模型蒸馏。所有代码和数据集均可在GitHub获取，适用于广泛的研究和开发应用。

Open3D - 支持快速开发的3D数据处理开源库

3D数据处理C++ APIGPU加速GithubOpen3DPython API开源项目

支持快速开发3D数据处理应用的开源库，提供C++和Python接口。核心功能包括3D数据结构、3D数据处理算法、场景重建、表面对齐、3D可视化、基于物理的渲染（PBR）、3D机器学习支持（与PyTorch和TensorFlow兼容）、核心3D操作的GPU加速。适用于Ubuntu、macOS和Windows平台，支持源码编译和pip安装。

multi-object-tracker - 利用Python实现多对象跟踪，兼容多种检测器

CentroidTrackerGithubOpenCVTF-MobileNetSSDYOLOv3multi-object tracker开源项目

该项目提供多种基于Python的多对象跟踪算法，包括CentroidTracker、IOUTracker、CentroidKF_Tracker和SORT，支持TF_SSDMobileNetV2、Caffe_SSDMobileNet和YOLOv3等OpenCV对象检测器。安装简便，使用友好，支持GPU加速，适用于视频数据解析和对象追踪。参考项目示例可快速上手，实现精准多对象跟踪。

RGBD-semantic-segmentation - RGB-D语义分割技术发展综述及性能评估

GithubRGBD语义分割开源项目性能对比数据集深度学习评估指标

本项目汇总了RGB-D语义分割领域的最新研究成果,提供详尽的论文列表和性能对比。涵盖NYUDv2等主流数据集的基准结果,包括像素精度、平均精度、mIoU等关键指标。通过定期更新反映该领域最新进展,为计算机视觉研究人员提供全面的参考资源。项目内容还包括数据集介绍、评估指标说明和详细的性能对比表格,全面呈现RGB-D语义分割技术的发展脉络。对于想深入了解该领域的研究人员和工程师而言,这是一个高价值的信息聚合平台。

3d-bat - 全面高效的3D全景数据标注工具箱

3D BATGithub多模态数据开源项目标注工具自动驾驶计算机视觉

3D-BAT是一个开源的3D边界框标注工具箱，专门用于全景多模态数据流的处理。该工具支持AI辅助标注、批量编辑和插值模式等功能，实现了3D到2D的标签转换和自动跟踪。作为基于Web的应用，3D-BAT支持在线访问和跨平台使用，并提供了高度的可定制性。这个工具箱为自动驾驶和计算机视觉等领域的研究提供了一个实用的数据标注解决方案。

goliath - 全身虚拟化身捕捉与重建开源项目

3D建模Codec Avatar StudioGithubGoliath开源项目深度学习计算机视觉

Goliath是一个开源项目,提供全身虚拟化身捕捉和重建技术。项目包含多种捕捉数据集,涵盖可重光照头部和手部、全身和轻装、移动设备等场景。同时提供训练代码,用于生成可重光照的高斯编解码头像、手部模型和基于网格的身体模型。该技术适用于虚拟现实、增强现实和数字人等领域。项目还提供相关的代码实现,包括损失函数、独立模型、可重用模块和工具等。数据集包含相机视图、分割信息、3D关键点、配准和未配准网格,以及光照信息。开发者可通过示例数据和检查点了解数据格式,并使用提供的训练和可视化脚本进行实验。

Binoculars - 无需训练的AI文本检测工具

AI生成文本检测BinocularsGithub开源项目语言模型零样本领域无关

Binoculars是一款无需训练数据的AI文本检测工具，利用语言模型预训练数据集重叠原理识别生成内容。提供Python接口和在线演示，支持零样本检测，目前主要适用于英语文本。该项目为AI文本识别领域引入了新的解决思路。Binoculars适用于学术界、新闻媒体、内容平台等需要识别AI生成文本的场景，有助于维护信息真实性和原创性。

相关项目

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计是一个多功能的在线设计和创意平台，提供广泛的设计工具和资源，以满足不同用户的需求。从专业的图形设计师到普通用户，无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑，稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合，帮助用户轻松实现创意设计。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号