labelU

多模态数据标注平台支持图像视频音频处理

LabelU 数据标注人工智能多模态数据开源平台 Github 开源项目

LabelU是一个多模态数据标注平台，提供图像、视频和音频处理工具。支持2D边界框、语义分割、多边形和关键点等图像标注功能，以及视频分割、分类和信息提取。具备音频分析能力，支持AI辅助标注。适用于数据分析和模型训练，提高标注效率和准确性。

文档

deepdataspace - 开源计算机视觉数据集工具提供可视化标注和分析功能

DeepDataSpaceGithub开源数据集工具开源项目数据可视化数据标注模型分析

DeepDataSpace是一个开源计算机视觉数据集工具，提供交互式数据可视化、探索和智能标注功能。支持多平台和协作工作流，易于安装使用。通过直观界面帮助用户高效管理和分析大规模图像数据集，适用于CV项目开发和研究。

cvat - 交互式视频和图像标注工具，支持数据驱动的AI开发

AI自动标注CVATDockerGithub开源项目数据标注工具计算机视觉

CVAT是一个计算机视觉的交互式视频和图像标注工具，被全球数万用户和企业广泛使用。提供免费在线版和自托管解决方案，支持Roboflow和HuggingFace集成。支持多种标注格式，并通过自动标注功能加速标注过程。企业用户可享受高级功能和专业支持服务。

ULIP - 多模态预训练框架实现3D数据理解

3D理解GithubULIP多模态预训练开源项目点云分类零样本分类

ULIP是一种多模态预训练框架，集成了语言、图像和点云数据以增强3D理解能力。该框架适用于多种3D骨干网络，如Pointnet2和PointBERT等，无需增加处理延迟。ULIP-2在此基础上进行了扩展，提高了预训练的可扩展性。项目开源了预训练模型、数据集和使用指南，为3D数据分析奠定了基础。

label-studio-converter - 多格式标注数据转换工具 Label Studio Converter

GithubLabel Studio开源项目数据导入数据标注机器学习格式转换

Label Studio Converter是一款开源的标注数据转换工具,可将Label Studio的标注结果转换为JSON、CSV、CoNLL 2003、COCO、Pascal VOC XML等多种机器学习格式。此外,它还支持将YOLO格式的预标注数据导入Label Studio。通过命令行和Python API接口,Label Studio Converter简化了数据格式转换流程,有效连接了数据标注和模型训练环节。

joytag - 多标签AI图像标记模型支持5000+标签

AI视觉模型GithubJoyTagViT架构图像标签多标签分类开源项目

JoyTag是基于ViT-B/16架构的AI视觉模型，专用于图像多标签分类。采用Danbooru标记体系，支持5000多个标签，适用于手绘和摄影等多种图像类型。模型在0.4阈值下F1分数达0.578，能为每张图像生成独立标签预测。可用于diffusion模型训练等多种应用场景。

PhotoTag.ai - 智能图像识别与自动标签生成平台

AIAI工具图像识别工作效率照片标记自动标签

PhotoTag.ai是一款基于AI的图像识别工具，为照片和视频自动生成关键词、标题和描述。支持15种以上语言，适用于股票摄影、电商、社媒、博客和营销等多个领域。该平台通过智能标记技术，有效提高内容管理效率，减少手动操作时间。

unified-io-2 - 跨模态人工智能的开源新标杆

GithubUnified-IO 2人工智能多模态模型开源项目机器学习深度学习

Unified-IO 2是一个开源的多模态AI框架，集成视觉、语言、音频和动作处理能力。项目提供完整代码支持演示、训练和推理，适用于TPU和GPU环境。基于T5X优化，内含多规格预训练模型和丰富数据集。其跨模态学习和生成能力为AI研究与应用提供了新的可能性。项目采用模块化设计，便于研究人员和开发者进行二次开发和定制。Unified-IO 2支持多种数据格式和预处理流程，为不同任务场景提供灵活解决方案。其开源性质促进了AI社区的协作与创新，为多模态AI技术的进步做出贡献。

LLaMA-VID - 支持长视频处理的多模态大语言模型

GithubLLaMA-VID多模态大语言模型开源项目视觉语言模型视频理解

LLaMA-VID是一个新型多模态大语言模型,可处理长达数小时的视频。它通过增加上下文令牌扩展了现有框架的能力,采用编码器-解码器结构和定制令牌生成策略,实现对图像和视频的高效理解。该项目开源了完整的模型、数据集和代码,为视觉语言模型研究提供了有力工具。

Parea AI - 专业AI应用开发测试与评估解决方案

AI工具AI评估LLM测试Parea AI人工智能实验跟踪

Parea AI为AI团队提供实验和人工标注平台,集成实验跟踪、可观察性和人工标注功能。平台支持评估、审核、提示词管理、可观察性和数据集管理,助力LLM应用高效部署。简洁的SDK设计可与主流LLM服务和框架轻松对接,全面提升AI应用开发效率。

make-sense - 免费跨平台图片标注工具，简化深度学习数据集准备，支持多种格式导出

GithubTensorFlow.jsmakesense.ai开源项目深度学习照片标注计算机视觉

makesense.ai是一个免费且跨平台的在线图片标注工具，无需复杂安装，特别适合小型计算机视觉深度学习项目。支持多种标签格式导出，如CSV、YOLO、VOC XML等，并集成先进的AI模型如YOLOv5、SSD等，以自动化标注过程。项目基于TypeScript和React/Redux构建，提供详细的文档及本地和Docker部署指引。

相关项目

推荐项目

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com