labelU

多模态数据标注平台支持图像视频音频处理

LabelU 数据标注人工智能多模态数据开源平台 Github 开源项目

LabelU是一个多模态数据标注平台，提供图像、视频和音频处理工具。支持2D边界框、语义分割、多边形和关键点等图像标注功能，以及视频分割、分类和信息提取。具备音频分析能力，支持AI辅助标注。适用于数据分析和模型训练，提高标注效率和准确性。

文档

uptrain - 开源平台评估优化LLM应用

GithubLLM应用UpTrain开源平台开源项目改进评估

UpTrain是一个专注于评估和优化大型语言模型(LLM)应用的开源平台。它提供全面的工具和功能,用于衡量LLM应用性能、识别问题并持续改进。该平台支持自动化评估、错误分析和性能跟踪,有助于提高LLM应用的质量和可靠性。UpTrain提供多种评估指标和定制选项,适用于各种LLM应用场景。

Lamd.ai - 智能学习平台提供AI视频解析和互动式知识交流

AI工具AI驱动学习API服务Chrome扩展智能摘要视频交互

Lamd.ai是一个创新的人工智能学习平台，主要提供视频内容智能分析和交互式对话功能。平台包含Talkbud浏览器插件、Web Talkbud和ChatNur等工具，帮助用户高效理解YouTube视频内容并进行智能交流。此外，Lamd.ai还为企业提供白标API服务，赋予其先进的AI能力。该平台旨在简化知识获取过程，为个人和企业用户提供多样化的AI解决方案，以提高学习效率和体验。

LipVideo - 智能视频配音与翻译平台

AI工具AI配音视频配音语言翻译语音选择音频编辑

LipVideo平台提供AI驱动的视频配音和翻译服务。用户可上传视频，选择语言，获得自动配音。平台支持自定义配音轨道和唇形同步选项，并提供脚本编辑功能。为保证翻译质量，系统设有翻译变化限制。LipVideo致力于提供高效、准确的视频本地化解决方案，适用于需要多语言视频内容的用户。

Video-LLaMA - 指令微调的音视频语言模型实现多模态视频理解

AI对话GithubVideo-LLaMA多模态开源项目视频理解语言模型

Video-LLaMA是一个多模态AI项目，为大型语言模型赋予视频和音频理解能力。该项目基于BLIP-2和MiniGPT-4构建，包含视觉-语言和音频-语言两个分支。经过大规模视频和图像数据预训练及指令微调后，Video-LLaMA能够进行视频分析、音频理解和多轮对话。该模型支持英文和中文交互，为视频内容分析提供了新的AI解决方案。

x-unet - 集成高效注意力机制的先进U-Net框架

GithubU-Net图像分割开源项目深度学习神经网络计算机视觉

x-unet是一个基于U-Net架构的开源项目，融合了高效注意力机制和最新研究成果。支持2D和3D图像处理，提供嵌套U-Net深度和上采样特征图合并等灵活配置。适用于生物医学图像分割和显著对象检测等任务，是一个功能强大的深度学习工具。

LLMGA - 用于精确图像生成和编辑的多模态大语言模型

ECCV2024GithubLLMGA图像生成多模态大模型开源项目

LLMGA基于多模态大语言模型，提供图像生成与编辑解决方案。结合Stable Diffusion和详细语言生成提示，项目提升了上下文理解并减少生成过程中的噪音，增强图像内容的精度。LLMGA支持文本到图像（T2I）、补画、扩画及指令编辑，适用于Logo设计、海报制作和故事绘本生成，支持中英文指令。广泛的模型和数据集选择满足不同需求，是理想的图像生成和编辑助手。

api4ai - 专业的云原生AI图像处理API平台

AI工具AI解决方案APICloud-native机器学习计算机视觉

api4ai是一个专业的云原生AI图像处理API平台，提供背景移除、OCR、内容审核、图像标签、人脸识别等多种功能。通过简单的HTTP API调用，企业、初创公司和开发者可轻松集成计算机视觉和机器学习能力，快速实现产品功能并提升业务效率。该平台还可根据特定需求定制解决方案，为各行各业提供经济实惠的个性化AI服务。

SLAM-LLM - 专注语音语言音频音乐处理的多模态大模型训练工具

GithubSLAM-LLM多模态大语言模型开源项目语音处理音乐处理音频处理

SLAM-LLM是一款开源深度学习工具包，为多模态大语言模型(MLLM)训练而设计。它专注于语音、语言、音频和音乐处理，提供详细训练方案和高性能推理检查点。支持自动语音识别、文本转语音等多种任务，具备易扩展性、混合精度训练和多GPU训练等特点，适合研究人员和开发者使用。

TagUI - 多语言支持的开源RPA工具，兼容多个平台和应用

GithubRPATagUI开源软件开源项目脚本自动化

TagUI是一款开源的RPA工具，支持Windows、macOS和Linux操作系统。用户可以用TagUI语言编写自动化流程，支持22种语言和多种应用场景，包括网页、桌面应用和命令行。TagUI功能丰富，从Excel数据处理到Telegram通知都能实现自动化，还支持通过MS Office插件和常用文本编辑器创建和编辑RPA机器人。虽然TagUI官方维护即将停止，用户仍可通过Python RPA包继续使用其工作流。

Chat-UniVi - 统一视觉表示赋能大语言模型理解图像和视频

Chat-UniViGithub图像视频统一多模态大语言模型开源项目视觉理解

Chat-UniVi是一个多模态AI模型，采用统一的视觉表示方法实现图像和视频的同步理解。该模型运用动态视觉令牌技术，有效捕捉图像空间细节和视频时序关系。经过联合训练，Chat-UniVi在图像和视频理解任务中表现优异，性能超过专门设计的单一模态模型。模型支持多轮对话，能处理包含多个图像或视频的复杂场景，为视觉AI研究提供新思路。

相关项目

推荐项目

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

稿定AI

稿定设计是一个多功能的在线设计和创意平台，提供广泛的设计工具和资源，以满足不同用户的需求。从专业的图形设计师到普通用户，无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑，稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合，帮助用户轻松实现创意设计。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com