#多模态

SAT考试全解析：美国大学入学考试的权威指南

3 个月前

SAT 医学图像分割通用分割模型文本提示多模态 Github 开源项目

3 个月前

Video-ChatGPT: 开创视频对话新纪元的人工智能模型

3 个月前

Video-ChatGPT 视频理解大型视觉语言模型问答系统多模态 Github 开源项目

3 个月前

BakLLaVA: 多模态视觉语言模型的创新与突破

3 个月前

BakLLaVA 多模态语言模型视觉指令微调 AI训练 Github 开源项目

3 个月前

大型OCR模型的扩展法则研究及其在多模态大模型中的应用

3 个月前

OCR 大型模型多模态视觉问答缩放法则 Github 开源项目

3 个月前

AGI调查报告:人工通用智能的现状与未来

3 个月前

AGI 人工智能大语言模型多模态推理 Github 开源项目

3 个月前

MindOne: 革新性的人工智能开源项目

3 个月前

MindONE 多模态内容生成 Stable Diffusion MindSpore Github 开源项目

3 个月前

ConsistentID: 多模态细粒度身份保持的人像生成技术

3 个月前

ConsistentID 人像生成身份保持 AI绘图多模态 Github 开源项目

3 个月前

Apple ML-MGIE: 革命性的指令驱动图像编辑AI模型

3 个月前

图像编辑大型语言模型多模态指令引导 Github 开源项目 MGIE

3 个月前

基于大语言模型的视频理解技术研究进展

3 个月前

视频理解大语言模型多模态指令微调视频分析 Github 开源项目

3 个月前

Computer Vision in the Wild: 开启计算机视觉的新纪元

3 个月前

计算机视觉迁移学习预训练模型多模态图像分类 Github 开源项目

3 个月前

相关项目

pipecat

pipecat是一个灵活的框架，用于构建语音和多模态对话代理，适用于个人教练、会议助手、故事讲述玩具、客户支持机器人等应用。通过简单的安装和设置，代理进程可以在本地或云端运行，并支持多种第三方AI服务和传输方式。提供丰富的示例应用和代码片段，帮助开发者快速构建符合特定需求的对话系统。

智源研究院

探访智源研究院，了解悟道系列最新大模型技术，如悟道2.0与悟道3.0。致力于推进人工智能的领先技术和开源进程，网站提供丰富的研究成果、项目信息及最新动态，是研究者和开发者的理想交流平台。

GPTDiscord

GPT Discord是一款易用的Discord机器人，集成了OpenAI GPT-3技术，提供GPT聊天风格对话、图像生成功能、AI内容审查和自定义知识库等。它支持复杂的图像和代码理解、数据分析以及连接互联网的AI聊天，为Discord用户提供了一个功能丰富的交流平台。

transformers

探索🤗 Transformers——一个功能全面的机器学习库，覆盖文本、视觉与音频处理。该库提供数千种可对接JAX、PyTorch或TensorFlow的预训练模型，适用于多种语言处理与多模态任务。主要功能包括： - 文本分类 - 信息提取 - 问答系统 - 摘要生成 - 翻译 - 文本生成此外，还能处理表格问答、OCR及视觉问答等多模态任务。Transformers库易于使用，支持模型间的快速切换与无缝整合。

LLMGA

LLMGA基于多模态大语言模型，提供图像生成与编辑解决方案。结合Stable Diffusion和详细语言生成提示，项目提升了上下文理解并减少生成过程中的噪音，增强图像内容的精度。LLMGA支持文本到图像（T2I）、补画、扩画及指令编辑，适用于Logo设计、海报制作和故事绘本生成，支持中英文指令。广泛的模型和数据集选择满足不同需求，是理想的图像生成和编辑助手。

modelfusion

ModelFusion是一个针对JavaScript和TypeScript应用的开源TypeScript库，支持AI模型的无缝集成。具备多模态能力、类型推断、响应验证，并为生产环境优化提供了观察性钩子、日志机制和自动重试功能，适合开发AI应用、聊天机器人和智能代理。

CVPR2024-Papers-with-Code-Demo

CVPR2024-Papers-with-Code-Demo项目整合了CVPR会议的最新论文和开源代码，覆盖机器学习、计算机视觉等多个领域，提供丰富的论文资源和代码链接。适合学者和开发者深入探讨和应用最新科研成果。

llms_paper

llms_paper是一个高级学术资源库，专注于顶会论文的记录与整理，涵盖多模态、PEFT、小样本QA问答等多个领域。该项目深入探讨了LLMs在医疗、法律等多个行业中智能问答系统的应用，并展示了LLMs在多模态交互及数据解析方面的有效性。为算法工程师和研究人员提供最新的研究成果与实用技术笔记，是深入LLMs领域的理想资源。

AppAgent

AppAgent是一种基于LLM的多模态智能代理框架，模仿人类点击和滑动操作来运行智能手机应用。框架通过自主探索或观察人类演示学习新操作，生成知识库以执行复杂任务。无需系统后端访问，适用性广泛。提供详细配置步骤、评估基准和使用案例，支持GPT-4V和通义千问-VL等多种模型。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com