#多模态

Storyteller: 一个多模态AI故事讲述者的诞生与发展

3 个月前

StoryTeller 人工智能多模态故事生成自然语言处理 Github 开源项目

3 个月前

大型语言模型(LLMs)研究进展综述

3 个月前

LLMs 多模态 NLP 推荐系统搜索引擎 Github 开源项目

3 个月前

ModelFusion: 构建AI应用的TypeScript库

3 个月前

ModelFusion AI应用 TypeScript库文本生成多模态 Github 开源项目

3 个月前

CVPR 2024论文与代码汇总:计算机视觉领域最新研究进展

3 个月前

CVPR 2024 论文 Diffusion Model 知识蒸馏多模态 Github 开源项目

3 个月前

LISA: 基于大语言模型的推理分割助手

3 个月前

LISA 分割掩码大语言模型推理分割多模态 Github 开源项目

3 个月前

🤗 Transformers: 引领自然语言处理的革命性工具

3 个月前

Hugging Face 人工智能自然语言处理机器学习多模态 Github 开源项目

3 个月前

AppAgent: 智能手机应用的多模态AI助手

3 个月前

AppAgent 多模态智能手机应用 GPT-4V 探索学习 Github 开源项目

3 个月前

Pipecat: 开源语音和多模态对话AI框架

3 个月前

Pipecat AI 语音助手多模态聊天机器人 Github 开源项目

3 个月前

Gemini Ultra：首个超越人类专家表现的模型，超越GPT4！附带体验链接！

2024年08月03日

Gemini 谷歌多模态 MMLU GPT-4V 热门

2024年08月03日

相关项目

pipecat

pipecat是一个灵活的框架，用于构建语音和多模态对话代理，适用于个人教练、会议助手、故事讲述玩具、客户支持机器人等应用。通过简单的安装和设置，代理进程可以在本地或云端运行，并支持多种第三方AI服务和传输方式。提供丰富的示例应用和代码片段，帮助开发者快速构建符合特定需求的对话系统。

智源研究院

探访智源研究院，了解悟道系列最新大模型技术，如悟道2.0与悟道3.0。致力于推进人工智能的领先技术和开源进程，网站提供丰富的研究成果、项目信息及最新动态，是研究者和开发者的理想交流平台。

GPTDiscord

GPT Discord是一款易用的Discord机器人，集成了OpenAI GPT-3技术，提供GPT聊天风格对话、图像生成功能、AI内容审查和自定义知识库等。它支持复杂的图像和代码理解、数据分析以及连接互联网的AI聊天，为Discord用户提供了一个功能丰富的交流平台。

transformers

探索🤗 Transformers——一个功能全面的机器学习库，覆盖文本、视觉与音频处理。该库提供数千种可对接JAX、PyTorch或TensorFlow的预训练模型，适用于多种语言处理与多模态任务。主要功能包括： - 文本分类 - 信息提取 - 问答系统 - 摘要生成 - 翻译 - 文本生成此外，还能处理表格问答、OCR及视觉问答等多模态任务。Transformers库易于使用，支持模型间的快速切换与无缝整合。

LLMGA

LLMGA基于多模态大语言模型，提供图像生成与编辑解决方案。结合Stable Diffusion和详细语言生成提示，项目提升了上下文理解并减少生成过程中的噪音，增强图像内容的精度。LLMGA支持文本到图像（T2I）、补画、扩画及指令编辑，适用于Logo设计、海报制作和故事绘本生成，支持中英文指令。广泛的模型和数据集选择满足不同需求，是理想的图像生成和编辑助手。

modelfusion

ModelFusion是一个针对JavaScript和TypeScript应用的开源TypeScript库，支持AI模型的无缝集成。具备多模态能力、类型推断、响应验证，并为生产环境优化提供了观察性钩子、日志机制和自动重试功能，适合开发AI应用、聊天机器人和智能代理。

CVPR2024-Papers-with-Code-Demo

CVPR2024-Papers-with-Code-Demo项目整合了CVPR会议的最新论文和开源代码，覆盖机器学习、计算机视觉等多个领域，提供丰富的论文资源和代码链接。适合学者和开发者深入探讨和应用最新科研成果。

llms_paper

llms_paper是一个高级学术资源库，专注于顶会论文的记录与整理，涵盖多模态、PEFT、小样本QA问答等多个领域。该项目深入探讨了LLMs在医疗、法律等多个行业中智能问答系统的应用，并展示了LLMs在多模态交互及数据解析方面的有效性。为算法工程师和研究人员提供最新的研究成果与实用技术笔记，是深入LLMs领域的理想资源。

AppAgent

AppAgent是一种基于LLM的多模态智能代理框架，模仿人类点击和滑动操作来运行智能手机应用。框架通过自主探索或观察人类演示学习新操作，生成知识库以执行复杂任务。无需系统后端访问，适用性广泛。提供详细配置步骤、评估基准和使用案例，支持GPT-4V和通义千问-VL等多种模型。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com