#多模态语言模型

AWS GenAI LLM Chatbot学习资料汇总 - 多模型多RAG聊天机器人解决方案

2 个月前

AWS CDK Amazon Bedrock Amazon SageMaker Large Language Models 多模态语言模型 Github 开源项目

2 个月前

AnyGPT: 统一多模态大语言模型的突破性进展

3 个月前

AnyGPT 多模态语言模型离散序列建模模态转换大语言模型 Github 开源项目

3 个月前

GILL: 利用多模态语言模型生成图像的突破性技术

3 个月前

GILL 多模态语言模型图像生成训练 CC3M Github 开源项目

3 个月前

AWS GenAI LLM Chatbot: 多模型多RAG驱动的聊天机器人解决方案

3 个月前

AWS CDK Amazon Bedrock Amazon SageMaker Large Language Models 多模态语言模型 Github 开源项目

3 个月前

相关项目

aws-genai-llm-chatbot

该解决方案提供现成代码，允许在AWS账户中实验多种大型语言模型和多模态语言模型。支持的模型包括Amazon Bedrock、Amazon SageMaker自托管模型以及通过API的第三方模型，如Anthropic、Cohere、AI21 Labs和OpenAI。项目包含详细文档、部署指南和集成资源，加速生成式AI解决方案的开发。

AliceMind

此项目涵盖了阿里巴巴机器智能实验室（MinD Lab）开发的多种预训练模型和优化技术。包括首个提升多模态大语言模型mPLUG-Owl2和多模态文档理解模型mPLUG-DocOwl。另有中文视频语言预训练数据集Youku-mPLUG和多模态语言模型mPLUG-Owl的新型训练范式。此外，还包含开放域对话系统ChatPLUG、跨文本、图像和视频的多模态基础模型mPLUG-2等，适用于语言理解、生成、表格理解和跨语言等应用场景。

JARVIS-1

JARVIS-1通过多模态输入和人类指令实现复杂任务的规划和执行，在开放世界的Minecraft中表现出强大的功能。该智能体结合预训练多模态语言模型与实际游戏经验，将视觉观察和文本指令转化为执行计划，并利用多模态记忆进行规划。JARVIS-1能完成超过200种任务，从砍树等短期任务到获取钻石镐等长期任务，均表现卓越。项目仅在Linux上运行，依赖多个相关项目如STEVE-1和Minedojo。

Macaw-LLM

Macaw-LLM项目通过整合图像、视频、音频和文本数据，创新了多模态语言建模。该项目基于CLIP、Whisper和LLaMA等先进模型，实现了高效的数据对齐和一步到位的指令微调，创建了丰富的多模态指令数据集，涵盖多种任务。项目强调简单快速的对齐策略，展示出强大的多模态处理能力，有效提升了跨模态数据的解析和理解。

gill

GILL模型可处理交互的图像和文本输入以生成文本、检索图像及生成新图像。本文详细介绍了GILL模型的代码、预训练权重、环境设置、预训检查点和视觉嵌入的安装步骤。此外，还包括推理、训练及评估的指南，及启动Gradio演示的操作步骤。更多详情请参阅相关研究论文及项目页面。

AnyGPT

AnyGPT是一款基于离散序列建模的多模态语言模型，能够统一处理语音、文本、图像和音乐等多种模态。该模型通过将不同模态数据转换为统一的离散表示，实现了模态间的转换和自由对话。AnyGPT包含基础模型和聊天模型两个版本，前者实现了四种模态的对齐，后者基于AnyInstruct数据集训练，支持灵活的多模态交互。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com