Instruct2Act

利用大语言模型实现多模态指令向机器人操作的映射

Instruct2Act 多模态指令机器人操控大型语言模型零样本方法 Github 开源项目

Instruct2Act是一种创新框架，通过大语言模型将多模态指令转化为机器人操作。该框架生成Python程序，有效结合感知、规划和动作环节，将复杂指令转化为精准策略代码。在不同场景尤其是桌面操作领域，框架的零样本方法表现优异，超越了许多现有的学习策略。

ml-engineering - 大规模语言模型与多模态模型的训练方法

BLOOM-176BContextual.AIGithubHuggingFaceLarge Language ModelsVLM开源项目

本指南系统介绍了方法、工具和逐步操作说明，帮助工程师成功训练大规模语言模型（LLM）和多模态模型（VLM）。内容涵盖丰富的脚本和命令，适合LLM/VLM训练工程师和操作员使用。基于作者在开源BLOOM-176B和IDEFICS-80B模型训练中的经验，提供有效解决方案，并持续更新，服务于ML社区。

InternVL - 开源多模态模型包提供商业级性能

GPT-4oGithubInternVLSOTA性能多模态模型开源开源项目

InternVL项目，作为一个领先的开源多模态模型套件，提供可媲美商业模型GPT-4o的性能。该项目开放源代码，支持多语种和高效OCR功能，在多个benchmark中展现出顶尖性能。该平台包括多种模型，如InternVL2-Pro和Mini-InternVL系列，适用于从聊天机器人至复杂多模态文档理解的应用场景。完备的文档资料和快速启动指南为社区成员提供便捷的使用和优化体验。

ml-mgie - 基于多模态大语言模型的智能图像编辑技术

GithubMGIE图像编辑多模态大型语言模型开源项目指令引导

MGIE项目通过多模态大语言模型增强指令式图像编辑能力。该技术生成详细指令并提供明确指导，使编辑模型能更准确理解和执行编辑意图。结合端到端训练的视觉想象和图像操作，MGIE为图像编辑提供更灵活精确的控制方法。

MG-LLaVA - 融合多粒度视觉特征的大语言模型

GithubMG-LLaVA多模态大语言模型多粒度视觉指令调优开源项目性能提升视觉处理

MG-LLaVA是一种创新的多模态大语言模型，通过整合低分辨率、高分辨率和物体中心特征，显著提升了视觉处理能力。模型引入高分辨率视觉编码器捕捉细节，并利用Conv-Gate网络融合视觉特征。同时集成离线检测器的物体级特征，增强了物体识别能力。仅基于公开多模态数据进行指令微调，MG-LLaVA在多项基准测试中展现出优异的感知表现。

Multi-Agents-Debate - 多智能体辩论框架激发大语言模型发散思维能力

AI辩论GithubMulti-Agent Debate大语言模型开源项目认知行为语言模型

该项目提出创新的多智能体辩论框架，激发大语言模型发散思维能力。通过模拟辩论过程，有效克服自我反思中可能出现的思维退化问题。实验显示，此方法在反直觉问答和常识机器翻译等任务中带来显著持续改进。项目探索大语言模型间交互和辩论能力，为人工智能领域开辟新研究方向。

agentchain - 使用大型语言模型（LLM）来规划和编排多个代理，或使用大型模型（LM）来完成复杂的任务。

AgentChainGithub交互代理任务编排多模态大型语言模型开源项目

AgentChain采用先进的的大型语言模型，提供基于自然语言输入的规划与决策能力，支持文本、图像、音频和表格数据等多模态输入输出。其智能系统能够协调多个agent执行复杂任务，适用于计算机视觉、语音识别等数据处理工作，并可定制以满足各类项目需求，从自动化生成旅游图片到金融分析报告。此外，AgentChain还能通过Twilio等平台实现邮件发送和电话通知等通信任务。

LLaVA-NeXT - 大规模开源多模态模型提升视觉语言能力

AI助手GithubLLaVA-NeXT多模态模型大语言模型开源项目视觉语言模型

LLaVA-NeXT是一个开源的大规模多模态模型项目，致力于提升视觉语言交互能力。该项目支持多图像、视频和3D任务的统一处理，在多个基准测试中表现卓越。LLaVA-NeXT提供了多个模型变体，包括支持高分辨率输入和视频处理的版本，以及基于不同大语言模型的实现。此外，项目还开源了训练数据和代码，为研究人员和开发者提供了宝贵资源。

ToolBench - 大规模工具使用指令数据集与开源语言模型

AI工具APIGithubToolBench大规模语言模型工具使用能力开源项目

ToolBench项目构建了大规模的指令微调数据集，旨在提升语言模型的工具使用能力。该项目收集了16464个真实API，覆盖单工具和多工具场景，采用深度优先搜索决策树方法生成注释。项目提供训练脚本和微调后的ToolLLaMA模型，其工具使用能力达到了与ChatGPT相当的水平。

symbolicai - 将神经网络和符号推理融合的大语言模型框架

GithubLLMPythonSymbolicAI开源项目框架神经符号

SymbolicAI是一个创新框架，融合大语言模型与任务特定提示，通过分治方法解决复杂问题。该框架实现可微分编程和经典编程的无缝集成，支持神经符号、语音、OCR和搜索等多种引擎。它为开发者提供交互式shell、聊天机器人和包管理工具，简化了基于LLM应用的开发和管理过程。

相关项目

推荐项目

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

稿定AI

稿定设计是一个多功能的在线设计和创意平台，提供广泛的设计工具和资源，以满足不同用户的需求。从专业的图形设计师到普通用户，无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑，稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合，帮助用户轻松实现创意设计。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com