#多模态模型

Awesome Matching, Pretraining and Transfering: 多模态学习的前沿进展与应用

3 个月前

多模态模型参数高效微调视觉语言预训练图像文本匹配大型模型 Github 开源项目

3 个月前

Meta Chameleon: 革命性的多模态早期融合基础模型

3 个月前

Meta Chameleon 多模态模型 AI研究模型推理可视化工具 Github 开源项目

3 个月前

Anole: 开源自回归本地多模态模型的突破性进展

3 个月前

Anole 多模态模型图文生成开源 AI Github 开源项目

3 个月前

LLaVA-NeXT: 开放式大型多模态模型的新突破

3 个月前

LLaVA-NeXT 多模态模型视觉语言模型 AI助手大语言模型 Github 开源项目

3 个月前

无处不在的视觉：探索全视觉模型的前沿进展

3 个月前

All-Seeing Project 视觉识别关系理解大规模数据集多模态模型 Github 开源项目

3 个月前

Bunny:一个轻量级但功能强大的多模态模型家族

3 个月前

Bunny 多模态模型视觉语言模型轻量级模型 AI模型 Github 开源项目

3 个月前

Monkey项目：提升大型多模态模型性能的创新之路

3 个月前

Monkey 多模态模型图像分辨率文本标签视觉问答 Github 开源项目

3 个月前

揭秘groundingLMM:首个实现像素级语义分割的大型多模态模型

3 个月前

GLaMM 多模态模型视觉基础对话生成图像分割 Github 开源项目

3 个月前

TorchMultimodal:用于大规模训练多模态多任务模型的PyTorch库

3 个月前

TorchMultimodal 多模态模型 PyTorch 机器学习深度学习 Github 开源项目

3 个月前

Unified-IO 2: 突破性的多模态人工智能模型

3 个月前

Unified-IO 2 多模态模型机器学习深度学习人工智能 Github 开源项目

3 个月前

相关项目

llama.cpp

llama.cpp 提供了基于 C/C++ 的纯粹实现，支持包括 LLaMA 在内的多个模型的推理。专为多种硬件和操作系统优化，包括使用 ARM NEON、AVX 指令集和 Metal 框架的设备。此外，项目支持使用 NVIDIA GPU 的自定义 CUDA 核心，以及通过 HIP 支持 AMD GPU，为开发者在本地或云环境中实现高效、低延迟的大规模语言模型推理提供了强大的灵活性和可扩展性。

inference

Xorbits Inference 是一个强大的库，旨在简化语言、语音识别和多模态模型的部署。研究人员、开发者和数据科学家都可以通过一个命令轻松部署和服务先进的内置模型。该库支持连续批处理、MLX后端、SGLang后端及LoRA技术，提供高效的硬件资源利用。Xorbits Inference 与LangChain、LlamaIndex等第三方库无缝集成，支持分布式部署和多种交互接口，是AI模型服务的理想工具。

lmdeploy

LMDeploy是由MMRazor和MMDeploy团队开发的工具包，专注于LLM的压缩、部署和服务。它提供高效的推理性能、有效的量化方法和便捷的分布式服务，显著提升请求吞吐量。支持多种量化方式和多模型服务，兼容性强。最新版本集成了TurboMind和PyTorch推理引擎，支持多种LLMs和VLMs模型，降低开发者的技术门槛。

Visual-Chinese-LLaMA-Alpaca

VisualCLA基于中文LLaMA/Alpaca模型，增加图像编码模块，实现图文联合理解和对话能力。目前发布测试版，提供推理代码和部署脚本，并展示多模态指令理解效果。未来将通过预训练和精调优化，扩展应用场景。

keras-llm-robot

keras-llm-robot是一套基于Langchain和Fastchat开源框架的Web应用，支持多模态、RAG和Agent等多功能。项目完全开源，适合在Hugging Face平台上测试和部署各类模型。用户可自定义模型组合以适应不同的部署和实验需求，同时提供语音和图像识别、代码执行、实时翻译等多元化功能。

InternVL

InternVL项目，作为一个领先的开源多模态模型套件，提供可媲美商业模型GPT-4o的性能。该项目开放源代码，支持多语种和高效OCR功能，在多个benchmark中展现出顶尖性能。该平台包括多种模型，如InternVL2-Pro和Mini-InternVL系列，适用于从聊天机器人至复杂多模态文档理解的应用场景。完备的文档资料和快速启动指南为社区成员提供便捷的使用和优化体验。

awesome-pretrained-chinese-nlp-models

awesome-pretrained-chinese-nlp-models提供多种中文自然语言处理预训练模型，涵盖基础大模型、对话型模型和多模态模型等。该平台不仅包括各模型的详细介绍、技术文档和下载链接，还定期更新，为研究人员和开发者提供全面的中文NLP资源。

Awesome-LM-SSP

本页面提供与大模型（LMs）可信度相关的多维度资源，特别是多模态大模型（如视觉语言模型和扩散模型）。用户可浏览资源分类、最新更新和资源推荐提交方式，适合研究人员和开发者了解大模型在安全性和隐私保护等方面的研究进展。

NeMo

NeMo框架是NVIDIA开发的一款云原生生成式AI框架，专为研究人员和使用PyTorch的开发者设计，支持大型语言模型、多模态模型、自动语音识别等多个领域。该框架能够利用现有代码和预训练的模型检查点，帮助用户高效创建和定制新的生成式AI模型。通过广泛的教程和文档，用户可以轻松开始使用NeMo框架，无论是在任何云端还是本地环境中。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com