#多模态模型
llama.cpp - C/C++ 实现的 LLaMA 模型推理,支持多种硬件和系统
llama.cpp模型推理C/C++量化优化多模态模型Github开源项目热门
llama.cpp 提供了基于 C/C++ 的纯粹实现,支持包括 LLaMA 在内的多个模型的推理。专为多种硬件和操作系统优化,包括使用 ARM NEON、AVX 指令集和 Metal 框架的设备。此外,项目支持使用 NVIDIA GPU 的自定义 CUDA 核心,以及通过 HIP 支持 AMD GPU,为开发者在本地或云环境中实现高效、低延迟的大规模语言模型推理提供了强大的灵活性和可扩展性。
inference - 简化语言和多模态模型部署的强大工具
Xorbits Inference模型部署多模态模型API接口分布式部署Github开源项目
Xorbits Inference 是一个强大的库,旨在简化语言、语音识别和多模态模型的部署。研究人员、开发者和数据科学家都可以通过一个命令轻松部署和服务先进的内置模型。该库支持连续批处理、MLX后端、SGLang后端及LoRA技术,提供高效的硬件资源利用。Xorbits Inference 与LangChain、LlamaIndex等第三方库无缝集成,支持分布式部署和多种交互接口,是AI模型服务的理想工具。
lmdeploy - 优化LLM推理的量化和部署工具
LMDeploy量化推理多模态模型部署Github开源项目
LMDeploy是由MMRazor和MMDeploy团队开发的工具包,专注于LLM的压缩、部署和服务。它提供高效的推理性能、有效的量化方法和便捷的分布式服务,显著提升请求吞吐量。支持多种量化方式和多模型服务,兼容性强。最新版本集成了TurboMind和PyTorch推理引擎,支持多种LLMs和VLMs模型,降低开发者的技术门槛。
Visual-Chinese-LLaMA-Alpaca - 多模态中文模型VisualCLA开发与优化技术
Visual-Chinese-LLaMA-Alpaca多模态模型Chinese-Alpaca-PlusCLIP-ViTLLaMAGithub开源项目
VisualCLA基于中文LLaMA/Alpaca模型,增加图像编码模块,实现图文联合理解和对话能力。目前发布测试版,提供推理代码和部署脚本,并展示多模态指令理解效果。未来将通过预训练和精调优化,扩展应用场景。
keras-llm-robot - 基于Langchain和Fastchat开源框架的Web应用,支持多模态、RAG和Agent等多功能
Keras-llm-robot语言模型多模态模型Web UI开源Github开源项目
keras-llm-robot是一套基于Langchain和Fastchat开源框架的Web应用,支持多模态、RAG和Agent等多功能。项目完全开源,适合在Hugging Face平台上测试和部署各类模型。用户可自定义模型组合以适应不同的部署和实验需求,同时提供语音和图像识别、代码执行、实时翻译等多元化功能。
InternVL - 开源多模态模型包提供商业级性能
InternVL多模态模型开源SOTA性能GPT-4oGithub开源项目
InternVL项目,作为一个领先的开源多模态模型套件,提供可媲美商业模型GPT-4o的性能。该项目开放源代码,支持多语种和高效OCR功能,在多个benchmark中展现出顶尖性能。该平台包括多种模型,如InternVL2-Pro和Mini-InternVL系列,适用于从聊天机器人至复杂多模态文档理解的应用场景。完备的文档资料和快速启动指南为社区成员提供便捷的使用和优化体验。
awesome-pretrained-chinese-nlp-models - 中文NLP预训练模型综合资源平台
预训练语言模型大模型中文NLP多模态模型开源模型库Github开源项目
awesome-pretrained-chinese-nlp-models提供多种中文自然语言处理预训练模型,涵盖基础大模型、对话型模型和多模态模型等。该平台不仅包括各模型的详细介绍、技术文档和下载链接,还定期更新,为研究人员和开发者提供全面的中文NLP资源。
Awesome-LM-SSP - 大模型可信度资源汇总,涵盖安全、隐私与多模态模型
Awesome-LM-SSP信任度多模态模型安全性隐私Github开源项目
本页面提供与大模型(LMs)可信度相关的多维度资源,特别是多模态大模型(如视觉语言模型和扩散模型)。用户可浏览资源分类、最新更新和资源推荐提交方式,适合研究人员和开发者了解大模型在安全性和隐私保护等方面的研究进展。
self-operating-computer - 使多模态模型能够操作计算机的框架
Self-Operating Computer多模态模型GPT-4o键盘鼠标操作API接口Github开源项目
Self-Operating Computer Framework通过模拟人类的视觉和手动操作,实现计算机的自动化控制。当前支持GPT-4o、Gemini Pro Vision、Claude 3和LLaVa多模态模型,并计划对更多模型开放兼容。适用于Mac OS, Windows和Linux系统。
ms-swift - 支持300+模型训练和轻量级微调的高效框架
SWIFTModelScopeLLM多模态模型轻量级训练Github开源项目
SWIFT是一款高效框架,支持超过300个大语言模型和50多个多模态大模型的训练、推理、评估和部署。它集成了NEFTune、LoRA+和LLaMA-PRO等先进技术,适用于研究和生产环境。框架还提供了易用的Gradio web-ui界面和详细文档,非常适合初学者和资深开发者使用。最新版本增加了对多种前沿模型和加速算法的支持,适用于广泛的应用场景。
LRV-Instruction - 通过稳健指令调优降低多模态模型幻觉风险
LRV-InstructionMiniGPT4mplug-owl多模态模型GPT4Github开源项目
该项目通过稳健的指令调优,减少大规模多模态模型的幻觉现象,提升其在复杂视觉和语言任务中的表现。LRV-Instruction 数据集包含多种视觉和语言任务数据,通过 GPT-4 生成,提供正面和反面的指令示例,以提高模型的鲁棒性和准确性。最新的研究进展和更新内容不断推进多模态图表理解和图像上下文推理基准的发展,为相关领域提供重要的数据支持。
TinyLLaVA_Factory - 模块化的开源小规模多模态模型库
TinyLLaVA Factory多模态模型开源代码库HuggingFacePyTorchGithub开源项目
TinyLLaVA Factory是一个开源的模块化代码库,专注于简化小规模多模态模型的开发和定制,使用PyTorch和HuggingFace实现。其设计旨在简化代码实现、提高扩展性和确保训练结果的可重复性。支持如OpenELM、TinyLlama、StableLM等语言模型和CLIP、SigLIP等视觉模型。通过TinyLLaVA Factory,可减少编码错误,快速定制多模态模型,提高性能,为研究和应用提供强大工具。
TalkWithGemini - 一键免费部署多模态Gemini应用
Gemini多模态模型免费部署跨平台客户端语音对话Github开源项目
免费一键部署支持多模态的Gemini应用,兼容Gemini 1.5 Pro、Flash和Vision型号,具备图片识别、语音对话和跨平台客户端功能。支持多国语言,提供隐私安全和优质用户界面。适用于Github Page和Vercel等静态网站服务,提高办公效率。
dynalang - 使用语言和多模态模型预测与解决任务
Dynalang人工智能多模态模型训练脚本语言建模Github开源项目
Dynalang项目通过多种语言创建一个多模态世界模型,预测未来并解决任务。提供详细的安装指南和训练配置,支持HomeGrid、Messenger、VLN和LangRoom等环境。该项目建基于最新研究,旨在通过语言建模提高任务解决效率。
generative-ai-android - Google Gemini API 的官方 Android 库
Google AI SDKGemini APIAndroid开发Google DeepMind多模态模型Github开源项目
Google AI Android SDK为Android开发者提供了一种简便方式来构建基于Gemini API的应用。使用这一SDK,可以无缝调用由Google DeepMind创建的多模态Gemini模型,实现跨文本、图像和代码的推理。尽管主要推荐用于快速原型开发,但在计划上线收费版本时,建议使用后端SDK以避免API密钥泄露风险。该SDK使模型初始化和API调用变得简单,从而加速应用开发。
SeeAct - 基于多模态GPT模型的网页任务自动化解决方案
SeeActGPT-4V(ision)Mind2Webweb代理多模态模型Github开源项目
SeeAct采用多模态GPT模型(如GPT-4V(ision)),提供网页任务自动化的解决方案,支持OpenAI和Google的多种语言模型,并与Playwright浏览器无缝集成。适用于网页代理测试与评估,支持多种配置和自定义任务,实现安全操作和实时监控。Multimodal-Mind2Web数据集提供丰富的网页截图和HTML文本,便于实验和评估。
SEED-X - 统一多粒度理解与生成的多模态AI模型
SEED-X多模态模型AI助手图像编辑指令微调Github开源项目
SEED-X是一个多功能的多模态基础模型,经过指令微调后可应用于各种实际场景。该模型整合了多粒度的理解和生成能力,能够满足多样化的用户需求。SEED-X既可作为交互式设计工具生成和编辑图像,又能充当智能助手理解各种尺寸的图像并提供相关建议。项目已开源模型、指令微调代码和推理代码,同时提供在线演示。
Awesome-Graph-LLM - 探索图结构与大语言模型的前沿融合及应用
图模型大语言模型图神经网络多模态模型知识图谱Github开源项目
Awesome-Graph-LLM项目汇集图相关大语言模型(Graph-LLM)领域的前沿研究成果和资源。内容涵盖数据集、基准测试、综述文章,以及图推理、节点分类、图分类等应用。项目还收录图提示、通用图模型和多模态模型等新兴方向的相关工作,为Graph-LLM研究提供全面参考。
unified-io-2 - 跨模态人工智能的开源新标杆
Unified-IO 2多模态模型机器学习深度学习人工智能Github开源项目
Unified-IO 2是一个开源的多模态AI框架,集成视觉、语言、音频和动作处理能力。项目提供完整代码支持演示、训练和推理,适用于TPU和GPU环境。基于T5X优化,内含多规格预训练模型和丰富数据集。其跨模态学习和生成能力为AI研究与应用提供了新的可能性。项目采用模块化设计,便于研究人员和开发者进行二次开发和定制。Unified-IO 2支持多种数据格式和预处理流程,为不同任务场景提供灵活解决方案。其开源性质促进了AI社区的协作与创新,为多模态AI技术的进步做出贡献。
multimodal - PyTorch多模态模型开发框架
TorchMultimodal多模态模型PyTorch机器学习深度学习Github开源项目
TorchMultimodal是基于PyTorch的多模态模型开发框架,提供模块化构建块和预训练模型,支持ALBEF、BLIP-2、CLIP等多种架构。该框架包含训练、微调和评估示例,可用于构建内容理解和生成模型。TorchMultimodal整合了PyTorch生态系统,便于研究人员复现和开发先进的多模态多任务模型。
groundingLMM - 结合视觉分割和对话生成的多模态AI模型
GLaMM多模态模型视觉基础对话生成图像分割Github开源项目
GLaMM是一种新型多模态AI模型,将自然语言生成与对象分割技术相结合。该模型提出了接地对话生成任务,并基于GranD数据集进行训练。GLaMM能够处理图像和区域级输入,支持视觉对话和指代表达分割等功能,为视觉语言交互提供了新的解决方案。
Monkey - 利用高分辨率图像和优质文本标签增强多模态模型性能
Monkey多模态模型图像分辨率文本标签视觉问答Github开源项目
Monkey是一个开源的多模态大模型项目,通过提高图像分辨率和优化文本标签来改善模型性能。该项目在MMBench、CCBench和MME等基准测试中表现优异。Monkey提供完整的模型定义、训练代码和演示系统,支持离线和在线部署。此外,项目还开源了多级描述生成数据集,并提供了针对多个视觉问答数据集的评估工具,方便研究人员进行实验和改进。
LLaVA-NeXT - 大规模开源多模态模型提升视觉语言能力
LLaVA-NeXT多模态模型视觉语言模型AI助手大语言模型Github开源项目
LLaVA-NeXT是一个开源的大规模多模态模型项目,致力于提升视觉语言交互能力。该项目支持多图像、视频和3D任务的统一处理,在多个基准测试中表现卓越。LLaVA-NeXT提供了多个模型变体,包括支持高分辨率输入和视频处理的版本,以及基于不同大语言模型的实现。此外,项目还开源了训练数据和代码,为研究人员和开发者提供了宝贵资源。
anole - Anole实现图文交错生成的开源多模态模型
Anole多模态模型图文生成开源AIGithub开源项目
Anole是一款开源的大型多模态模型,具备图文交错生成能力。该模型通过微调约6000张图像数据集,在Chameleon基础上实现了图像生成和理解功能。Anole支持文本到图像生成、图文交错生成、文本生成和多模态理解,为多模态AI研究提供了新的可能性。
chameleon - 多模态早期融合基础模型的开源实现
Meta Chameleon多模态模型AI研究模型推理可视化工具Github开源项目
Chameleon是Meta AI开发的多模态早期融合基础模型。项目提供GPU推理实现、浏览器端多模态输入输出查看工具和评估提示。开源内容包括模型代码、权重和数据集,支持多模态AI技术研究与应用。Chameleon能够在文本、图像等多种模态间实现高效融合和理解。
Awesome_Matching_Pretraining_Transfering - 多模态模型、参数高效微调及视觉语言预训练研究进展汇总
多模态模型参数高效微调视觉语言预训练图像文本匹配大型模型Github开源项目
该项目汇总了多模态模型、参数高效微调、视觉语言预训练和图像-文本匹配领域的研究进展。内容涵盖大语言模型、视频多模态模型等多个方向,定期更新最新论文和资源。项目为相关领域的研究人员和开发者提供了系统的学习参考。
MMBench - 全面评估多模态大模型能力的基准测试
MMBench多模态模型评估基准视觉语言模型循环评估Github开源项目
MMBench是评估视觉语言模型多模态理解能力的基准测试集。它包含近3000道多项选择题,涵盖20个能力维度,采用循环评估和LLM选项提取等创新方法,提供可靠客观的评估。通过细粒度的能力测试和可重复的评价标准,MMBench为多模态模型开发提供了有价值的反馈。
LWM - 百万级上下文多模态AI模型突破性成果
Large World Model多模态模型长文本理解视频处理RingAttentionGithub开源项目
Large World Model (LWM)是一种创新的多模态AI模型,具备百万级上下文处理能力。LWM通过分析大规模视频和文本数据,实现了语言、图像和视频的综合理解与生成。该项目开源了多个模型版本,支持处理超长文本和视频,在复杂检索和长视频理解等任务中表现出色,为AI技术发展提供了新的可能性。
vimGPT - 基于GPT-4V的无鼠标网页浏览器
vimGPTAI浏览器GPT-4VVimium多模态模型Github开源项目
vimGPT是一个创新的网页浏览项目,结合了GPT-4V的视觉能力和Vimium扩展。该项目实现了无需鼠标的网页浏览,用户可通过键盘或语音命令操控浏览器。vimGPT探索了多模态模型在网络交互中的应用,提高了网页访问的便利性。项目正在开发更多功能,如集成高级API和提升图像分辨率,以增强整体用户体验。
Bunny - 轻量高效多模态模型支持高分辨率图像分析
Bunny多模态模型视觉语言模型轻量级模型AI模型Github开源项目
Bunny是一个轻量高效的多模态模型家族,集成多种视觉编码器和语言骨干网络。该项目通过优化训练数据提升小规模模型性能,其中Bunny-Llama-3-8B-V模型支持1152x1152分辨率图像处理,在多项视觉语言任务中表现优异。Bunny为开发者提供了灵活的多模态AI解决方案。
all-seeing - 全景视觉识别与关系理解的开放世界AI系统
All-Seeing Project视觉识别关系理解大规模数据集多模态模型Github开源项目
All-Seeing项目开发了全面的视觉识别和理解系统。该项目推出AS-1B大规模数据集和ASM视觉语言模型,实现开放世界的全景视觉识别。其第二版引入关系对话任务,构建AS-V2数据集和ASMv2模型,增强关系理解能力。此外,项目提出CRPE基准测试,为评估关系理解提供系统平台。
GPT 4o - 突破性多模态AI模型现已免费开放
AI工具GPT 4o人工智能语音交互多模态模型OpenAI
OpenAI最新推出的GPT 4o多模态AI模型,整合了文本、音频和图像的实时处理能力。相较于前代GPT-4,GPT 4o在实时语音交互、情感识别表达和视觉处理方面均有显著提升。该模型现已向所有用户免费开放,同时为开发者提供了更具性价比的API服务。GPT 4o带来的自然对话体验,标志着AI应用进入了新阶段。
lmms-eval - 大规模多模态模型评估框架加速AI发展
LMMs-eval多模态模型评估框架AI基准测试开源项目Github
lmms-eval是专为大规模多模态模型(LMMs)设计的评估框架,整合多种基准和数据集,提供一致高效的评估方法。支持图像、视频等多模态任务,简化评估流程,加速模型开发和性能比较。该框架为研究人员提供灵活工具,助力理解和改进LMMs能力,推动人工智能向通用人工智能(AGI)发展。lmms-eval旨在成为加速LMMs发展的重要生态系统组件。
KoLLaVA - 韩语多模态视觉语言助手
KoLLaVA多模态模型视觉语言助手韩语大语言模型Github开源项目
KoLLaVA是基于LLaVA框架开发的韩语多模态AI模型。通过韩语指令微调,该模型实现图像理解和多轮对话,可回答图像相关问题并进行视觉推理。项目开源了预训练和指令微调数据集、模型权重,并提供详细使用说明,为韩语多模态AI研究与应用提供了重要资源。
VideoGPT-plus - 双编码器融合提升视频理解能力
VideoGPT+视频理解多模态模型视频对话人工智能Github开源项目
VideoGPT+是一个创新的视频对话模型,通过集成图像和视频编码器,实现了更精细的空间理解和全局时间上下文分析。模型采用自适应池化技术处理双编码器特征,大幅提升了视频基准测试性能。项目同时推出VCG+ 112K数据集和VCGBench-Diverse基准,为视频对话任务提供全面评估。VideoGPT+在空间理解、推理和视频问答等多项任务中表现优异。
NeMo - 人工智能训练和部署平台
NVIDIA NeMo大语言模型生成式AI多模态模型语音识别Github开源项目热门
NeMo框架是NVIDIA开发的一款云原生生成式AI框架,专为研究人员和使用PyTorch的开发者设计,支持大型语言模型、多模态模型、自动语音识别等多个领域。该框架能够利用现有代码和预训练的模型检查点,帮助用户高效创建和定制新的生成式AI模型。通过广泛的教程和文档,用户可以轻松开始使用NeMo框架,无论是在任何云端还是本地环境中。
相关文章