cogvlm-chat-hf

开源视觉语言模型CogVLM在多项跨模态基准测试中超越PaLI-X 55B

模型开源 Github CogVLM 图像识别视觉语言模型 Huggingface 开源项目多模态

CogVLM是一款开源视觉语言模型，具有100亿视觉参数和70亿语言参数。在NoCaps、Flicker30k等10个经典跨模态基准测试中，CogVLM实现了最先进的性能，部分超越PaLI-X 55B。其架构包括视觉变换器编码器、MLP适配器、预训练语言模型和视觉专家模块。CogVLM能进行多模态对话，适用于图像描述和视觉问答等任务。该模型对学术研究开放，经登记后可免费用于商业用途。

Github

Huggingface

介绍相关项目

internlm2_5-1_8b-chat - 开源18亿参数模型提升推理能力与工具调用效率

GithubHuggingfaceInternLM工具利用开源模型开源项目推理能力模型模型性能

InternLM2.5是一个开源的18亿参数基础模型，拥有卓越的数学推理和增强的工具调用能力，其能够从多个网页搜集信息并进行分析和指令理解。在OpenCompass的评测中，该模型在MATH、GPQA等基准测试中表现突出。尽管在推理和综合能力上具有优越性，仍需注意潜在的风险输出。通过Transformers和LMDeploy工具，用户可以轻松加载和部署此模型以适应多种应用场景。

llava-v1.6-vicuna-13b - 强大的图文多模态AI模型集成Vicuna-13b实现视觉智能对话

GithubHuggingfaceLLaVA多模态大型语言模型开源项目指令跟随模型视觉问答

LLaVA-v1.6是基于Vicuna-13b微调的开源多模态AI模型，通过大规模图文对和指令数据训练而成。该模型擅长学术视觉问答和通用图像理解，支持自然的图文交互。采用transformer架构，为计算机视觉和自然语言处理研究提供了强大的视觉语言处理工具。

vip-llava-7b-hf - 基于自然视觉提示的多模态语言模型

AI聊天机器人GithubHuggingfaceViP-LLaVA图像识别多模态AI开源项目模型视觉语言处理

VipLLaVA在LLaVA基础上引入自然视觉提示训练机制，通过边界框和指向箭头等视觉标记增强模型的图像理解能力。作为基于Transformer架构的多模态模型，VipLLaVA支持多图像输入和复杂视觉查询处理。该模型通过微调LLaMA/Vicuna实现，可集成到transformers库中实现图像文本交互，并支持4位量化和Flash Attention 2优化部署。

cogvlm2-llama3-caption - 视频转文本方案，助力优化文本-视频模型训练

CogVLM2-CaptionGithubHuggingfacePyTorch开源项目模型视频描述视频转文本训练数据生成

CogVLM2-Llama3-Caption项目专注于将视频数据转换为文本描述，为文本-视频模型提供关键训练数据。利用先进的视频解码和文本生成技术，该工具支持精确视频转录，为包括CogVideoX在内的模型生成高质量训练素材。该模型结合了Transformer技术和灵活处理策略，可在CUDA设备上高效运行，帮助开发者高效进行视频内容分析。

InternVL2-1B - 多模态大语言模型实现多图像和视频智能理解

GithubHuggingfaceInternVL2人工智能多模态大语言模型开源项目模型自然语言处理计算机视觉

InternVL2-1B是一款新型多模态大语言模型，结合了InternViT-300M-448px视觉模型和Qwen2-0.5B-Instruct语言模型。该模型在文档理解、图表分析和场景文字识别等任务中表现优异，能有效处理长文本、多图像和视频输入。InternVL2-1B在开源多模态模型中表现突出，部分能力可与商业模型比肩。通过采用8k上下文窗口训练，该模型大幅提升了处理长输入序列的能力。

llava-onevision-qwen2-72b-si - 多模态模型提高视觉数据交互准确率

GithubHuggingfaceLLaVA-OneVision准确率图像交互多模态开源项目模型预训练模型

此开源项目使用多模态模型，准确率介于85.1%至93.7%之间，在AI2D、DocVQA、Science-QA等数据集表现优异。基于Qwen2语言模型，LLaVA-OneVision能在多语言环境中与视觉数据进行交互，经过大型图像及视频数据集训练，使用bfloat16精度。

Multimodal-GPT - 整合视觉与语言功能的多模态对话机器人

GithubOpenFlamingo多模态GPT开源项目联合训练视觉指令语言模型

Multimodal-GPT是一个基于OpenFlamingo多模态模型的项目，通过结合视觉指令和语言指令数据的联合训练，有效提升模型性能。该项目支持VQA、图像描述、视觉推理、文本OCR和视觉对话等多种数据类型，并利用LoRA进行参数高效的微调。探索Multimodal-GPT的广泛应用可能性。

glm-4-9b-chat-1m - 广泛语言支持与长文本处理能力的先进预训练模型

GLM-4-9BGithubHuggingface多语言支持开源项目机器学习模型长文本能力预训练模型

GLM-4-9B-Chat-1M 是智谱 AI 开发的先进预训练模型，具备网页浏览、代码执行和长文本推理等功能，支持 26 种语言，适用于需要大规模上下文处理的应用场景。最新更新提升了处理能力，支持长达 1M 上下文长度。

LLaMA-VID - 支持长视频处理的多模态大语言模型

GithubLLaMA-VID多模态大语言模型开源项目视觉语言模型视频理解

LLaMA-VID是一个新型多模态大语言模型,可处理长达数小时的视频。它通过增加上下文令牌扩展了现有框架的能力,采用编码器-解码器结构和定制令牌生成策略,实现对图像和视频的高效理解。该项目开源了完整的模型、数据集和代码,为视觉语言模型研究提供了有力工具。

Llama-3.2-11B-Vision - Meta开发的多模态大语言模型支持视觉识别和图像推理

GithubHuggingfaceLLAMA 3.2多模态模型开源项目机器学习模型自然语言处理计算机视觉

Llama-3.2-11B-Vision是Meta开发的多模态大语言模型,支持图像和文本输入、文本输出。该模型在视觉识别、图像推理、图像描述和通用图像问答方面表现出色。它基于Llama 3.1文本模型构建,采用优化的Transformer架构,通过监督微调和人类反馈强化学习进行对齐。模型支持128K上下文长度,经过60亿(图像,文本)对训练,知识截止到2023年12月。Llama-3.2-11B-Vision为商业和研究用途提供视觉语言处理能力。

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能，包括文生视频、动态画面和形象生成等，帮助用户快速上手，创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台，用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品，帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型，为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能，满足事务性工作的高频需求，帮助撰稿人节省精力，提高效率，优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号