EVA

推进大规模视觉表示学习的前沿

EVA是北京智源人工智能研究院开发的视觉表示学习模型系列。它包括多个子项目，如EVA-01和EVA-CLIP，致力于探索大规模掩码视觉表示学习的极限和改进CLIP训练技术。这些模型在主流平台上提供，为计算机视觉研究提供了有力支持。EVA项目涵盖基础模型、自监督学习和多模态学习等前沿领域。

Github

Huggingface

介绍相关项目

VideoLLaMA2 - 增强视频理解的多模态语言模型

AIGithubVideoLLaMA2多模态大语言模型开源项目视频理解

VideoLLaMA2是一款先进的视频语言模型,通过增强空间-时间建模和音频理解能力,提高了视频问答和描述任务的性能。该模型在零样本视频问答等多项基准测试中表现出色。VideoLLaMA2能处理长视频序列并理解复杂视听内容,为视频理解技术带来新进展。

VLM2Vec-Full - 视觉语言模型VLM2Vec的多模态嵌入训练方法

GithubHuggingfaceTIGER-LabVLM2Vec多模态嵌入对比学习开源项目模型视觉语言模型

VLM2Vec在Phi-3.5-V模型中引入EOS标记，实现跨多模态输入的统一嵌入表达，高效结合文本与图像。通过对比学习在MMEB-train数据集上训练，并在36个数据集上进行评估，Lora训练方式表现最佳。项目提供模型检查点及完整训练记录，供用户在GitHub仓库克隆下载，通过代码实现文本与图像的嵌入和相似度计算，助力模型运用。

VLMEvalKit - 开源的大型视觉语言模型评估工具包

GithubVLMEvalKit多模态数据集大型视觉语言模型开源开源项目评估工具包

VLMEvalKit是一款开源的大型视觉语言模型评估工具包，支持即插即用的评估操作，无需繁重的数据准备。该工具包支持多种顶级数据库和最新模型测试，并为用户提供精确匹配和基于LLM的答案提取两种评估结果。有效工具，帮助专业人员和研究者评估模型性能。

VisionLLM - 面向视觉任务的开放式多模态大语言模型

GithubVisionLLM人工智能多模态大语言模型开源项目视觉语言任务计算机视觉

VisionLLM 系列是一种多模态大语言模型，专注于视觉相关任务。该模型利用大语言模型作为开放式解码器，支持数百种视觉语言任务，包括视觉理解、感知和生成。VisionLLM v2 进一步提升了模型的通用性，扩展了其在多模态应用场景中的能力，推动了计算机视觉与自然语言处理的融合。

Chat-UniVi - 统一视觉表示赋能大语言模型理解图像和视频

Chat-UniViGithub图像视频统一多模态大语言模型开源项目视觉理解

Chat-UniVi是一个多模态AI模型，采用统一的视觉表示方法实现图像和视频的同步理解。该模型运用动态视觉令牌技术，有效捕捉图像空间细节和视频时序关系。经过联合训练，Chat-UniVi在图像和视频理解任务中表现优异，性能超过专门设计的单一模态模型。模型支持多轮对话，能处理包含多个图像或视频的复杂场景，为视觉AI研究提供新思路。

clip_playground - 探索CLIP模型的多种应用包括GradCAM可视化、零样本检测和验证码破解

CLIPCaptcha SolverColabGithubGradCAMZero-shot Detection开源项目

这个项目展示了CLIP模型的不同应用，包括GradCAM可视化、简单和智能的零样本检测以及验证码破解。用户可以通过Colab链接在线体验各项功能，并调整参数和检测查询以深入探索模型潜力。项目日志定期更新，包含reCAPTCHA绘图改进和检测参数调整，确保用户获得最佳应用体验。

CLIP-ViT-B-32-xlm-roberta-base-laion5B-s13B-b90k - 具备零样本学习与多语言支持的图像模型

CLIP ViT-B/32GithubHuggingfaceLAION-5B图像分类多语言性能开源项目模型零样本学习

该模型基于LAION-5B数据集和OpenCLIP技术，能够进行零样本图像分类和图像-文本检索。通过结合CLIP ViT-B/32和xlm roberta，这一模型在各种图像任务中显示出较高性能。同时，其多语言能力经验证，可提升imagenet1k等多语言数据集上的表现，尤其在意大利语和日语测试中效果显著。依托于高效的OpenCLIP训练，模型在mscooco和flickr30k数据集上有较大性能提升，是图像生成与分类的可靠选择。

llava-onevision-qwen2-72b-si - 多模态模型提高视觉数据交互准确率

GithubHuggingfaceLLaVA-OneVision准确率图像交互多模态开源项目模型预训练模型

此开源项目使用多模态模型，准确率介于85.1%至93.7%之间，在AI2D、DocVQA、Science-QA等数据集表现优异。基于Qwen2语言模型，LLaVA-OneVision能在多语言环境中与视觉数据进行交互，经过大型图像及视频数据集训练，使用bfloat16精度。

metaclip-h14-fullcc2.5b - 大规模视觉语言模型基于25亿CommonCrawl数据训练

GithubHuggingfaceMetaCLIP多模态学习开源项目模型自然语言处理计算机视觉零样本分类

MetaCLIP是一个基于25亿CommonCrawl数据点训练的大规模视觉语言模型。该模型由Xu等人在《Demystifying CLIP Data》论文中提出，旨在解析CLIP的数据准备流程。MetaCLIP支持图像与文本的联合嵌入，可应用于零样本图像分类、文本图像检索等任务。作为一个开源项目，MetaCLIP为研究人员提供了探索大规模视觉语言模型的新方向，有助于推进计算机视觉和自然语言处理领域的发展。

相关项目

推荐项目

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com