EVA

推进大规模视觉表示学习的前沿

EVA是北京智源人工智能研究院开发的视觉表示学习模型系列。它包括多个子项目，如EVA-01和EVA-CLIP，致力于探索大规模掩码视觉表示学习的极限和改进CLIP训练技术。这些模型在主流平台上提供，为计算机视觉研究提供了有力支持。EVA项目涵盖基础模型、自监督学习和多模态学习等前沿领域。

Github

Huggingface

介绍相关项目

GLEE - 实现多任务图像和视频处理的通用视觉基础模型

GLEEGithub多任务模型实例分割开源项目目标检测计算机视觉

GLEE是一个通用对象基础模型，在超过1000万张来自多个数据集的图像上进行联合训练。该模型能同时处理多种以对象为中心的视觉任务，并在多个基准测试中保持领先性能。GLEE具有出色的通用性和零样本迁移能力，可作为增强其他架构或模型的基础组件。这项研究被CVPR2024接受为亮点论文，研究团队计划开源相关代码和预训练模型。

clip - Habana Gaudi HPU优化的视觉语言模型配置与训练方案

CLIPGithubHugging FaceHuggingfaceOptimum Habana人工智能开源项目模型模型训练

Optimum Habana为Habana Gaudi处理器(HPU)提供了CLIP模型的优化配置，实现与Hugging Face库的集成。支持单机和多HPU环境下的模型操作，包含自定义AdamW、梯度裁剪和混合精度训练等优化。项目提供COCO数据集微调示例，展示了如何充分利用HPU性能进行视觉语言模型训练。

MMVP - 探索多模态大语言模型的视觉局限

GithubInterleaved-MoFMMVP基准测试多模态LLM开源项目视觉模式视觉能力

MMVP基准测试揭示了多模态大语言模型在视觉理解方面的局限。即使是顶尖模型也难以准确完成基本视觉定位任务。项目开发的Interleaved-MoF模型旨在改善这些问题。MMVP还提供了开放的评估工具和数据集，为多模态AI技术的发展做出了贡献。

nomic-embed-vision-v1 - 共享文本空间的先进视觉嵌入模型

GithubHuggingfaceTransformersnomic-embed-vision-v1图像嵌入多模态开源项目模型视觉模型

nomic-embed-vision-v1是一款先进的视觉嵌入模型，与nomic-embed-text-v1共享嵌入空间。在ImageNet零样本和Datacomp基准测试中，该模型表现优异，超越OpenAI CLIP和Jina CLIP等同类产品。支持多模态检索功能，适用于文本到图像检索等应用场景。开发者可通过Nomic嵌入API或Transformers库便捷地集成该模型，实现图像嵌入生成。

llava-v1.6-34b-hf - 图像与文本交互的多模态AI模型

GithubHuggingfaceLLaVa-NeXTNous-Hermes-2-Yi-34B光学字符识别多模态聊天机器人开源项目模型视觉指令微调

LLaVa-NeXT模型结合大规模语言模型与视觉编码器，通过提高图像分辨率和优化数据集，增强了OCR和常识推理能力，适用于多模态对话应用场景。支持图像字幕生成和视觉问答，提供双语功能与商业许可保障。

LAVIS - 多任务语言与视觉模型的统一接口和便捷数据下载工具

BLIPGithubLAVISSalesforceX-InstructBLIPlanguage-vision开源项目

LAVIS是一款用于语言与视觉智能研究的Python库，提供统一接口，支持图像文本预训练、检索和视觉问答等10多种任务，并包含20多个数据集和30多个预训练模型。其模块化设计和自动下载工具简化了数据准备和模型训练，是开发多模态应用的理想选择。

ALLaVA - GPT4V合成数据集助力轻量级视觉语言模型训练

ALLaVAGPT-4VGithub开源项目微调数据集视觉语言模型

ALLaVA项目推出大规模GPT4V合成数据集，旨在促进轻量级视觉语言模型的训练。项目发布了ALLaVA-Phi3-mini-128k、ALLaVA-StableLM2-1_6B和ALLaVA-Phi2-2_7B等多个模型版本，可直接从Hugging Face仓库加载。ALLaVA-4V数据集整合了LAION和Vision FLAN的图像标注与指令数据，以及GPT-4-Turbo生成的文本指令，总样本量超过140万。这一资源为视觉语言模型研究提供了丰富的训练数据和预训练模型，有望推动该领域的进一步发展。

DALLE-pytorch - 文本到图像转换的先进实现

DALL-EGithubPytorch图像生成开源项目文本到图像转换自动编码器

基于OpenAI的DALL-E以及CLIP技术，DALLE-pytorch是一种开源的AI解决方案，可将文本高效转化为图像。该工具在Pytorch框架下开发，支持包括OpenAI预训练的VAE在内的多种训练模式。DALLE-pytorch不仅采用了深度可逆网络和稀疏注意力技术，而且提供了高灵活性和可扩展性，适合多种数据集。

CLIP-convnext_xxlarge-laion2B-s34B-b82K-augreg - 基于LAION-2B数据集的卷积神经网络达到79%零样本分类准确率

CLIPConvNextGithubHuggingface图像分类开源项目机器学习模型神经网络

CLIP ConvNeXt-XXLarge是一个在LAION-2B数据集上训练的大规模视觉语言模型，总参数量12亿，图像分辨率256x256。模型采用ConvNeXt-XXLarge图像结构和ViT-H-14规模的文本编码器，在ImageNet零样本分类上达到79%准确率。主要应用于图像分类、检索等研究任务。

SEED - 融合视觉与语言的多模态AI框架

AI助手GithubSEED-LLaMA多模态大语言模型开源项目视觉语言模型

SEED是一个创新的多模态AI框架，通过视觉分词器和去分词器，赋予大语言模型视觉理解和生成能力。该系统支持多模态理解与生成，展现出多轮上下文多模态生成等组合能力。基于SEED开发的SEED-LLaMA在广泛的多模态任务中表现优异，为AI领域开辟了新的研究方向。

相关项目

推荐项目

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能，包括文生视频、动态画面和形象生成等，帮助用户快速上手，创造专业级内容。

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台，用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品，帮助用户探索创意灵感。

讯飞文书

讯飞文书依托讯飞星火大模型，为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能，满足事务性工作的高频需求，帮助撰稿人节省精力，提高效率，优化工作与生活。

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com