#多模态

SONAR: 革命性的多语言多模态句子嵌入技术

3 个月前

SONAR 多语言多模态句子嵌入机器翻译 Github 开源项目

3 个月前

LLaMA-Adapter:高效微调大语言模型的创新方法

3 个月前

LLaMA-Adapter 微调大语言模型指令跟随多模态 Github 开源项目

3 个月前

MiniGPT4-video: 突破性的视频理解多模态大语言模型

3 个月前

Goldfish MiniGPT4-Video 视频理解长视频多模态 Github 开源项目

3 个月前

基础模型:AI领域的革命性进展

3 个月前

基础模型多模态计算机视觉自然语言处理深度学习 Github 开源项目

3 个月前

Guidance: 掌控大型语言模型的先进工具

3 个月前

Guidance 语言模型 AI编程代码生成多模态 Github 开源项目

3 个月前

Video-LLaMA: 革命性的音视频理解语言模型

3 个月前

Video-LLaMA 多模态视频理解语言模型 AI对话 Github 开源项目

3 个月前

MiniCPM: 突破性的端侧大语言模型

3 个月前

MiniCPM 端侧大语言模型开源模型多模态模型量化 Github 开源项目

3 个月前

LanguageBind: 突破语言与多模态对齐的前沿技术

3 个月前

LanguageBind 多模态预训练视频语言零样本分类 Github 开源项目

3 个月前

LabelLLM：开源大语言模型数据标注平台

3 个月前

LabelLLM 数据标注平台开源多模态人工智能 Github 开源项目

3 个月前

LLaVA-Med: 革命性的生物医学大规模语言与视觉助手

3 个月前

LLaVA-Med 多模态生物医学大语言模型视觉问答 Github 开源项目

3 个月前

相关项目

pipecat

pipecat是一个灵活的框架，用于构建语音和多模态对话代理，适用于个人教练、会议助手、故事讲述玩具、客户支持机器人等应用。通过简单的安装和设置，代理进程可以在本地或云端运行，并支持多种第三方AI服务和传输方式。提供丰富的示例应用和代码片段，帮助开发者快速构建符合特定需求的对话系统。

智源研究院

探访智源研究院，了解悟道系列最新大模型技术，如悟道2.0与悟道3.0。致力于推进人工智能的领先技术和开源进程，网站提供丰富的研究成果、项目信息及最新动态，是研究者和开发者的理想交流平台。

GPTDiscord

GPT Discord是一款易用的Discord机器人，集成了OpenAI GPT-3技术，提供GPT聊天风格对话、图像生成功能、AI内容审查和自定义知识库等。它支持复杂的图像和代码理解、数据分析以及连接互联网的AI聊天，为Discord用户提供了一个功能丰富的交流平台。

transformers

探索🤗 Transformers——一个功能全面的机器学习库，覆盖文本、视觉与音频处理。该库提供数千种可对接JAX、PyTorch或TensorFlow的预训练模型，适用于多种语言处理与多模态任务。主要功能包括： - 文本分类 - 信息提取 - 问答系统 - 摘要生成 - 翻译 - 文本生成此外，还能处理表格问答、OCR及视觉问答等多模态任务。Transformers库易于使用，支持模型间的快速切换与无缝整合。

LLMGA

LLMGA基于多模态大语言模型，提供图像生成与编辑解决方案。结合Stable Diffusion和详细语言生成提示，项目提升了上下文理解并减少生成过程中的噪音，增强图像内容的精度。LLMGA支持文本到图像（T2I）、补画、扩画及指令编辑，适用于Logo设计、海报制作和故事绘本生成，支持中英文指令。广泛的模型和数据集选择满足不同需求，是理想的图像生成和编辑助手。

modelfusion

ModelFusion是一个针对JavaScript和TypeScript应用的开源TypeScript库，支持AI模型的无缝集成。具备多模态能力、类型推断、响应验证，并为生产环境优化提供了观察性钩子、日志机制和自动重试功能，适合开发AI应用、聊天机器人和智能代理。

CVPR2024-Papers-with-Code-Demo

CVPR2024-Papers-with-Code-Demo项目整合了CVPR会议的最新论文和开源代码，覆盖机器学习、计算机视觉等多个领域，提供丰富的论文资源和代码链接。适合学者和开发者深入探讨和应用最新科研成果。

llms_paper

llms_paper是一个高级学术资源库，专注于顶会论文的记录与整理，涵盖多模态、PEFT、小样本QA问答等多个领域。该项目深入探讨了LLMs在医疗、法律等多个行业中智能问答系统的应用，并展示了LLMs在多模态交互及数据解析方面的有效性。为算法工程师和研究人员提供最新的研究成果与实用技术笔记，是深入LLMs领域的理想资源。

AppAgent

AppAgent是一种基于LLM的多模态智能代理框架，模仿人类点击和滑动操作来运行智能手机应用。框架通过自主探索或观察人类演示学习新操作，生成知识库以执行复杂任务。无需系统后端访问，适用性广泛。提供详细配置步骤、评估基准和使用案例，支持GPT-4V和通义千问-VL等多种模型。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com