#多模态

远程感知多模态大语言模型:技术现状与未来趋势

3 个月前
Cover of 远程感知多模态大语言模型:技术现状与未来趋势

遥感基础模型的发展与应用:开启地球观测新时代

3 个月前
Cover of 遥感基础模型的发展与应用:开启地球观测新时代

DriveMLM: 基于大语言模型的自动驾驶新范式

3 个月前
Cover of DriveMLM: 基于大语言模型的自动驾驶新范式

CogCoM:通过链式操作深入细节的大规模视觉语言模型训练

3 个月前
Cover of CogCoM:通过链式操作深入细节的大规模视觉语言模型训练

UStore: 新一代多模态数据库解决方案

3 个月前
Cover of UStore: 新一代多模态数据库解决方案

创意思维的飞跃:探索大语言模型中的跳跃式思维与幽默生成

3 个月前
Cover of 创意思维的飞跃:探索大语言模型中的跳跃式思维与幽默生成

SEEM: 无处不在的图像分割革命

3 个月前
Cover of SEEM: 无处不在的图像分割革命

LLaVA-Med: 一日训练的生物医学大型语言与视觉助手

3 个月前
Cover of LLaVA-Med: 一日训练的生物医学大型语言与视觉助手

GLM-4: 智谱AI推出的开源多语言多模态对话模型

3 个月前
Cover of GLM-4: 智谱AI推出的开源多语言多模态对话模型

Youku-mPLUG:开创中文视频-语言预训练新纪元

3 个月前
Cover of Youku-mPLUG:开创中文视频-语言预训练新纪元
相关项目
Project Cover

pipecat

pipecat是一个灵活的框架,用于构建语音和多模态对话代理,适用于个人教练、会议助手、故事讲述玩具、客户支持机器人等应用。通过简单的安装和设置,代理进程可以在本地或云端运行,并支持多种第三方AI服务和传输方式。提供丰富的示例应用和代码片段,帮助开发者快速构建符合特定需求的对话系统。

Project Cover

智源研究院

探访智源研究院,了解悟道系列最新大模型技术,如悟道2.0与悟道3.0。致力于推进人工智能的领先技术和开源进程,网站提供丰富的研究成果、项目信息及最新动态,是研究者和开发者的理想交流平台。

Project Cover

GPTDiscord

GPT Discord是一款易用的Discord机器人,集成了OpenAI GPT-3技术,提供GPT聊天风格对话、图像生成功能、AI内容审查和自定义知识库等。它支持复杂的图像和代码理解、数据分析以及连接互联网的AI聊天,为Discord用户提供了一个功能丰富的交流平台。

Project Cover

transformers

探索🤗 Transformers——一个功能全面的机器学习库,覆盖文本、视觉与音频处理。该库提供数千种可对接JAX、PyTorch或TensorFlow的预训练模型,适用于多种语言处理与多模态任务。主要功能包括: - 文本分类 - 信息提取 - 问答系统 - 摘要生成 - 翻译 - 文本生成 此外,还能处理表格问答、OCR及视觉问答等多模态任务。Transformers库易于使用,支持模型间的快速切换与无缝整合。

Project Cover

LLMGA

LLMGA基于多模态大语言模型,提供图像生成与编辑解决方案。结合Stable Diffusion和详细语言生成提示,项目提升了上下文理解并减少生成过程中的噪音,增强图像内容的精度。LLMGA支持文本到图像(T2I)、补画、扩画及指令编辑,适用于Logo设计、海报制作和故事绘本生成,支持中英文指令。广泛的模型和数据集选择满足不同需求,是理想的图像生成和编辑助手。

Project Cover

modelfusion

ModelFusion是一个针对JavaScript和TypeScript应用的开源TypeScript库,支持AI模型的无缝集成。具备多模态能力、类型推断、响应验证,并为生产环境优化提供了观察性钩子、日志机制和自动重试功能,适合开发AI应用、聊天机器人和智能代理。

Project Cover

CVPR2024-Papers-with-Code-Demo

CVPR2024-Papers-with-Code-Demo项目整合了CVPR会议的最新论文和开源代码,覆盖机器学习、计算机视觉等多个领域,提供丰富的论文资源和代码链接。适合学者和开发者深入探讨和应用最新科研成果。

Project Cover

llms_paper

llms_paper是一个高级学术资源库,专注于顶会论文的记录与整理,涵盖多模态、PEFT、小样本QA问答等多个领域。该项目深入探讨了LLMs在医疗、法律等多个行业中智能问答系统的应用,并展示了LLMs在多模态交互及数据解析方面的有效性。为算法工程师和研究人员提供最新的研究成果与实用技术笔记,是深入LLMs领域的理想资源。

Project Cover

AppAgent

AppAgent是一种基于LLM的多模态智能代理框架,模仿人类点击和滑动操作来运行智能手机应用。框架通过自主探索或观察人类演示学习新操作,生成知识库以执行复杂任务。无需系统后端访问,适用性广泛。提供详细配置步骤、评估基准和使用案例,支持GPT-4V和通义千问-VL等多种模型。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号