#多模态

SAT考试全解析:美国大学入学考试的权威指南

3 个月前
Cover of SAT考试全解析:美国大学入学考试的权威指南

Video-ChatGPT: 开创视频对话新纪元的人工智能模型

3 个月前
Cover of Video-ChatGPT: 开创视频对话新纪元的人工智能模型

BakLLaVA: 多模态视觉语言模型的创新与突破

3 个月前
Cover of BakLLaVA: 多模态视觉语言模型的创新与突破

大型OCR模型的扩展法则研究及其在多模态大模型中的应用

3 个月前
Cover of 大型OCR模型的扩展法则研究及其在多模态大模型中的应用

AGI调查报告:人工通用智能的现状与未来

3 个月前
Cover of AGI调查报告:人工通用智能的现状与未来

MindOne: 革新性的人工智能开源项目

3 个月前
Cover of MindOne: 革新性的人工智能开源项目

ConsistentID: 多模态细粒度身份保持的人像生成技术

3 个月前
Cover of ConsistentID: 多模态细粒度身份保持的人像生成技术

Apple ML-MGIE: 革命性的指令驱动图像编辑AI模型

3 个月前
Cover of Apple ML-MGIE: 革命性的指令驱动图像编辑AI模型

基于大语言模型的视频理解技术研究进展

3 个月前
Cover of 基于大语言模型的视频理解技术研究进展

Computer Vision in the Wild: 开启计算机视觉的新纪元

3 个月前
Cover of Computer Vision in the Wild: 开启计算机视觉的新纪元
相关项目
Project Cover

pipecat

pipecat是一个灵活的框架,用于构建语音和多模态对话代理,适用于个人教练、会议助手、故事讲述玩具、客户支持机器人等应用。通过简单的安装和设置,代理进程可以在本地或云端运行,并支持多种第三方AI服务和传输方式。提供丰富的示例应用和代码片段,帮助开发者快速构建符合特定需求的对话系统。

Project Cover

智源研究院

探访智源研究院,了解悟道系列最新大模型技术,如悟道2.0与悟道3.0。致力于推进人工智能的领先技术和开源进程,网站提供丰富的研究成果、项目信息及最新动态,是研究者和开发者的理想交流平台。

Project Cover

GPTDiscord

GPT Discord是一款易用的Discord机器人,集成了OpenAI GPT-3技术,提供GPT聊天风格对话、图像生成功能、AI内容审查和自定义知识库等。它支持复杂的图像和代码理解、数据分析以及连接互联网的AI聊天,为Discord用户提供了一个功能丰富的交流平台。

Project Cover

transformers

探索🤗 Transformers——一个功能全面的机器学习库,覆盖文本、视觉与音频处理。该库提供数千种可对接JAX、PyTorch或TensorFlow的预训练模型,适用于多种语言处理与多模态任务。主要功能包括: - 文本分类 - 信息提取 - 问答系统 - 摘要生成 - 翻译 - 文本生成 此外,还能处理表格问答、OCR及视觉问答等多模态任务。Transformers库易于使用,支持模型间的快速切换与无缝整合。

Project Cover

LLMGA

LLMGA基于多模态大语言模型,提供图像生成与编辑解决方案。结合Stable Diffusion和详细语言生成提示,项目提升了上下文理解并减少生成过程中的噪音,增强图像内容的精度。LLMGA支持文本到图像(T2I)、补画、扩画及指令编辑,适用于Logo设计、海报制作和故事绘本生成,支持中英文指令。广泛的模型和数据集选择满足不同需求,是理想的图像生成和编辑助手。

Project Cover

modelfusion

ModelFusion是一个针对JavaScript和TypeScript应用的开源TypeScript库,支持AI模型的无缝集成。具备多模态能力、类型推断、响应验证,并为生产环境优化提供了观察性钩子、日志机制和自动重试功能,适合开发AI应用、聊天机器人和智能代理。

Project Cover

CVPR2024-Papers-with-Code-Demo

CVPR2024-Papers-with-Code-Demo项目整合了CVPR会议的最新论文和开源代码,覆盖机器学习、计算机视觉等多个领域,提供丰富的论文资源和代码链接。适合学者和开发者深入探讨和应用最新科研成果。

Project Cover

llms_paper

llms_paper是一个高级学术资源库,专注于顶会论文的记录与整理,涵盖多模态、PEFT、小样本QA问答等多个领域。该项目深入探讨了LLMs在医疗、法律等多个行业中智能问答系统的应用,并展示了LLMs在多模态交互及数据解析方面的有效性。为算法工程师和研究人员提供最新的研究成果与实用技术笔记,是深入LLMs领域的理想资源。

Project Cover

AppAgent

AppAgent是一种基于LLM的多模态智能代理框架,模仿人类点击和滑动操作来运行智能手机应用。框架通过自主探索或观察人类演示学习新操作,生成知识库以执行复杂任务。无需系统后端访问,适用性广泛。提供详细配置步骤、评估基准和使用案例,支持GPT-4V和通义千问-VL等多种模型。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号