#多模态

pipecat - 开发多模态对话代理的灵活框架
PipecatAI语音助手多模态聊天机器人Github开源项目
pipecat是一个灵活的框架,用于构建语音和多模态对话代理,适用于个人教练、会议助手、故事讲述玩具、客户支持机器人等应用。通过简单的安装和设置,代理进程可以在本地或云端运行,并支持多种第三方AI服务和传输方式。提供丰富的示例应用和代码片段,帮助开发者快速构建符合特定需求的对话系统。
智源研究院 - 探索智源研究院的悟道大模型最新进展
热门AI开发模型训练AI工具智源研究院悟道大模型人工智能技术开源多模态
探访智源研究院,了解悟道系列最新大模型技术,如悟道2.0与悟道3.0。致力于推进人工智能的领先技术和开源进程,网站提供丰富的研究成果、项目信息及最新动态,是研究者和开发者的理想交流平台。
GPTDiscord - 为Discord量身定制的全面GPT-3集成平台
GPTDiscord多模态AI监控代码解释网联聊天Github开源项目
GPT Discord是一款易用的Discord机器人,集成了OpenAI GPT-3技术,提供GPT聊天风格对话、图像生成功能、AI内容审查和自定义知识库等。它支持复杂的图像和代码理解、数据分析以及连接互联网的AI聊天,为Discord用户提供了一个功能丰富的交流平台。
transformers - 机器学习库,覆盖文本、视觉与音频处理
Hugging Face人工智能自然语言处理机器学习多模态Github开源项目
探索🤗 Transformers——一个功能全面的机器学习库,覆盖文本、视觉与音频处理。该库提供数千种可对接JAX、PyTorch或TensorFlow的预训练模型,适用于多种语言处理与多模态任务。主要功能包括: - 文本分类 - 信息提取 - 问答系统 - 摘要生成 - 翻译 - 文本生成 此外,还能处理表格问答、OCR及视觉问答等多模态任务。Transformers库易于使用,支持模型间的快速切换与无缝整合。
LLMGA - 用于精确图像生成和编辑的多模态大语言模型
LLMGA大模型图像生成ECCV2024多模态Github开源项目
LLMGA基于多模态大语言模型,提供图像生成与编辑解决方案。结合Stable Diffusion和详细语言生成提示,项目提升了上下文理解并减少生成过程中的噪音,增强图像内容的精度。LLMGA支持文本到图像(T2I)、补画、扩画及指令编辑,适用于Logo设计、海报制作和故事绘本生成,支持中英文指令。广泛的模型和数据集选择满足不同需求,是理想的图像生成和编辑助手。
modelfusion - 集成AI模型到JavaScript和TypeScript应用的先进库
ModelFusionAI应用TypeScript库文本生成多模态Github开源项目
ModelFusion是一个针对JavaScript和TypeScript应用的开源TypeScript库,支持AI模型的无缝集成。具备多模态能力、类型推断、响应验证,并为生产环境优化提供了观察性钩子、日志机制和自动重试功能,适合开发AI应用、聊天机器人和智能代理。
CVPR2024-Papers-with-Code-Demo - 最新CVPR论文及其代码全面解析
CVPR 2024论文Diffusion Model知识蒸馏多模态Github开源项目
CVPR2024-Papers-with-Code-Demo项目整合了CVPR会议的最新论文和开源代码,覆盖机器学习、计算机视觉等多个领域,提供丰富的论文资源和代码链接。适合学者和开发者深入探讨和应用最新科研成果。
llms_paper - 一个专注于顶会论文的记录与整理,涵盖多模态、PEFT等多个领域的高级学术资源库
LLMs多模态NLP推荐系统搜索引擎Github开源项目
llms_paper是一个高级学术资源库,专注于顶会论文的记录与整理,涵盖多模态、PEFT、小样本QA问答等多个领域。该项目深入探讨了LLMs在医疗、法律等多个行业中智能问答系统的应用,并展示了LLMs在多模态交互及数据解析方面的有效性。为算法工程师和研究人员提供最新的研究成果与实用技术笔记,是深入LLMs领域的理想资源。
LISA - 通过大型语言模型进行推理分割的技术
LISA分割掩码大语言模型推理分割多模态Github开源项目
LISA凭借其多模态大型语言模型,开创推理分割任务,能够将复杂文本问题转化为精准的图像分割结果。该项目不仅包含超千个图像指令对、综合推理及世界知识评估,还展示出在无需推理的数据集训练下的强大零样本能力。推理训练图片指令对的引入进一步强化了其性能。详情请参阅相关论文。
storyteller - 多模态AI故事生成器
StoryTeller人工智能多模态故事生成自然语言处理Github开源项目
StoryTeller集成了GPT-3、Stable Diffusion和神经TTS技术,实现从文本生成到图像绘制再到声音合成的生动故事创造过程。适用于快速内容创作、教育娱乐等多场景。支持命令行和Python接口,可自定义参数。
agentchain - 使用大型语言模型(LLM)来规划和编排多个代理,或使用大型模型(LM)来完成复杂的任务。
AgentChain多模态大型语言模型任务编排交互代理Github开源项目
AgentChain采用先进的的大型语言模型,提供基于自然语言输入的规划与决策能力,支持文本、图像、音频和表格数据等多模态输入输出。其智能系统能够协调多个agent执行复杂任务,适用于计算机视觉、语音识别等数据处理工作,并可定制以满足各类项目需求,从自动化生成旅游图片到金融分析报告。此外,AgentChain还能通过Twilio等平台实现邮件发送和电话通知等通信任务。
TencentPretrain - 多模态预训练和微调框架,支持文本、视觉与音频数据
TencentPretrain预训练多模态模型库下游任务Github开源项目
腾讯开发的多模态预训练框架TencentPretrain,专为文本、视觉和音频数据设计,具有高效的模块化设计,便于使用现有预训练模型并提供扩展接口。支持CPU、单GPU及分布式训练模式,拥有丰富的预训练模型,适用于如分类、机器阅读理解等多种下游任务,在多个竞赛中表现优异。详见完整文档及快速入门指南。
BLIVA - 处理文本视觉问题的多模态LLM
BLIVA多模态文本富媒体视觉问答机器学习Github开源项目
BLIVA是一款简单有效的多模态大语言模型,专门处理富文本视觉问题。其在多个视觉问答基准中表现出色,并公开了模型权重和训练代码。结合FlanT5和Vicuna版本,BLIVA适用于多种商业用途并提升认知和感知任务性能。演示和安装教程也非常详细。
wit - 全球最大多语言多模态数据集,助力机器学习模型优化
WIT数据集多模态机器学习WikipediaGithub开源项目
Wikipedia-based Image Text (WIT) 数据集包括3760万张图片与文本对,涵盖108种语言和1150万独特图片。该数据集旨在支持多模态机器学习模型的训练,特别是在多语言环境下的有效性已得到广泛验证。WIT数据集获得了WikiMedia基金会的年度研究奖,并且现已开放下载,为研究人员和开发者提供了宝贵的资源和支持。
AI-Catalog - AI工具和平台集合,涵盖图像生成、文本总结、代码辅助等功能
AI-CatalogAI工具图片生成总结工具多模态Github开源项目
本目录包含各种AI工具和平台,涵盖图像生成、文本总结、代码辅助等功能,适合创作者、开发者和教育者使用。工具列表持续更新,并接受新模型的拉取请求,确保项目的多样性和最新性。
OpenAI-CLIP - 从零开始实现CLIP模型:探索文本与图像的多模态关联
CLIP多模态图像编码器文本编码器OpenAIGithub开源项目
本项目实现了CLIP模型,基于PyTorch进行开发,通过训练文本和图像数据,探索其相互关系。详细的代码指南和实用工具展示了模型在自然语言监督任务中的表现和实际应用,适合多模态学习的研究者和开发者使用。
generate - 多平台生成模型访问的统一Python工具
GeneratePython包生成式模型文本生成多模态Github开源项目
Generate 是一个Python包,通过统一的API访问多个生成模型平台,支持文本、多模态、结构体、图像和语音生成。支持OpenAI、Azure等国内外平台,适用于异步、流式和并发调用,满足不同应用场景。用户无需关心平台差异即可享受高效统一的接口封装。
Transformer-in-Vision - 深入探索Transformer在计算机视觉领域的最新研究与资源
Transformer-in-VisionAI模型计算机视觉ChatGPT多模态Github开源项目
本页面收录并介绍了最新的基于Transformer的计算机视觉研究和相关资源,内容涵盖机器人应用、视频生成、文本-图像检索、多模态预训练模型等领域。用户可访问开源代码和论文链接,如ChatGPT在机器人领域的应用、DIFFUSIONDB、LAION-5B、LAVIS、Imagen Video和Phenaki等。页面会不定期更新,提供Transformer在视觉领域应用的全面信息和资源汇总。
Gemini - Gemini多模态变换器,支持图像和音频解析
Gemini多模态Transformer图像嵌入音频处理Github开源项目
Gemini项目实现了一个可处理文本、音频、图像和视频输入的多模态变换器,具备特殊解码功能来生成图像。其架构类似于Fuyu,但扩展至多种模态,并通过直接将图像嵌入输入变换器来处理。组件Codi也采用条件生成策略,初步实现图像嵌入,后续将集成音频和视频嵌入。
LLaVA-Plus-Codebase - 多模态智能助手的工具使用与学习指南
LLaVA-PlusLLaVAVicuna多模态视觉助手Github开源项目
该项目介绍了LLaVA-Plus如何提升大语言和视觉助手的工具使用能力。通过代码示例、安装说明和使用指南,用户可以快速掌握运行和训练LLaVA-Plus模型的方法,并进行推理和评估。该项目适用于需要结合视觉任务和语言模型的研究人员和开发者,提供了多个知名工具的整合与使用说明,帮助用户全面了解和应用这些工具执行多模态任务。
EmbodiedScan - 全面多模态3D感知套件,提高具身AI的理解能力
EmbodiedScanMMScan3D感知多模态深度学习Github开源项目
EmbodiedScan及其系列如MMScan是专为多模态3D感知设计的开放数据集与基准,用于深入理解第一人称3D场景。包含超过5000次扫描、100万RGB-D视图、语言提示和160k 3D定向框。基于此数据库的Embodied Perceptron展示了在3D感知和语言定位中的优秀表现,适用于计算机视觉和机器人领域。通过我们的演示和基准测试,了解详细信息和应用案例。
fromage - 支持多模态输入输出的语言模型
FROMAGe模型预训练图像检索多模态Github开源项目
该页面介绍了FROMAGe项目,为其多模态输入输出任务提供代码和模型权重。包含详细的设置指南、预训练检查点、图像检索预计算嵌入、推理和训练示例以及评估脚本。研究人员可使用这些资源在视觉故事讲述和对话生成等任务中实现突破。欢迎访问项目主页和在线演示参与讨论。
OFA - 多任务优化的跨模态序列到序列预训练模型
OFA预训练模型多模态图像字幕文本生成Github开源项目
OFA是一个支持中文和英文的序列到序列预训练模型,整合了跨模态、视觉和语言任务,支持微调和提示调优。其应用包括图像描述、视觉问答、视觉定位、文本生成和图像分类等。项目提供了详细的预训练和微调步骤、检查点和代码示例,以及在Hugging Face和ModelScope上的在线演示和Colab笔记本下载。欢迎社区参与改进和开发。
Otter - 基于MIMIC-IT数据集和OpenFlamingo的多模态模型
OtterMIMIC-IT多模态指令微调视觉语言处理Github开源项目
该项目结合了OpenFlamingo模型和MIMIC-IT数据集进行多模态指令调优,拥有280万条指令-响应对,支持图像和视频内容的精确理解与互动。该项目还包括OtterHD模型,提升高分辨率视觉输入的细粒度解释,并推出MagnifierBench评估基准测试模型的微小物体识别能力。公开的代码可用于训练和预训练,并支持GPT4V的评估和Flamingo架构的多任务处理。
SEED - 融合视觉与语言的多模态AI框架
SEED-LLaMA多模态AI助手视觉语言模型大语言模型Github开源项目
SEED是一个创新的多模态AI框架,通过视觉分词器和去分词器,赋予大语言模型视觉理解和生成能力。该系统支持多模态理解与生成,展现出多轮上下文多模态生成等组合能力。基于SEED开发的SEED-LLaMA在广泛的多模态任务中表现优异,为AI领域开辟了新的研究方向。
MM-Interleaved - 创新交错图文生成模型
MM-Interleaved生成模型多模态图像文本预训练Github开源项目
MM-Interleaved是一种新型交错图文生成模型,采用创新的多模态特征同步器MMFS。它能分析高分辨率图像的多尺度特征,生成精确文本描述和匹配图像。该模型在多模态理解和生成任务中表现出色,可适用于多种应用场景。
VILA - 创新的视觉语言模型预训练方法
VILA视觉语言模型预训练多模态量化Github开源项目
VILA是一种新型视觉语言模型,采用大规模交错图像-文本数据预训练,增强了视频和多图像理解能力。通过AWQ 4位量化和TinyChat框架,VILA可部署到边缘设备。该模型在视频推理、上下文学习和视觉思维链等方面表现出色,并在多项基准测试中获得了优异成绩。项目完全开源,包括训练和评估代码、数据集以及模型检查点。
recognize-anything - 通用图像识别模型:支持开放域类别和高精度标签生成
RAM++图像识别开源模型零样本学习多模态Github开源项目
Recognize Anything Model是一系列开源图像识别模型,包括RAM++、RAM和Tag2Text。这些模型能准确识别常见和开放域类别,支持高精度图像标签生成和全面描述。项目提供预训练模型、推理代码和训练数据集,适用于多种计算机视觉任务。模型性能优于现有先进方案,尤其在零样本识别方面表现突出。
Video-LLaVA - 统一视觉表示学习的新方法 增强跨模态交互能力
Video-LLaVA视觉语言模型多模态视频理解图像理解Github开源项目
Video-LLaVA项目提出了一种新的对齐方法,实现图像和视频统一视觉表示的学习。该模型在无图像-视频配对数据的情况下,展现出色的跨模态交互能力,同时提升图像和视频理解性能。研究显示多模态学习的互补性明显改善了模型在各类视觉任务上的表现,为视觉-语言模型开发提供新思路。
Lumina-mGPT - 多模态AI模型实现文本到图像的灵活生成
Lumina-mGPT多模态图像生成自回归模型人工智能Github开源项目
Lumina-mGPT是一个多模态自回归模型系列,适用于多种视觉和语言任务。这个开源项目特别擅长将文本描述转化为逼真图像,提供7B和34B两种参数规模的模型,以及多种图像分辨率选项。除图像生成外,Lumina-mGPT还支持图像理解和全能型任务,为AI研究和应用开发提供了灵活的工具。
VideoLLaMA2 - 增强视频理解的多模态语言模型
VideoLLaMA2视频理解大语言模型多模态AIGithub开源项目
VideoLLaMA2是一款先进的视频语言模型,通过增强空间-时间建模和音频理解能力,提高了视频问答和描述任务的性能。该模型在零样本视频问答等多项基准测试中表现出色。VideoLLaMA2能处理长视频序列并理解复杂视听内容,为视频理解技术带来新进展。
LLaMA2-Accessory - 全方位开源工具助力大规模语言与多模态模型研发
LLaMA2-Accessory大语言模型多模态预训练微调Github开源项目
LLaMA2-Accessory是一个全面的开源工具包,专注于大规模语言模型和多模态语言模型的开发。该工具支持预训练、微调和部署,涵盖多种数据集和任务类型。工具包提供高效的优化和部署方法,并兼容多种视觉编码器和语言模型。其中还包含SPHINX,这是一个融合多种训练任务、数据领域和视觉嵌入的多功能多模态大型语言模型。
Youku-mPLUG - 千万级中文视频语言数据集及多模态基准
Youku-mPLUG视频语言数据集预训练模型多模态基准测试Github开源项目
Youku-mPLUG是一个包含1000万条中文视频-语言数据的大规模数据集,源自优酷平台。数据涵盖20个超级类别和45个类别,经严格筛选确保质量。项目提供三个多模态视频基准数据集,用于评估模型在分类、检索和描述任务上的表现。研究团队基于GPT-3和BloomZ-7B开发的mPLUG-Video模型展现了出色的零样本学习能力。
Segment-Everything-Everywhere-All-At-Once - 基于多模态提示的图像分割模型
SEEM分割多模态交互式图像处理Github开源项目
SEEM是一种新型图像分割模型,支持多种交互方式如点击、框选、涂鸦、文本和音频提示。该模型可接受任意组合的提示输入,精确分割图像中的目标对象并赋予语义标签。SEEM采用统一架构,具备多模态交互、语义理解和泛化能力,为图像分割任务提供了灵活通用的解决方案。
LLaMA-VID - 支持长视频处理的多模态大语言模型
LLaMA-VID大语言模型视觉语言模型多模态视频理解Github开源项目
LLaMA-VID是一个新型多模态大语言模型,可处理长达数小时的视频。它通过增加上下文令牌扩展了现有框架的能力,采用编码器-解码器结构和定制令牌生成策略,实现对图像和视频的高效理解。该项目开源了完整的模型、数据集和代码,为视觉语言模型研究提供了有力工具。
AppAgent - 智能代理框架简化智能手机应用操作
AppAgent多模态智能手机应用GPT-4V探索学习Github开源项目
AppAgent是一种基于LLM的多模态智能代理框架,模仿人类点击和滑动操作来运行智能手机应用。框架通过自主探索或观察人类演示学习新操作,生成知识库以执行复杂任务。无需系统后端访问,适用性广泛。提供详细配置步骤、评估基准和使用案例,支持GPT-4V和通义千问-VL等多种模型。