#多模态预训练

ULIP - 多模态预训练框架实现3D数据理解
ULIP3D理解多模态预训练点云分类零样本分类Github开源项目
ULIP是一种多模态预训练框架,集成了语言、图像和点云数据以增强3D理解能力。该框架适用于多种3D骨干网络,如Pointnet2和PointBERT等,无需增加处理延迟。ULIP-2在此基础上进行了扩展,提高了预训练的可扩展性。项目开源了预训练模型、数据集和使用指南,为3D数据分析奠定了基础。
layoutlmv2-base-uncased - LayoutLMv2为文档理解带来突破性进展
视觉文档理解Huggingface自然语言处理模型多模态预训练GithubLayoutLMv2开源项目文档AI
LayoutLMv2是一种先进的多模态预训练模型,整合了文本、版面布局和图像信息,专门用于文档智能处理。该模型在FUNSD、CORD、SROIE等多个文档理解任务中创下新纪录,显著优于现有方法。通过创新的预训练任务,LayoutLMv2有效捕捉了文本、布局和图像之间的复杂关系,大幅提升了对富视觉信息文档的理解能力。作为文档AI领域的重要突破,LayoutLMv2为各类文档智能应用奠定了坚实基础。
layoutlmv3-base - 多模态文档AI预训练模型
文本图像掩码HuggingfaceDocument AI模型Github开源项目多模态预训练LayoutLMv3文档人工智能
LayoutLMv3是一款文档AI预训练模型,采用统一的文本和图像掩码方法。该模型架构简单,训练目标明确,适用于多种文档AI任务。通过微调,LayoutLMv3可用于表单理解、收据识别、文档问答等文本相关任务,以及文档图像分类、文档布局分析等图像相关任务。作为通用预训练模型,LayoutLMv3在文档AI领域的多项任务中表现出色。
LanguageBind_Video_merge - 实现多模态与语言的语义对齐
模型多模态预训练LanguageBind开源项目Huggingface应急零样本GithubVIDAL-10M视频语言
LanguageBind项目提出一种基于语言的多模态预训练方法,通过语言对齐视频、红外、深度、音频等多种模态。该方法无需中间模态,性能优异。项目构建了VIDAL-10M数据集,包含1000万条多模态数据及对应语言描述。通过多视角增强和ChatGPT优化的语言描述,为各模态创建了语义空间。该方法在多个数据集上达到了最先进水平。
LanguageBind_Audio_FT - LanguageBind:跨模态语义对齐的音频预训练模型
Huggingface模型视频语言Github开源项目多模态预训练LanguageBindVIDAL-10MICLR 2024
LanguageBind_Audio_FT是一个基于语言中心方法的音频预训练模型,通过语义对齐实现音频与语言的跨模态理解。该模型在VIDAL-10M数据集上训练,采用多视角增强的语言描述,无需中间模态即可实现高性能。在5个音频-语言数据集上,LanguageBind_Audio_FT展现了优秀的跨模态理解能力,达到了领先水平。
layoutxlm-base - 跨语言文档智能分析的多模态预训练技术
跨语言理解文档AILayoutXLM视觉文档理解多模态预训练HuggingfaceGithub开源项目模型
LayoutXLM作为LayoutLMv2的语言扩展版本,整合文本、布局和图像信息,实现文档智能处理。这个预训练模型专注于解决视觉文档理解中的语言障碍,经XFUND数据集测试,在跨语言文档处理任务中展现出优异性能。
markuplm-base - 结合文本与标记语言的文档理解预训练模型
Github模型MarkupLM文档AI信息提取开源项目网页问答Huggingface多模态预训练
MarkupLM是一个文本和标记语言的多模态预训练模型,主要应用于网页问答和信息提取等文档理解任务。通过简单高效的预训练方法,该模型在多个文档理解数据集上取得了领先成果,为文档智能处理提供了新的技术方案。
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号