#多模态融合
相关项目
awesome-multimodal-ml
awesome-multimodal-ml项目是多模态机器学习的综合资源库,集成了最新研究、详细教程和定期更新。它涵盖了语音、视觉、文本的深度融合技术,为学者和开发者提供一站式信息获取和学习平台,助力多模态学习研究的深入发展。
Awesome-Graph-Prompt
Awesome-Graph-Prompt是一个关于图神经网络提示学习的精选资源集合。它汇总了GNN提示、多模态图提示、图域适应等领域的最新研究论文,同时收录了相关开源代码、基准测试和数据集。该项目为图提示学习研究提供了全面的参考资料,有助于推动图神经网络在各类下游任务中的应用。
3D-VisTA
3D-VisTA是一种新型预训练变换器模型,专注于3D视觉和文本对齐。该模型采用简洁统一的架构,无需复杂的任务特定设计,可轻松适应多种下游任务。通过在大规模ScanScribe数据集上预训练,3D-VisTA在视觉定位、密集字幕生成等3D视觉语言理解任务中达到了领先水平。此外,该模型还表现出优异的数据效率,即使在标注数据有限的情况下也能保持强劲性能。