multi-hmr

单次处理实现多人全身3D人体网格重建

人体网格重建多人检测计算机视觉深度学习 Multi-HMR Github 开源项目

Multi-HMR是一种高效的单次处理模型，用于多人全身人体网格重建。该模型仅需一张RGB图像输入，即可在相机空间中重建多个人的3D模型。项目在BEDLAM、EHF等多个数据集上实现了领先性能，并提供预训练模型和演示代码，可应用于图像中的多人3D重建任务。

文档

M3D - 推动3D医学图像分析的多模态大语言模型

3D医学图像分析AI医疗GithubM3D医学数据集多模态大语言模型开源项目

M3D是首个针对3D医学分析的多模态大语言模型系列。项目包含最大规模开源3D医学数据集M3D-Data、多任务能力模型M3D-LaMed和全面评估基准M3D-Bench。M3D在图像-文本检索、报告生成、视觉问答、定位和分割等任务中表现优异，为3D医学图像分析领域提供了新的研究方向。

multimodal-garment-designer - 利用多模态潜变量扩散模型进行人类为中心的时尚图像编辑

Dress CodeGithubMultimodal Garment DesignerVITON-HD开源项目时尚图像编辑潜在扩散模型

本项目通过多模态条件时尚图像编辑，优化服装设计流程，生成符合文本、人体姿势和服装草图等多种输入模态的时尚图像。采用的新架构基于潜变量扩散模型，并且扩展了Dress Code和VITON-HD数据集，实验结果显示该方法在图像现实性和输入一致性方面效果显著。更多详情请参阅官方文档及GitHub仓库。

OnePose_Plus_Plus - 关键点自由的单次目标姿态估计方法

3D重建GithubOnePose++开源项目物体姿态估计神经网络计算机视觉

OnePose++是一种目标姿态估计方法，无需CAD模型和预定义关键点。该方法通过结构光重建和深度学习，实现单次拍摄即可估计物体姿态。项目提供训练、推理和演示代码，支持OnePose和OnePose_LowTexture数据集，可扩展至LINEMOD数据集。OnePose++在计算机视觉和机器人领域有潜在应用价值。

SparseBEV - 多摄像头视频中的高性能稀疏3D目标检测技术

GithubICCV 2023PyTorchSparseBEVnuScenes开源项目立体检测

SparseBEV利用多摄像头视频实现高性能稀疏3D目标检测，得到ICCV 2023的认可，并提供PyTorch实现、训练和评估指南。新发布的SparseOcc展示了全稀疏架构支持多种预训练权重和配置文件。用户可使用提供的代码进行可视化和模型优化，实现高效3D检测。兼容不同版本的PyTorch和CUDA，表现卓越。

PointLLM - 多模态大语言模型理解点云数据的突破性进展

3D点云GithubPointLLM多模态大语言模型开源项目计算机视觉

PointLLM是一个创新的多模态大语言模型，可理解物体的彩色点云数据。该模型能够感知物体类型、几何结构和外观，而不受深度模糊、遮挡或视角依赖等问题影响。项目团队收集了包含660K简单和70K复杂点云-文本指令对的数据集，并采用两阶段训练策略。为评估模型的感知和泛化能力，研究人员建立了生成式3D物体分类和3D物体描述两个基准，并使用三种评估方法进行测试。

mvsplat - 从稀疏多视角图像高效重建3D场景

3D Gaussian SplattingGithubMVSplat多视图图像开源项目神经渲染计算机视觉

MVSplat是一种基于3D高斯分布渲染的多视角图像重建技术。该项目利用深度学习和计算机视觉方法，从稀疏的多视角图像高效重建3D场景并实现新视角渲染。MVSplat在RealEstate10K和ACID数据集上表现优异，并具有良好的跨数据集泛化能力。项目提供了安装指南、预训练模型和评估代码，便于研究人员进行复现和改进。

3DModelingRL - 深度强化学习在3D建模中的应用与突破

3D建模ECCV 2020GithubPyTorch开源项目强化学习计算机视觉

3DModelingRL项目展示了一种创新的3D建模方法,利用深度强化学习模拟人类建模过程。项目包含Prim-Agent和Mesh-Agent两个核心组件,分别用于生成基于图元的表示和编辑网格。该方法在ECCV 2020会议发表,为3D建模领域开辟新方向。项目提供完整代码、预训练模型和数据集,便于研究者进一步探索和应用。

sewformer - 从单一图像重建服装缝纫模式的创新方法

GithubSIGGRAPH AsiaSewformer单图像重建开源项目服装缝纫模式重建深度学习

Sewformer项目开发了一种从单张图像重建服装缝纫模式的方法。通过深度学习技术，实现2D服装图像到3D缝纫模式的转换。这一技术为服装设计、制造、虚拟试衣和个性化定制带来新的可能。项目开源了代码、预训练模型和数据集，方便研究者进行进一步探索和应用。

HorNet - 基于递归门控卷积的高效视觉骨干网络

GithubHorNetImageNetPyTorchRecursive Gated Convolution开源项目高阶空间交互

HorNet是一个基于递归门控卷积的视觉骨干网络家族，专注于高效的高阶空间交互。项目提供了多个在ImageNet数据集上训练和评估的模型，如HorNet-T、HorNet-S和HorNet-B，广泛应用于图像分类和点云理解等领域。项目页面提供详细的训练和评估说明及模型下载链接。HorNet在提升图像和3D对象分类精度方面表现优异，是计算机视觉研究中的重要工具。

murf - 多基线辐射场技术革新三维场景重建

3D重建CVPR 2024GithubMuRF多基线辐射场开源项目计算机视觉

MuRF是一种新型多基线辐射场技术，支持多种基线设置，在各类评估条件下表现卓越。该项目在三维场景重建领域取得突破，推动了计算机视觉和图形学的发展。MuRF在DTU、RealEstate10K和LLFF等数据集上展现出优异性能，为相关研究和应用提供了新思路。

相关项目

推荐项目

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com