#深度感知

CVPR2022-DaGAN - 基于深度感知的说话头像视频生成技术
DaGAN人工智能视频生成深度感知对抗生成网络Github开源项目
DaGAN是一种新型深度感知生成对抗网络,旨在生成高质量的说话头像视频。该方法利用面部深度信息提升生成效果,可适用于卡通和真人头像。在VoxCeleb1数据集上,DaGAN展现出优异性能。项目开源了预训练模型、在线演示和训练代码,便于研究复现。作为CVPR 2022的成果,DaGAN代表了说话头像生成领域的重要进展。
zed-unity - ZED Unity插件整合先进立体视觉功能
ZED Unity PluginUnity开发相机功能AR/MR深度感知Github开源项目
ZED Unity插件集成了多项先进立体视觉功能,如人体追踪、AR/MR、点云和物体检测。插件支持各种ZED相机,并与CUDA GPU和主流VR头显兼容。通过丰富的示例场景和预制体,开发者可以轻松将复杂的计算机视觉功能整合到Unity项目中。该插件适用于创建AR体验和开发3D感知应用,为Unity开发者提供了强大而灵活的工具。
t2i-adapter-depth-midas-sdxl-1.0 - Stable Diffusion与MiDaS深度估计的协作创新
模型训练T2I AdapterHuggingfaceGithub开源项目稳定扩散模型图像生成深度感知
T2I Adapter通过MiDaS深度估计增强StableDiffusionXL的文本到图像转换功能,此项目由腾讯ARC与Hugging Face合作开发。适用于注重图像深度的艺术生成应用,T2I-Adapter-SDXL支持高达2.6亿参数,专为追求图像精细控制的开发者与艺术创作者设计。
depth_anything_vits14 - 大规模无标签数据训练的开源深度估计工具
图像处理计算机视觉开源项目模型深度估计Depth Anything深度感知GithubHuggingface
Depth Anything是一个基于ViT-L/14架构的深度估计模型,通过大规模无标签数据训练。模型提供Python接口,支持518x518分辨率的图像深度估计,具备良好的泛化能力。采用模块化设计,支持自定义图像预处理和批量处理功能,可集成到现有项目中。研究人员和开发者可通过Hugging Face平台快速部署使用。