Project Icon

DSINE

创新表面法线估计技术提高精度和适应性

DSINE项目开发了创新的表面法线估计算法,通过分析像素光线方向和相邻法线关系,实现了对复杂真实图像的精确预测。该方法在小规模数据集训练条件下,展现出优于ViT模型的泛化能力。DSINE可适应多种分辨率和纵横比的图像,为计算机视觉领域提供了高精度的表面法线估计解决方案。

DiverseShot AI - AI驱动的视频到3D高斯分布点云模型转换工具
3D重建AI工具Gaussian SplattingSpline点云视频处理
DiverseShot AI是一款专业的视频转3D高斯分布点云模型工具。它通过三步简化流程:多角度拍摄、AI训练处理、导出上传,将普通视频转化为浏览器可访问的逼真3D场景。该工具无需编码技能,为创作者提供了将日常视频转换为交互式3D内容的创新方法,适用于在线展示和虚拟现实等多种应用场景。用户可以轻松将现实世界的物体转化为沉浸式的3D体验,为各种在线展示和虚拟现实应用创造独特的视觉效果。
UniDepth - 单目深度测量的通用算法,兼容多种数据集
CVPR 2024GithubHugging FacePython包UniDepth开源项目深度估计
UniDepth项目提出了通用的单目深度测量方法,支持多个数据集如NYUv2、KITTI和SUN-RGBD。通过训练模型,该方法可直接从RGB图像生成深度和内参预测,无需预先深度数据。其高精度、低延迟的推理能力在多个基准测试中表现优秀。支持多种输入形状和比例,适合机器人视觉和自动驾驶等应用。
6DRepNet - 全范围无约束头部姿态估计方法
6DRepNetGithub头部姿态估计开源项目旋转矩阵深度学习计算机视觉
6DRepNet是一种创新的头部姿态估计方法,采用6D旋转矩阵表示和测地线距离损失函数。该方法能学习完整的旋转外观,实现无约束全范围头部姿态预测。在AFLW2000和BIWI数据集上,6DRepNet显著优于现有方法,平均角度误差降低20%。项目提供pip安装包,支持实时摄像头演示。
GroundingDINO - 语言驱动的开放集目标检测模型
GithubGrounding DINO开放集检测开源项目目标检测计算机视觉语言指导
GroundingDINO是一个基于语言的开放集目标检测模型,能够检测图像中的任意物体。该模型在COCO数据集上实现了零样本52.5 AP和微调后63.0 AP的性能。GroundingDINO支持CPU模式,可与Stable Diffusion等模型集成用于图像编辑,还能与SAM结合实现分割功能。此外,项目提供了丰富的演示和教程资源,为开放世界目标检测领域带来了新的解决方案。
MDT - MDTv2图像合成模型:更快收敛和卓越性能
GithubMasked Diffusion Transformer人工智能图像合成开源项目深度学习计算机视觉
MDTv2是一种先进的深度学习图像合成模型,在ImageNet数据集上实现了1.58的FID分数,创造新的业界标准。该模型采用掩码潜在建模技术,提高了图像语义理解能力,学习速度比先前模型快10倍以上。MDTv2在图像生成质量和训练效率方面都有显著提升,为计算机视觉和人工智能领域带来了新的可能性。
Free3D - 基于单视图的一致性多视角图像合成技术
3D生成Free3DGithub单视图重建开源项目新视角合成计算机视觉
Free3D是牛津大学VGG实验室开发的新型计算机视觉技术,可从单一图像生成一致性的多视角合成图,无需显式3D表示。该技术采用射线条件归一化和伪3D注意力机制,在Objaverse等多个数据集上展现优异性能。Free3D为计算机视觉和图形学领域提供了新的研究方向,有望应用于3D重建、虚拟现实等多个领域。
OnePose_Plus_Plus - 关键点自由的单次目标姿态估计方法
3D重建GithubOnePose++开源项目物体姿态估计神经网络计算机视觉
OnePose++是一种目标姿态估计方法,无需CAD模型和预定义关键点。该方法通过结构光重建和深度学习,实现单次拍摄即可估计物体姿态。项目提供训练、推理和演示代码,支持OnePose和OnePose_LowTexture数据集,可扩展至LINEMOD数据集。OnePose++在计算机视觉和机器人领域有潜在应用价值。
mvsplat - 从稀疏多视角图像高效重建3D场景
3D Gaussian SplattingGithubMVSplat多视图图像开源项目神经渲染计算机视觉
MVSplat是一种基于3D高斯分布渲染的多视角图像重建技术。该项目利用深度学习和计算机视觉方法,从稀疏的多视角图像高效重建3D场景并实现新视角渲染。MVSplat在RealEstate10K和ACID数据集上表现优异,并具有良好的跨数据集泛化能力。项目提供了安装指南、预训练模型和评估代码,便于研究人员进行复现和改进。
InstantMesh - 高效单图3D网格生成技术,利用稀疏视图大型重建模型
3D网格生成GithubInstantMesh单图重建开源项目深度学习计算机视觉
InstantMesh是一个基于LRM/Instant3D架构的前馈框架,能从单张图像高效生成3D网格。它采用稀疏视图大型重建模型,提供多种模型变体,支持白色背景图像生成。项目开源了推理和训练代码、模型权重,并提供Gradio在线演示。InstantMesh在3D内容创作和计算机视觉等领域有广泛应用潜力。
BundleSDF - 神经网络实现未知物体6自由度跟踪和3D重建
3D重建6-DoF跟踪BundleSDFGithub姿态图优化开源项目神经对象场
BundleSDF是一种创新的计算机视觉方法,能够从单目RGBD视频序列中实现未知物体的6自由度跟踪和3D重建。该方法基于神经网络技术,适用于各种刚体物体,包括缺乏视觉纹理的情况。通过结合神经物体场和位姿图优化,BundleSDF能够将信息稳健地整合到一致的3D表示中,准确捕捉物体的几何形状和外观特征。这种方法能够有效处理大姿态变化、遮挡、无纹理表面和镜面高光等复杂场景。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号