项目概览
openlrm-mix-base-1.1是OpenLRM项目的一部分。该项目是关于学术论文“LRM”的一个开源实现。这个版本(1.1)在功能上对原始设计进行了改进和优化。
模型细节
训练数据
openlrm-mix-base-1.1主要使用了两个数据集进行训练:Objaverse和MVImgNet。这两个数据集包含了丰富的图像信息,有助于模型在图像到3D转换任务上的表现。
模型架构
openlrm-mix-base-1.1模型的体系结构参数如下:
- 类型:Base
- 层数:12
- 特征维度:768
- 注意力头数:12
- 三平面维度:48
- 输入分辨率:336
- 图像编码器:dinov2_vitb14_reg
- 模型大小:1.04G
该架构通过集成多层和高维度的特征设置,以实现高精度的3D生成能力。
训练设置
- 渲染分辨率:288
- 渲染补丁:96
- 光线采样:96
这些设置帮助模型在处理图像到3D转换时,能够更高效地进行计算和训练。
与原始论文的显著差异
OpenLRM在以下方面与原始论文有所不同:
- 本实现没有使用原始论文中的延迟反向传播技术。
- 在训练过程中使用了随机背景颜色。
- 图像编码器基于DINOv2模型设计,并结合了注册标记。
- 三平面解码器在本实现中包含了4层。
许可协议
模型的权重是根据Creative Commons署名-非商业性4.0国际许可协议发布的,仅供研究使用,禁止用于商业用途。
免责声明
该模型是开源实现,并不是原始研究论文的官方发布版本。尽管它力求忠实再现原始结果,但由于模型实现、训练数据等因素,可能会有一些差异。
伦理考量
- 模型应负责任地使用,不应用于恶意目的。
- 用户应意识到训练数据中可能存在的偏见。
- 不应在可能导致对个人或群体产生伤害或不公平待遇的情况下使用该模型。
使用注意事项
- 该模型按“原样”提供,不附加任何形式的保证。
- 用户有责任确保使用行为符合所有相关法律法规。
- 本模型的开发者和贡献者不对因使用本模型导致的任何损失或损害承担责任。
该模型卡可能会进行更新和修改。建议用户定期检查以获取最新版本。