Project Icon

GPTEval3D

基于GPT-4V的文本到3D生成模型评估框架

GPTEval3D是一个实现了《GPT-4V(ision) is a Human-Aligned Evaluator for Text-to-3D Generation》论文评估指标的开源项目。该框架提供了完整的文本到3D生成模型评估流程,包括数据准备、模型评估和比赛评分。研究者可以利用GPTEval3D评估自己的模型或组织3D生成模型比赛。项目还包含110个精选图像提示和详细的使用说明,方便研究人员快速上手。

GPTEval3D

《GPT-4V(ision)是一个适合人类的文本到3D生成评估器》论文的实现。 这包含了一个用于评估文本到3D生成模型的评估指标。

预览图

新闻

  • 我们发布了110个与文本提示相对应的图像提示。每张图像都经过精心挑选以与文本保持一致。我们进一步使用rembgClipdrop移除了背景。可以在此链接下载图库。

安装

此代码库的主要依赖是OpenAI库和PyTorch。 对于PyTorch的安装,请参考官方网站,因为它高度依赖于环境。 以下是安装其他包的代码:

# 安装OpenAI API
pip install --upgrade openai

# 其他包
pip install --upgrade tqdm numpy Pillow gdown

评估您的文本到3D模型

步骤1. 数据下载

有关数据格式的详细说明,请参阅此文档

# 测试数据
# 13种方法;110个提示;每个方法120个均匀的RGB和法线图渲染。
# Google Drive: https://drive.google.com/file/d/1pYmSRu_oMy_v6f7ngnkFER6PNWmJAe52/view?usp=sharing
cd data/tournament-v0
gdown "https://drive.google.com/uc?id=1pYmSRu_oMy_v6f7ngnkFER6PNWmJAe52"
unzip methods

步骤2. 准备数据

请在比赛文件夹下找到prompts.json文件(例如data/tournament-v0/prompts.json)。 对于其中列出的每个提示,使用您的文本到3D生成模型为每个提示创建一个或多个形状。 对于每个形状,请使用Threestudio代码库选择的相机角度渲染120个均匀分布的视图。 对于每个渲染,请尝试创建512x512分辨率。 对于每个RGB渲染,还请创建其对应的表面法线渲染。 这些渲染将提供给GPT-4V。 最后,将渲染的图像组织成以下文件夹结构:

- data/<您的方法名称>/
    # 从零开始的提示
    - <prompt-id-1>/
        -<seed1>
            rgb_001.png
            ...
            rgb_119.png
            normal_001.png
            ...
            normal_119.png
    ...

步骤3. 运行评估

一旦我们将数据放入评估可以解析的格式中,我们可以运行以下命令来获取ELO分数,将您的方法置于现有比赛中。

python gpt_eval_alpha.py \
    --apikey <您的openai_api密钥> \
    --eval new_method \               # 评估新方法
    -t data/t23d-tournament-v0 \      # 比赛数据文件夹
    -m data/<您的方法名称> \      # 方法文件夹
    -o results/<您的方法名称>     # (可选)输出目录

计算比赛分数

步骤1:组织数据

请按以下结构组织一组文本到3D生成模型。

<根目录>
    config.json
    prompts.json
    methods/
        <方法名称-1>
            <prompt-id-1>
                <seed-1>
                    rgb_0.png ...
                    normal_0.png ...   
                ...
                <seed-k>
            ...
            <prompt-id-m>
        ...
        <方法名称-n>

有关应该放入config.jsonprompts.json的更多信息, 请参见此链接

步骤2:运行评估

python gpt_eval_alpha.py \
    --apikey <您的openai_api密钥> \
    --eval tournament \               # 评估新方法
    -t <比赛数据路径> \    # 比赛数据文件夹
    -b 200 \                          # 预算(请求次数)
    -o results/<比赛名称>      # (可选)输出目录

即将推出

  • 更多可视化和实用工具!
  • 文本到3D排行榜

引用

如果您发现我们的代码库对您的研究有用,请引用:

@inproceedings{wu2023gpteval3d,
   author = {Tong Wu and Guandao Yang and Zhibing Li and Kai Zhang and
             Ziwei Liu and Leonidas Guibas and Dahua Lin and Gordon Wetzstein},
   title = {GPT-4V(ision) is a Human-Aligned Evaluator for Text-to-3D Generation},
   booktitle = {CVPR},
   year = {2024},
}
}

致谢

我们真诚地感谢以下项目,包括GPT-4Vthreestudiomvdreamprolificdreamerfantasia3dpoint-eshap-edreamgaussianwonder3dsyncdreamer提供的优秀代码库!

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号