GLIP

GLIP

视觉语言预训练模型实现高效零样本和小样本物体检测

GLIP是一种视觉语言预训练模型,在零样本和小样本物体检测任务中表现优异。该模型在COCO和LVIS等标准基准测试中超越了多个有监督基线。GLIP还具有出色的迁移能力,在13个下游物体检测任务中,少样本GLIP可与全监督Dynamic Head模型媲美。项目提供预训练、零样本评估和微调等功能的代码实现,以及多个预训练模型。

GLIP计算机视觉目标检测预训练零样本学习Github开源项目

GLIP: 基于语言-图像预训练的视觉理解

<img src="https://yellow-cdn.veclightyear.com/ab5030c0/c5c3b642-d41f-46ef-8f93-9cc58e446eeb.png" width="800">

更新

$\qquad$ <img src="https://yellow-cdn.veclightyear.com/ab5030c0/35e15353-fe48-498c-abaf-217b78893e16.png" width=10%/> [研讨会] $\qquad$ <img src="https://yellow-cdn.veclightyear.com/ab5030c0/c452bb4b-4d78-40d6-83e7-51bd70af4a85.jpg" width=10%/> [IC 挑战赛] $\qquad$ <img src="https://yellow-cdn.veclightyear.com/ab5030c0/d4caa44c-97ae-4583-8ae4-7ee23fc69e3c.jpg" width=10%/> [OD 挑战赛]

  • 2022年9月13日:更新了HuggingFace演示!欢迎尝试!

    • 致谢:非常感谢@HuggingFace提供Space GPU升级以托管GLIP演示!
  • 2022年6月21日:GLIP被选为CVPR 2022最佳论文决赛入围者!

  • 2022年6月16日:ODinW基准测试发布!GLIP-T A&B发布!

  • 2022年6月13日:GLIPv2已在Arxiv上发布 https://arxiv.org/abs/2206.05836!

  • 2022年4月30日:更新了Colab演示

  • 2022年4月14日:GLIP已被CVPR 2022接受为口头报告!首个版本的代码和预训练模型已发布!

  • 2021年12月6日:GLIP论文在arxiv上发布 https://arxiv.org/abs/2112.03857。

  • 2021年11月23日:项目页面建立。

简介

本仓库是GLIP的项目页面。GLIP在各种目标级识别任务中展示了强大的零样本和少样本迁移能力。

  1. 直接在COCO和LVIS上评估时(未见过COCO中的任何图像),GLIP分别达到49.8 AP和26.9 AP,超过了许多有监督的基线。
  2. 在COCO上微调后,GLIP在验证集上达到60.8 AP,在测试开发集上达到61.5 AP,超越了之前的最先进水平。
  3. 当迁移到13个下游目标检测任务时,少样本GLIP与全监督的Dynamic Head相媲美。

我们提供以下代码:

  1. 在检测和定位数据上预训练GLIP;
  2. 在标准基准(COCO、LVIS、Flickr30K)和自定义COCO格式数据集上零样本评估GLIP;
  3. 在标准基准(COCO)和自定义COCO格式数据集上微调GLIP;
  4. Colab演示
  5. 用于**野外目标检测基准(ODinW)**的工具包,包含35个下游检测任务。

请参阅相应部分获取说明。

演示

请查看链接的Colab演示!

安装和设置

环境 本仓库需要Pytorch>=1.9和torchvision。我们建议使用docker来设置环境。你可以使用这个预构建的docker镜像 docker pull pengchuanzhang/maskrcnn:ubuntu18-py3.7-cuda10.2-pytorch1.9 或者这个 docker pull pengchuanzhang/pytorch:ubuntu20.04_torch1.9-cuda11.3-nccl2.9.9,取决于你的GPU。

然后安装以下包:

pip install einops shapely timm yacs tensorboardX ftfy prettytable pymongo
pip install transformers 
python setup.py build develop --user

骨干网络检查点 将ImageNet预训练的骨干网络检查点下载到MODEL文件夹中。

mkdir MODEL
wget https://penzhanwu2bbs.blob.core.windows.net/data/GLIPv1_Open/models/swin_tiny_patch4_window7_224.pth -O swin_tiny_patch4_window7_224.pth
wget https://penzhanwu2bbs.blob.core.windows.net/data/GLIPv1_Open/models/swin_large_patch4_window12_384_22k.pth -O swin_large_patch4_window12_384_22k.pth

模型库

检查点主机移动 检查点链接已过期。我们正在将检查点移至 https://huggingface.co/harold/GLIP/tree/main。目前大多数检查点已可用。我们正在努力尽快托管剩余的检查点。

模型COCO [1]LVIS [2]LVIS [3]ODinW [4]预训练数据配置权重
GLIP-T (A)42.9 / 52.9-14.2~28.7O365配置权重
GLIP-T (B)44.9 / 53.8-13.5~33.2O365配置权重
GLIP-T (C)46.7 / 55.114.317.744.4O365,GoldG配置权重
GLIP-T [5]46.6 / 55.217.620.142.7O365,GoldG,CC3M,SBU配置 [6]权重
GLIP-L [7]51.4 / 61.7 [8]29.330.151.2FourODs,GoldG,CC3M+12M,SBU配置 [9]权重

[1] COCO val2017上的零样本和微调性能。

[2] 使用最后一个预训练检查点在LVIS minival上的零样本性能(APr)。

[3] 在LVIS上,模型在预训练过程中可能会轻微过拟合。因此我们报告了LVIS上的两个数字:最后一个检查点的性能(LVIS[2])和预训练过程中最佳检查点的性能(LVIS[3])。

[4] 在13个ODinW数据集上的零样本性能。GLIP论文中报告的数字来自预训练过程中的最佳检查点,可能略高于发布的最后检查点的数字,类似于LVIS的情况。

[5] 本仓库发布的GLIP-T在Conceptual Captions 3M和SBU captions上进行了预训练。它在论文的表1和附录C.3中有提到。它在下游性能上与主论文中的GLIP-T略有不同。我们将在下一次更新中发布使用CC3M和SBU captions数据进行预训练的支持。

[6] 此配置仅用于零样本评估和微调。使用CC3M和SBU captions数据的预训练配置将在后续更新。

[7] 本仓库发布的GLIP-L在Conceptual Captions 3M+12M和SBU captions上进行了预训练。由于用于注释标题数据的模型相比主论文有所改进,它的性能略优于主论文中的GLIP-L。我们将在下一次更新中发布使用CC3M+12M和SBU captions数据进行预训练的支持。

[8] 使用了多尺度测试。

[9] 此配置仅用于零样本评估和微调。使用CC3M+12M和SBU captions数据的预训练配置将在后续更新。

预训练

所需数据。 按照DATA.md中的说明准备"Objects365"、"Flickr30K"和"MixedGrounding"数据。使用标题数据(Conceptual Captions和SBU captions)进行训练的支持将很快发布。

命令。

使用以下命令进行预训练(请相应更改config-file;查看模型动物园以获取相应的配置;将{output_dir}更改为您想要的输出目录):

python -m torch.distributed.launch --nnodes 2 --nproc_per_node=16 tools/train_net.py \
    --config-file configs/pretrain/glip_Swin_T_O365_GoldG.yaml \
    --skip-test --use-tensorboard --override_output_dir {output_dir}

对于训练GLIP-T模型,我们在32GB V100机器上使用了nnodes = 2nproc_per_node=16。对于训练GLIP-L模型,我们在32GB V100机器上使用了nnodes = 4nproc_per_node=16。请根据您的本地机器相应设置环境。

(零样本)评估

COCO评估

按照DATA.md中的说明准备"COCO/val2017"数据。根据"模型动物园"设置{config_file}、{model_checkpoint};将{output_dir}设置为存储评估结果的文件夹。

python tools/test_grounding_net.py --config-file {config_file} --weight {model_checkpoint} \
        TEST.IMS_PER_BATCH 1 \
        MODEL.DYHEAD.SCORE_AGG "MEAN" \
        TEST.EVAL_TASK detection \
        MODEL.DYHEAD.FUSE_CONFIG.MLM_LOSS False \
        OUTPUT_DIR {output_dir}

LVIS评估

我们遵循MDETR使用FixedAP标准进行评估。根据"模型动物园"设置{config_file}、{model_checkpoint}。按照DATA.md中的说明准备"COCO/val2017"数据。

python -m torch.distributed.launch --nproc_per_node=4 \
        tools/test_grounding_net.py \
        --config-file {config_file} \
        --task_config configs/lvis/minival.yaml \
        --weight {model_checkpoint} \
        TEST.EVAL_TASK detection OUTPUT_DIR {output_dir} 
        TEST.CHUNKED_EVALUATION 40  TEST.IMS_PER_BATCH 4 SOLVER.IMS_PER_BATCH 4 TEST.MDETR_STYLE_AGGREGATE_CLASS_NUM 3000 MODEL.RETINANET.DETECTIONS_PER_IMG 300 MODEL.FCOS.DETECTIONS_PER_IMG 300 MODEL.ATSS.DETECTIONS_PER_IMG 300 MODEL.ROI_HEADS.DETECTIONS_PER_IMG 300

如果您希望在Val 1.0上评估,请将--task_config设置为configs/lvis/val.yaml

ODinW / 自定义数据集评估

GLIP支持在自定义数据集上轻松评估。目前,代码支持对COCO格式的数据集进行评估。

我们将以ODinW中的Aquarium数据集为例,展示如何在自定义COCO格式数据集上进行评估。

  1. 以COCO格式将原始数据集从RoboFlow下载到DATASET/odinw/Aquarium。每个训练/验证/测试拆分都有一个对应的annotation文件和一个image文件夹。

  2. 从注释文件中删除背景类。这可以简单到打开"_annotations.coco.json"并从"categories"中删除"id:0"的条目。为方便起见,我们提供了Aquarium的修改后的注释文件:

    wget https://penzhanwu2bbs.blob.core.windows.net/data/GLIPv1_Open/odinw/Aquarium/Aquarium%20Combined.v2-raw-1024.coco/test/annotations_without_background.json -O DATASET/odinw/Aquarium/Aquarium\ Combined.v2-raw-1024.coco/test/annotations_without_background.json
    wget https://penzhanwu2bbs.blob.core.windows.net/data/GLIPv1_Open/odinw/Aquarium/Aquarium%20Combined.v2-raw-1024.coco/train/annotations_without_background.json -O DATASET/odinw/Aquarium/Aquarium\ Combined.v2-raw-1024.coco/train/annotations_without_background.json
    wget https://penzhanwu2bbs.blob.core.windows.net/data/GLIPv1_Open/odinw/Aquarium/Aquarium%20Combined.v2-raw-1024.coco/valid/annotations_without_background.json -O DATASET/odinw/Aquarium/Aquarium\ Combined.v2-raw-1024.coco/valid/annotations_without_background.json
    
  3. 然后创建一个yaml文件,如configs/odinw_13/Aquarium_Aquarium_Combined.v2-raw-1024.coco.yaml。yaml中需要注意几个字段:

    DATASET.CAPTION_PROMPT允许手动更改提示(默认提示只是简单地连接所有类别);

    MODELS..NUM_CLASSES需要设置为数据集中的类别数(包括背景类)。例如,Aquarium有7个非背景类别,因此MODELS..NUM_CLASSES设置为8;

  4. 运行以下命令在数据集上进行评估。根据"模型库"设置 {config_file}{model_checkpoint}。将 {odinw_configs} 设置为我们刚刚准备的任务 yaml 文件的路径。

python tools/test_grounding_net.py --config-file {config_file} --weight {model_checkpoint} \
      --task_config {odinw_configs} \
      TEST.IMS_PER_BATCH 1 SOLVER.IMS_PER_BATCH 1 \
      TEST.EVAL_TASK detection \
      DATASETS.TRAIN_DATASETNAME_SUFFIX _grounding \
      DATALOADER.DISTRIBUTE_CHUNK_AMONG_NODE False \
      DATASETS.USE_OVERRIDE_CATEGORY True \
      DATASETS.USE_CAPTION_PROMPT True

Flickr30K 评估

按照 DATA.md 中的说明准备 Flickr30K 数据。根据"模型库"设置 {config_file}{model_checkpoint}

python tools/test_grounding_net.py \
        --config-file {config_file} \
        --task_config configs/flickr/test.yaml,configs/flickr/val.yaml \
        --weight {model_checkpoint} \
        OUTPUT_DIR {output_dir} TEST.IMS_PER_BATCH 1 SOLVER.IMS_PER_BATCH 1 TEST.MDETR_STYLE_AGGREGATE_CLASS_NUM 100 TEST.EVAL_TASK grounding MODEL.DYHEAD.FUSE_CONFIG.MLM_LOSS False

微调

COCO 微调

按照 DATA.md 中的说明准备 COCO 数据。根据"模型库"设置 {config_file}{model_checkpoint}

以下是用于微调 Tiny 模型的脚本:

python -m torch.distributed.launch --nproc_per_node=16 tools/train_net.py \
       --config-file {config_file} \
       --skip-test \
       MODEL.WEIGHT {model_checkpoint} \
       DATASETS.TRAIN '("coco_grounding_train", )' \
       MODEL.BACKBONE.FREEZE_CONV_BODY_AT -1 SOLVER.IMS_PER_BATCH 32 SOLVER.USE_AMP True SOLVER.MAX_EPOCH 24 TEST.DURING_TRAINING False TEST.IMS_PER_BATCH 16 SOLVER.FIND_UNUSED_PARAMETERS False SOLVER.BASE_LR 0.00001 SOLVER.LANG_LR 0.00001 SOLVER.STEPS \(0.67,0.89\) DATASETS.DISABLE_SHUFFLE True MODEL.DYHEAD.SCORE_AGG "MEAN" TEST.EVAL_TASK detection

对于评估,请按照 COCO 评估 中的说明进行操作。用于微调 Large 模型的脚本将很快发布。

ODinW / 自定义数据集微调

按照 ODinW / 自定义数据集评估 中的说明准备数据集。

全模型微调

对于 1/3/5/10-shot 微调,将 {custom_shot_and_epoch_and_general_copy} 分别设置为 "1_200_8"、"3_200_4"、"5_200_2"、"10_200_1"。

对于使用所有数据进行微调,将 {custom_shot_and_epoch_and_general_copy} 设置为 "0_200_1";将 SOLVER.STEP_PATIENCE 设置为 2;将 SOLVER.AUTO_TERMINATE_PATIENCE 设置为 4。

python -m torch.distributed.launch --nproc_per_node=4 tools/finetune.py \
      --config-file {config_file}  --ft-tasks {configs} --skip-test \
      --custom_shot_and_epoch_and_general_copy {custom_shot_and_epoch_and_general_copy} \
      --evaluate_only_best_on_test --push_both_val_and_test \
      MODEL.WEIGHT {model_checkpoint} \
      SOLVER.USE_AMP True TEST.DURING_TRAINING True TEST.IMS_PER_BATCH 4 SOLVER.IMS_PER_BATCH 4 SOLVER.WEIGHT_DECAY 0.05 TEST.EVAL_TASK detection DATASETS.TRAIN_DATASETNAME_SUFFIX _grounding MODEL.BACKBONE.FREEZE_CONV_BODY_AT 2 MODEL.DYHEAD.USE_CHECKPOINT True SOLVER.FIND_UNUSED_PARAMETERS False SOLVER.TEST_WITH_INFERENCE True SOLVER.USE_AUTOSTEP True DATASETS.USE_OVERRIDE_CATEGORY True SOLVER.SEED 10 DATASETS.SHUFFLE_SEED 3 DATASETS.USE_CAPTION_PROMPT True DATASETS.DISABLE_SHUFFLE True \
      SOLVER.STEP_PATIENCE 3 SOLVER.CHECKPOINT_PER_EPOCH 1.0 SOLVER.AUTO_TERMINATE_PATIENCE 8 SOLVER.MODEL_EMA 0.0 SOLVER.TUNING_HIGHLEVEL_OVERRIDE full

提示词微调

按照 全模型微调 中的命令操作。但设置以下超参数:

SOLVER.WEIGHT_DECAY 0.25 \
SOLVER.BASE_LR 0.05 \
SOLVER.TUNING_HIGHLEVEL_OVERRIDE language_prompt_v2

野外目标检测基准

ODinW 最初由 GLIP 提出,并在 ELEVATER 中进行了完善和形式化。GLIP 使用了 13 个下游任务,而完整的 ODinW 包含 35 个下游任务。它将作为 ECCV 2022 野外计算机视觉研讨会 的挑战赛举办。我们希望我们的代码能鼓励社区参与这项挑战!

ODinW 在 GLIP 中引入,最初包含 13 个数据集。我们通过包含更多来自 RoboFlow 的数据集进一步扩展了数据集,最终版本包含 35 个数据集。

为了区分这两个版本,我们将 GLIP 使用的版本称为 ODinW-13,将 CVinW 研讨会使用的版本称为 ODinW-35

本仓库还提供了在 ODinW 上训练和评估的必要代码。请参见以下说明。

下载 ODinW

RoboFlow 托管了所有原始数据集。我们也托管了这些数据集,并提供了一个简单的脚本来下载所有数据。

python odinw/download_datasets.py

configs/odinw_35 包含了所有数据集的元信息。configs/odinw_13 是 GLIP 使用的数据集。每个数据集都遵循 coco 检测格式。

所有 ODinW 数据集都采用 COCO 格式;因此我们可以直接使用类似的脚本来适配和评估 ODinW 上的预训练模型。以下是简要回顾。

(零样本)评估

odinw_configs 可以是 configs/odinw_14configs/odinw_35 中的任何配置。

python tools/test_grounding_net.py --config-file {config_file} --weight {model_checkpoint} \
      --task_config {odinw_configs} \
      TEST.IMS_PER_BATCH 1 SOLVER.IMS_PER_BATCH 1 \
      TEST.EVAL_TASK detection \
      DATASETS.TRAIN_DATASETNAME_SUFFIX _grounding \
      DATALOADER.DISTRIBUTE_CHUNK_AMONG_NODE False \
      DATASETS.USE_OVERRIDE_CATEGORY True \
      DATASETS.USE_CAPTION_PROMPT True

全模型微调

对于 1/3/5/10-shot 微调,将 {custom_shot_and_epoch_and_general_copy} 分别设置为 "1_200_8"、"3_200_4"、"5_200_2"、"10_200_1"。

对于使用所有数据进行微调,将 {custom_shot_and_epoch_and_general_copy} 设置为 "0_200_1";将 SOLVER.STEP_PATIENCE 设置为 2;将 SOLVER.AUTO_TERMINATE_PATIENCE 设置为 4。

python -m torch.distributed.launch --nproc_per_node=4 tools/finetune.py \
      --config-file {config_file}  --ft-tasks {odinw_configs} --skip-test \
      --custom_shot_and_epoch_and_general_copy {custom_shot_and_epoch_and_general_copy} \
      --evaluate_only_best_on_test --push_both_val_and_test \
      MODEL.WEIGHT {model_checkpoint} \

SOLVER.USE_AMP True TEST.DURING_TRAINING True TEST.IMS_PER_BATCH 4 SOLVER.IMS_PER_BATCH 4 SOLVER.WEIGHT_DECAY 0.05 TEST.EVAL_TASK detection DATASETS.TRAIN_DATASETNAME_SUFFIX _grounding MODEL.BACKBONE.FREEZE_CONV_BODY_AT 2 MODEL.DYHEAD.USE_CHECKPOINT True SOLVER.FIND_UNUSED_PARAMETERS False SOLVER.TEST_WITH_INFERENCE True SOLVER.USE_AUTOSTEP True DATASETS.USE_OVERRIDE_CATEGORY True SOLVER.SEED 10 DATASETS.SHUFFLE_SEED 3 DATASETS.USE_CAPTION_PROMPT True DATASETS.DISABLE_SHUFFLE True
SOLVER.STEP_PATIENCE 3 SOLVER.CHECKPOINT_PER_EPOCH 1.0 SOLVER.AUTO_TERMINATE_PATIENCE 8 SOLVER.MODEL_EMA 0.0 SOLVER.TUNING_HIGHLEVEL_OVERRIDE full


#### 提示调优

对于1/3/5/10样本的调优,将 `{custom_shot_and_epoch_and_general_copy}` 分别设置为 "1_200_8", "3_200_4", "5_200_2", "10_200_1"。

对于使用全部数据的调优,将 `{custom_shot_and_epoch_and_general_copy}` 设置为 "0_200_1";将 SOLVER.STEP_PATIENCE 设置为 2;将 SOLVER.AUTO_TERMINATE_PATIENCE 设置为 4。

按照"完整模型微调"中的命令执行。但设置以下超参数:

SOLVER.WEIGHT_DECAY 0.25
SOLVER.BASE_LR 0.05
SOLVER.TUNING_HIGHLEVEL_OVERRIDE language_prompt_v2


#### 线性探测
对于1/3/5/10样本的调优,将 `{custom_shot_and_epoch_and_general_copy}` 分别设置为 "1_200_8", "3_200_4", "5_200_2", "10_200_1"。

对于使用全部数据的调优,将 `{custom_shot_and_epoch_and_general_copy}` 设置为 "0_200_1";将 SOLVER.STEP_PATIENCE 设置为 2;将 SOLVER.AUTO_TERMINATE_PATIENCE 设置为 4。

按照"完整模型微调"中的命令执行。但设置以下超参数:

SOLVER.TUNING_HIGHLEVEL_OVERRIDE linear_prob



#### 知识增强推理
GLIP还支持知识增强推理。详情请参阅[我们的论文](https://arxiv.org/pdf/2204.08790.pdf)。这里我们提供一个如何使用外部知识的示例。请下载专门用于知识增强推理的GLIP-A模型 ``wget https://penzhanwu2bbs.blob.core.windows.net/data/GLIPv1_Open/models/glip_a_tiny_o365_knowledge.pth -O MODEL/glip_a_tiny_o365_knowledge.pth``。

python tools/test_grounding_net.py --config-file configs/pretrain/glip_A_Swin_T_O365.yaml --weight MODEL/glip_a_tiny_o365_knowledge.pth
--task_config {odinw_configs}
TEST.IMS_PER_BATCH 1 SOLVER.IMS_PER_BATCH 1
TEST.EVAL_TASK detection
DATASETS.TRAIN_DATASETNAME_SUFFIX _grounding
DATALOADER.DISTRIBUTE_CHUNK_AMONG_NODE False
DATASETS.USE_OVERRIDE_CATEGORY True
DATASETS.USE_CAPTION_PROMPT True
GLIPKNOW.KNOWLEDGE_FILE knowledge/odinw_benchmark35_knowledge_and_gpt3.yaml GLIPKNOW.KNOWLEDGE_TYPE gpt3_and_wiki GLIPKNOW.PARALLEL_LANGUAGE_INPUT True GLIPKNOW.LAN_FEATURE_AGG_TYPE first MODEL.DYHEAD.FUSE_CONFIG.USE_LAYER_SCALE True GLIPKNOW.GPT3_NUM 3 GLIPKNOW.WIKI_AND_GPT3 True


#### 将您的结果提交到ODinw排行榜

鼓励参赛队伍将他们的结果上传到EvalAI上的[ODinW排行榜](https://eval.ai/web/challenges/challenge-page/1839/overview)。从数据标注成本的角度来看,降低数据需求使得更多场景成为可能,因此挑战中考虑了多个不同的赛道:零样本、少样本和全样本。请查看ODinW网站以了解每个阶段的更多详情。

1. 对于零样本/全样本设置,预测json文件的所需格式为

{ "数据集名称 (例如, 'WildFireSmoke')": [值]: 值遵循COCO的结果格式, 包含["image_id":xxx, "category_id":xxx, "bbox":xxx, "score":xxx] }

请查看提供的零样本预测文件示例:[all_predictions_zeroshot.json](https://drive.google.com/file/d/1lO66zH141O_0pTiIhRC2lY5y2PxmxGOH/view?usp=sharing)和全样本预测文件示例:[all_predictions_fullshot.json](https://drive.google.com/file/d/1-nLs2ZebfPoiA_qa_vvkbJD96V1RU7Vu/view?usp=sharing)。

2. 对于少样本设置(根据挑战描述为3样本),使用随机种子[3, 30, 300]分别生成三个训练-验证子集。预测json文件的所需格式为

{ "数据集名称 (例如, "WildFireSmoke")":{ "随机种子数 (例如, "30")": [值]: 值遵循COCO的结果格式, 包含["image_id":xxx, "category_id":xxx, "bbox":xxx, "score":xxx] } }

请查看提供的少样本预测文件示例:[all_predictions_3_shot.json](https://drive.google.com/file/d/13pDjmSf0ZAZghgiDTONDF0ur5FP8AuLx/view?usp=sharing)。



## 引用
如果您使用了此代码,请考虑引用我们的论文:

@inproceedings{li2021grounded, title={Grounded Language-Image Pre-training}, author={Liunian Harold Li* and Pengchuan Zhang* and Haotian Zhang* and Jianwei Yang and Chunyuan Li and Yiwu Zhong and Lijuan Wang and Lu Yuan and Lei Zhang and Jenq-Neng Hwang and Kai-Wei Chang and Jianfeng Gao}, year={2022}, booktitle={CVPR}, } @article{zhang2022glipv2, title={GLIPv2: Unifying Localization and Vision-Language Understanding}, author={Zhang, Haotian* and Zhang, Pengchuan* and Hu, Xiaowei and Chen, Yen-Chun and Li, Liunian Harold and Dai, Xiyang and Wang, Lijuan and Yuan, Lu and Hwang, Jenq-Neng and Gao, Jianfeng}, journal={arXiv preprint arXiv:2206.05836}, year={2022} } @article{li2022elevater, title={ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented Visual Models}, author={Li*, Chunyuan and Liu*, Haotian and Li, Liunian Harold and Zhang, Pengchuan and Aneja, Jyoti and Yang, Jianwei and Jin, Ping and Lee, Yong Jae and Hu, Houdong and Liu, Zicheng and others}, journal={arXiv preprint arXiv:2204.08790}, year={2022} }

编辑推荐精选

AEE

AEE

AI Excel全自动制表工具

AEE 在线 AI 全自动 Excel 编辑器,提供智能录入、自动公式、数据整理、图表生成等功能,高效处理 Excel 任务,提升办公效率。支持自动高亮数据、批量计算、不规则数据录入,适用于企业、教育、金融等多场景。

UI-TARS-desktop

UI-TARS-desktop

基于 UI-TARS 视觉语言模型的桌面应用,可通过自然语言控制计算机进行多模态操作。

UI-TARS-desktop 是一款功能强大的桌面应用,基于 UI-TARS(视觉语言模型)构建。它具备自然语言控制、截图与视觉识别、精确的鼠标键盘控制等功能,支持跨平台使用(Windows/MacOS),能提供实时反馈和状态显示,且数据完全本地处理,保障隐私安全。该应用集成了多种大语言模型和搜索方式,还可进行文件系统操作。适用于需要智能交互和自动化任务的场景,如信息检索、文件管理等。其提供了详细的文档,包括快速启动、部署、贡献指南和 SDK 使用说明等,方便开发者使用和扩展。

Wan2.1

Wan2.1

开源且先进的大规模视频生成模型项目

Wan2.1 是一个开源且先进的大规模视频生成模型项目,支持文本到图像、文本到视频、图像到视频等多种生成任务。它具备丰富的配置选项,可调整分辨率、扩散步数等参数,还能对提示词进行增强。使用了多种先进技术和工具,在视频和图像生成领域具有广泛应用前景,适合研究人员和开发者使用。

爱图表

爱图表

全流程 AI 驱动的数据可视化工具,助力用户轻松创作高颜值图表

爱图表(aitubiao.com)就是AI图表,是由镝数科技推出的一款创新型智能数据可视化平台,专注于为用户提供便捷的图表生成、数据分析和报告撰写服务。爱图表是中国首个在图表场景接入DeepSeek的产品。通过接入前沿的DeepSeek系列AI模型,爱图表结合强大的数据处理能力与智能化功能,致力于帮助职场人士高效处理和表达数据,提升工作效率和报告质量。

Qwen2.5-VL

Qwen2.5-VL

一款强大的视觉语言模型,支持图像和视频输入

Qwen2.5-VL 是一款强大的视觉语言模型,支持图像和视频输入,可用于多种场景,如商品特点总结、图像文字识别等。项目提供了 OpenAI API 服务、Web UI 示例等部署方式,还包含了视觉处理工具,有助于开发者快速集成和使用,提升工作效率。

HunyuanVideo

HunyuanVideo

HunyuanVideo 是一个可基于文本生成高质量图像和视频的项目。

HunyuanVideo 是一个专注于文本到图像及视频生成的项目。它具备强大的视频生成能力,支持多种分辨率和视频长度选择,能根据用户输入的文本生成逼真的图像和视频。使用先进的技术架构和算法,可灵活调整生成参数,满足不同场景的需求,是文本生成图像视频领域的优质工具。

WebUI for Browser Use

WebUI for Browser Use

一个基于 Gradio 构建的 WebUI,支持与浏览器智能体进行便捷交互。

WebUI for Browser Use 是一个强大的项目,它集成了多种大型语言模型,支持自定义浏览器使用,具备持久化浏览器会话等功能。用户可以通过简洁友好的界面轻松控制浏览器智能体完成各类任务,无论是数据提取、网页导航还是表单填写等操作都能高效实现,有利于提高工作效率和获取信息的便捷性。该项目适合开发者、研究人员以及需要自动化浏览器操作的人群使用,在 SEO 优化方面,其关键词涵盖浏览器使用、WebUI、大型语言模型集成等,有助于提高网页在搜索引擎中的曝光度。

xiaozhi-esp32

xiaozhi-esp32

基于 ESP32 的小智 AI 开发项目,支持多种网络连接与协议,实现语音交互等功能。

xiaozhi-esp32 是一个极具创新性的基于 ESP32 的开发项目,专注于人工智能语音交互领域。项目涵盖了丰富的功能,如网络连接、OTA 升级、设备激活等,同时支持多种语言。无论是开发爱好者还是专业开发者,都能借助该项目快速搭建起高效的 AI 语音交互系统,为智能设备开发提供强大助力。

olmocr

olmocr

一个用于 OCR 的项目,支持多种模型和服务器进行 PDF 到 Markdown 的转换,并提供测试和报告功能。

olmocr 是一个专注于光学字符识别(OCR)的 Python 项目,由 Allen Institute for Artificial Intelligence 开发。它支持多种模型和服务器,如 vllm、sglang、OpenAI 等,可将 PDF 文件的页面转换为 Markdown 格式。项目还提供了测试框架和 HTML 报告生成功能,方便用户对 OCR 结果进行评估和分析。适用于科研、文档处理等领域,有助于提高工作效率和准确性。

飞书多维表格

飞书多维表格

飞书多维表格 ×DeepSeek R1 满血版

飞书多维表格联合 DeepSeek R1 模型,提供 AI 自动化解决方案,支持批量写作、数据分析、跨模态处理等功能,适用于电商、短视频、影视创作等场景,提升企业生产力与创作效率。关键词:飞书多维表格、DeepSeek R1、AI 自动化、批量处理、企业协同工具。

下拉加载更多