Project Icon

VLM_survey

用于视觉任务的 AWESOME 视觉语言模型集合

本页面详尽介绍了视觉语言模型(VLM)在视觉识别任务中的应用和发展。内容涵盖VLM的起源、常用架构、预训练目标、主流数据集及不同的预训练方式、迁移学习和知识蒸馏方法,并针对这些方法进行了详细的基准测试和分析。页面还讨论了未来研究的挑战和方向,让用户掌握VLM技术在图像分类、对象检测和语义分割等任务中的最新应用进展。

Awesome Vision-Language Models Awesome

这是视觉任务的视觉语言模型:综述的代码库, 系统性地调查了在各种视觉识别任务中VLM研究,包括图像分类、目标检测、语义分割等。详情请参考:

视觉任务的视觉语言模型:综述 [论文]

IEEE模式分析与机器智能交易 (TPAMI), 2024

arXiv 维护 欢迎提交PR

如果您发现这里没有收录的相关论文,欢迎提交请求或联系我们。

提交请求的流程如下:

  • a. 将项目fork到您自己的代码库。
  • b. 在 README.md 中使用以下格式添加标题、论文链接、会议、项目/代码链接:
  |[标题](论文链接)|会议|[代码/项目](代码/项目链接)|
  • c. 提交请求到此分支。

🔥 新闻

最后更新于2024年7月24日

VLM预训练方法

  • [CVPR 2024] 通过聚类掩码实现高效的视觉语言预训练 [论文][代码]
  • [CVPR 2024] 迈向更好的视觉启发的视觉语言模型 [论文]
  • [CVPR 2024] 非自回归序列到序列的视觉语言模型 [论文]
  • [CVPR 2024] ViTamin: 设计可扩展的视觉语言时代视觉模型 [论文][代码]
  • [CVPR 2024] 迭代学习提高大视觉语言模型的组合性 [论文]
  • [CVPR 2024] FairCLIP: 在视觉语言学习中利用公平性 [论文][代码]
  • [CVPR 2024] InternVL: 扩展视觉基础模型并对齐通用视觉语言任务 [论文][代码]
  • [CVPR 2024] VILA: 视觉语言模型预训练研究 [论文]
  • [CVPR 2024] 用生成区域-语言预训练进行开放式目标检测 [论文][代码]
  • [CVPR 2024] 通过丰富的监督增强视觉语言预训练 [论文]
  • [ICLR 2024] 通过动态离散视觉量化在大语言模型中实现统一的语言-视觉预训练 [论文][代码]
  • [ICLR 2024] MMICL: 通过多模态情境学习增强视觉语言模型 [论文][代码]
  • [ICLR 2024] 检索增强的对比视觉-文本模型 [论文]

VLM迁移学习方法

  • [ECCV 2024] CLAP: 通过增强式提示的对比学习分离内容和样式 [论文][代码]
  • [ECCV 2024] FALIP: 视觉提示作为中央视觉增强提升CLIP的零样本性能 [论文][代码]
  • [ECCV 2024] GalLoP: 学习视觉语言模型的全局和局部提示 [论文]
  • [ECCV 2024] 注意干扰:在视觉语言模型参数高效持续学习中保持预训练知识 [论文][代码]
  • [CVPR 2024] 一个提示词足以提升预训练视觉语言模型的对抗鲁棒性 [论文][代码]
  • [CVPR 2024] 通用分布的任何偏移提示 [论文]
  • [CVPR 2024] 深入探讨大型视觉语言模型的少样本适应 [论文][代码]
  • [CVPR 2024] 基于锚点的视觉语言模型鲁棒微调 [论文]
  • [CVPR 2024] 预训练视觉和语言变压器是少样本增量学习者 [论文][代码]
  • [CVPR 2024] 视觉情境提示 [论文][代码]
  • [CVPR 2024] TCP:基于文本的类别感知提示调优视觉语言模型 [论文][代码]
  • [CVPR 2024] 视觉语言模型的高效测试时适应 [论文][代码]
  • [CVPR 2024] 双记忆网络:视觉语言模型的多功能适应方法 [论文][代码]
  • [ICLR 2024] DePT: 通过分解提示调优实现参数高效微调 [论文][代码]
  • [ICLR 2024] Nemesis: 标准化视觉语言模型的软提示向量 [论文]
  • [ICLR 2024] 用于持续学习的提示梯度投影 [论文]
  • [ICLR 2024] 一张图值千词:跨提示在视觉语言模型上对抗图片的可转移性 [论文]
  • [ICLR 2024] Matcher: 使用通用特征匹配进行单次段落任何东西 [论文][代码]
  • [ICLR 2024] 在联邦学习中为视觉语言模型生成的文本驱动提示 [论文]
  • [ICLR 2024] 一致性指导的视觉语言模型提示学习 [论文]
  • [ICLR 2024] C-TPT: 通过文本特征分散进行视觉语言模型的校准测试时提示调优 [论文]
  • [arXiv 2024] 学习提示分割任何模型 [论文]

VLM知识蒸馏用于检测

  • [CVPR 2024] RegionGPT: 迈向区域理解的视觉语言模型 [论文][代码]
  • [ICLR 2024] LLMs遇见VLMs:用细粒度描述提升开放词汇物体检测 [论文]
  • [ICLR 2024] Ins-DetCLIP: 对齐检测模型以遵循人类语言指令 [论文]

VLM知识蒸馏用于分割

  • [ICLR 2024] CLIPSelf: 视觉变压器为开放词汇密集预测提供自我蒸馏 [论文]

VLM知识蒸馏用于其他视觉任务

  • [ICLR 2024] FROSTER: 冻结的CLIP是开放词汇动作识别的强教师 [论文][项目]
  • [ICLR 2024] AnomalyCLIP: 用于零样本异常检测的对象无关提示学习 [论文][代码]

摘要

大多数视觉识别研究在深度神经网络(DNN)训练中严重依赖于人群标注数据,通常为每个单一视觉识别任务训练一个DNN,导致费力且耗时的视觉识别范式。为了解决这两个挑战,最近对视觉语言模型(VLM)进行了深入研究,通过几乎无限可用的网络规模图像-文本对学习丰富的视觉语言关联,并使用单个VLM在各种视觉识别任务上实现零样本预测。本文对各种视觉识别任务中的视觉语言模型进行了系统综述,包括:(1) 介绍视觉识别范式发展的背景;(2) 总结广泛采用的网络架构、预训练目标和下游任务的VLM基础;(3) 在VLM预训练和评估中使用的广泛数据集;(4) 对现有VLM预训练方法、VLM迁移学习方法和VLM知识蒸馏方法的回顾和分类;(5) 对各方法的基准测试、分析和讨论;(6) 未来VLM研究中的几个研究挑战和潜在研究方向。

引用

如果您觉得我们的工作对您的研究有帮助,请考虑引用:

@article{zhang2024vision,
  title={视觉任务的视觉语言模型:综述},
  author={张静怡,黄嘉兴,金盛,鲁世杰},
  journal={IEEE模式分析与机器智能交易},
  year={2024},
  publisher={IEEE}
}

目录

数据集

VLM预训练数据集

数据集年份图像-文本对数量语言项目
SBU Caption20111M英语项目
COCO Caption20161.5M英语项目
Yahoo Flickr Creative Commons 100 Million2016100M英语项目
Visual Genome20175.4M英语项目
Conceptual Captions 3M20183.3M英语项目
Localized Narratives20200.87M英语项目
Conceptual 12M202112M英语项目
Wikipedia-based Image Text202137.6M108种语言项目
Red Caps202112M英语项目
LAION400M2021400M英语项目
LAION5B20225B超过100种语言项目
WuKong2022100M中文项目
CLIP2021400M英语-
ALIGN20211.8B英语-
FILIP2021300M英语-
WebLI202212B英语-

VLM评估数据集

图像分类

数据集年份类别训练集测试集评估指标项目
MNIST19981060,00010,000准确率项目
Caltech-10120041023,0606,085平均类别准确率项目
PASCAL VOC 20072007205,0114,95211点mAP项目
Oxford 102 Flowers20081022,0406,149平均类别准确率项目
CIFAR-1020091050,00010,000准确率项目
CIFAR-100200910050,00010,000准确率项目
ImageNet-1k200910001,281,16750,000准确率项目
SUN397201039719,85019,850准确率项目
SVHN20111073,25726,032准确率项目
STL-102011101,0008,000准确率项目
GTSRB20114326,64012,630准确率项目
KITTI Distance201246,770711准确率项目
IIIT5k2012362,0003,000准确率项目
Oxford-IIIT PETS2012373,6803,669平均类别准确率项目
Stanford Cars20131968,1448,041准确率项目
FGVC Aircraft20131006,6673,333平均类别准确率项目
Facial Emotion2013832,1403,574准确率项目
Rendered SST2201327,7921,821准确率项目
Describable Textures2014473,7601,880准确率项目
Food-101201410175,75025,250准确率项目
Birdsnap201450042,2832,149准确率项目
RESISC452017453,15025,200准确率项目
CLEVR Counts201782,000500准确率项目
PatchCamelyon20182294,91232,768准确率项目
EuroSAT20191010,0005,000准确率项目
Hateful Memes202028,500500ROC AUC项目
Country211202121143,20021,100准确率项目

图像-文本检索

数据集年份类别训练集测试集评估指标项目
Flickr30k2014-31,783-召回率项目
COCO Caption2015-82,7835,000召回率项目

动作识别

数据集年份类别训练集测试集评估指标项目
UCF10120121019,5371,794准确率项目
Kinetics7002019700494,80131,669平均 (top1, top5)项目
RareAct20201227,607-mWAP, mSAP项目

目标检测

数据集年份类别训练集测试集评估指标项目
COCO 2014 Detection20148083,00041,000Box mAP项目
COCO 2017 Detection201780118,0005,000Box mAP项目
LVIS20191203118,0005,000Box mAP项目
ODinW2022314132,41320,070Box mAP项目

语义分割

数据集年份类别训练集测试集评估指标项目
PASCAL VOC 20122012201,4641,449mIoU项目
PASCAL Content20144594,9985,105mIoU项目
Cityscapes2016192,975500mIoU项目
ADE20k201715025,5742,000mIoU项目

视觉-语言预训练方法

对比目标的预训练

论文标题发表会议代码/项目
CLIP: Learning Transferable Visual Models From Natural Language SupervisionICML 2021代码
ALIGN: Scaling Up Visual and Vision-Language Representation Learning With Noisy Text SupervisionICML 2021-
OTTER: Data Efficient Language-Supervised Zero-Shot Recognition with Optimal Transport DistillationarXiv 2021代码
Florence: A New Foundation Model for Computer VisionarXiv 2021-
RegionClip: Region-based Language-Image PretrainingarXiv 2021代码
DeCLIP: Supervision Exists Everywhere: A Data Efficient Contrastive Language-Image Pre-training ParadigmICLR 2022代码
FILIP: Fine-grained Interactive Language-Image Pre-TrainingICLR 2022-
KELIP: Large-scale Bilingual Language-Image Contrastive LearningICLRW 2022代码
ZeroVL: Contrastive Vision-Language Pre-training with Limited ResourcesECCV 2022代码
SLIP: Self-supervision meets Language-Image Pre-trainingECCV 2022代码
UniCL: Unified Contrastive Learning in Image-Text-Label SpaceCVPR 2022代码
LiT: Zero-Shot Transfer with Locked-image text TuningCVPR 2022代码
GroupViT: Semantic Segmentation Emerges from Text SupervisionCVPR 2022代码
PyramidCLIP: Hierarchical Feature Alignment for Vision-language Model PretrainingNeurIPS 2022-
UniCLIP: Unified Framework for Contrastive Language-Image Pre-trainingNeurIPS 2022-
K-LITE: Learning Transferable Visual Models with External KnowledgeNeurIPS 2022代码
FIBER: Coarse-to-Fine Vision-Language Pre-training with Fusion in the BackboneNeurIPS 2022代码
Chinese CLIP: Contrastive Vision-Language Pretraining in ChinesearXiv 2022代码
AltCLIP: Altering the Language Encoder in CLIP for Extended Language CapabilitiesarXiv 2022代码
SegCLIP: Patch Aggregation with Learnable Centers for Open-Vocabulary Semantic SegmentationarXiv 2022代码
NLIP: Noise-robust Language-Image Pre-trainingAAAI 2023-
PaLI: A Jointly-Scaled Multilingual Language-Image ModelICLR 2023项目
HiCLIP: Contrastive Language-Image Pretraining with Hierarchy-aware AttentionICLR 2023代码
CLIPPO: Image-and-Language Understanding from Pixels OnlyCVPR 2023代码
RA-CLIP: Retrieval Augmented Contrastive Language-Image Pre-trainingCVPR 2023-
DeAR: Debiasing Vision-Language Models with Additive ResidualsCVPR 2023-
Filtering, Distillation, and Hard Negatives for Vision-Language Pre-TrainingCVPR 2023代码
LaCLIP: Improving CLIP Training with Language RewritesNeurIPS 2023代码
ALIP: Adaptive Language-Image Pre-training with Synthetic CaptionICCV 2023代码
GrowCLIP: Data-aware Automatic Model Growing for Large-scale Contrastive Language-Image Pre-trainingICCV 2023-
CLIPpy: Perceptual Grouping in Contrastive Vision-Language ModelsICCV 2023-

预训练与生成目标

预训练与对齐目标

视觉-语言模型迁移学习方法

带提示调优的迁移

带文本提示调优的迁移

论文标题发表时间代码/项目
CoOp: Learning to Prompt for Vision-Language ModelsIJCV 2022代码
CoCoOp: Conditional Prompt Learning for Vision-Language ModelsCVPR 2022代码
ProDA: Prompt Distribution LearningCVPR 2022-
DenseClip: Language-Guided Dense Prediction with Context-Aware PromptingCVPR 2022代码
TPT: Test-time prompt tuning for zero-shot generalization in vision-language modelsNeurIPS 2022代码
DualCoOp: Fast Adaptation to Multi-Label Recognition with Limited AnnotationsNeurIPS 2022代码
CPL: Counterfactual Prompt Learning for Vision and Language ModelsEMNLP 2022代码
Bayesian Prompt Learning for Image-Language Model GeneralizationarXiv 2022-
UPL: Unsupervised Prompt Learning for Vision-Language ModelsarXiv 2022代码
ProGrad: Prompt-aligned Gradient for Prompt TuningarXiv 2022代码
SoftCPT: Prompt Tuning with Soft Context Sharing for Vision-Language ModelsarXiv 2022代码
SubPT: Understanding and Mitigating Overfitting in Prompt Tuning for Vision-Language ModelsTCSVT 2023代码
LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of Vision & Language ModelsCVPR 2023代码
LMPT: Prompt Tuning with Class-Specific Embedding Loss for Long-tailed Multi-Label Visual RecognitionarXiv 2023代码
Texts as Images in Prompt Tuning for Multi-Label Image RecognitionCVPR 2023代码
Visual-Language Prompt Tuning with Knowledge-guided Context OptimizationCVPR 2023代码
Learning to Name Classes for Vision and Language ModelsCVPR 2023-
PLOT: Prompt Learning with Optimal Transport for Vision-Language ModelsICLR 2023代码
CuPL: What does a platypus look like? Generating customized prompts for zero-shot image classificationICCV 2023代码
ProTeCt: Prompt Tuning for Hierarchical ConsistencyarXiv 2023-
Enhancing CLIP with CLIP: Exploring Pseudolabeling for Limited-Label Prompt TuningarXiv 2023代码
Why Is Prompt Tuning for Vision-Language Models Robust to Noisy Labels?ICCV 2023代码
Gradient-Regulated Meta-Prompt Learning for Generalizable Vision-Language ModelsICCV 2023-
Knowledge-Aware Prompt Tuning for Generalizable Vision-Language ModelsICCV 2023-
Read-only Prompt Optimization for Vision-Language Few-shot LearningICCV 2023代码
Bayesian Prompt Learning for Image-Language Model GeneralizationICCV 2023代码
Distribution-Aware Prompt Tuning for Vision-Language ModelsICCV 2023代码
LPT: Long-Tailed Prompt Tuning For Image ClassificationICCV 2023代码
Diverse Data Augmentation with Diffusions for Effective Test-time Prompt TuningICCV 2023代码
CLAP: Isolating Content from Style through Contrastive Learning with Augmented PromptsECCV 2024代码

Transfer with Visual Prompt Tuning

Transfer with Text and Visual Prompt Tuning

Transfer with Feature Adapter

论文标题发表时间代码/项目
Clip-Adapter: Better Vision-Language Models with Feature AdaptersarXiv 2021代码
Tip-Adapte: Training-free Adaption of CLIP for Few-shot ClassificationECCV 2022代码
SVL-Adapter: Self-Supervised Adapter for Vision-Language Pretrained ModelsBMVC 2022代码
CLIPPR: Improving Zero-Shot Models with Label Distribution PriorsarXiv 2022代码
SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for Few-shot Image ClassificationarXiv 2022-
SuS-X: Training-Free Name-Only Transfer of Vision-Language ModelsICCV 2023代码
VL-PET: Vision-and-Language Parameter-Efficient Tuning via Granularity ControlICCV 2023代码
SAM-Adapter: Adapting SAM in Underperformed Scenes: Camouflage, Shadow, Medical Image Segmentation, and MorearXiv 2023代码
Segment Anything in High QualityarXiv 2023代码
HGCLIP: Exploring Vision-Language Models with Graph Representations for Hierarchical UnderstandingarXiv 2023代码
CLAP: Contrastive Learning with Augmented Prompts for Robustness on Pretrained Vision-Language ModelsarXiv 2023-
论文发表在代码/项目
---------------------------------------------------:-------------::------------:
VT-Clip: Enhancing Vision-Language Models with Visual-guided TextsarXiv 2021-
Wise-FT: Robust fine-tuning of zero-shot modelsCVPR 2022代码
MaskCLIP: Extract Free Dense Labels from CLIPECCV 2022代码
MUST: Masked Unsupervised Self-training for Label-free Image ClassificationICLR 2023代码
CALIP: Zero-Shot Enhancement of CLIP with Parameter-free AttentionAAAI 2023代码
Semantic Prompt for Few-Shot Image RecognitionCVPR 2023-
Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot LearnersCVPR 2023代码
Task Residual for Tuning Vision-Language ModelsCVPR 2023代码
Deeply Coupled Cross-Modal Prompt LearningACL 2023代码
Prompt Ensemble Self-training for Open-Vocabulary Domain AdaptationarXiv 2023-
Personalize Segment Anything Model with One ShotarXiv 2023代码
Chils: Zero-shot image classification with hierarchical label setsICML 2023代码
Improving Zero-shot Generalization and Robustness of Multi-modal ModelsCVPR 2023代码
Exploiting Category Names for Few-Shot Classification with Vision-Language ModelsICLR W 2023-
Beyond Sole Strength: Customized Ensembles for Generalized Vision-Language ModelsarXiv 2023代码
Regularized Mask Tuning: Uncovering Hidden Knowledge in Pre-trained Vision-Language ModelsICCV 2023代码
PromptStyler: Prompt-driven Style Generation for Source-free Domain GeneralizationICCV 2023代码
PADCLIP: Pseudo-labeling with Adaptive Debiasing in CLIP for Unsupervised Domain AdaptationICCV 2023-
Black Box Few-Shot Adaptation for Vision-Language modelsICCV 2023代码
AD-CLIP: Adapting Domains in Prompt Space Using CLIPICCVW 2023-
Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction TuningarXiv 2023代码
Language Models as Black-Box Optimizers for Vision-Language ModelsarXiv 2023-

视觉-语言模型知识蒸馏方法

用于对象检测的知识蒸馏

论文发表在代码/项目
ViLD: Open-vocabulary Object Detection via Vision and Language Knowledge DistillationICLR 2022代码
DetPro: Learning to Prompt for Open-Vocabulary Object Detection with Vision-Language ModelCVPR 2022代码
XPM: Open-Vocabulary Instance Segmentation via Robust Cross-Modal Pseudo-LabelingCVPR 2022代码
Bridging the Gap between Object and Image-level Representations for Open-Vocabulary DetectionNeurIPS 2022代码
PromptDet: Towards Open-vocabulary Detection using Uncurated ImagesECCV 2022代码
PB-OVD: Open Vocabulary Object Detection with Pseudo Bounding-Box LabelsECCV 2022代码
OV-DETR: Open-Vocabulary DETR with Conditional MatchingECCV 2022代码
Detic: Detecting Twenty-thousand Classes using Image-level SupervisionECCV 2022代码
OWL-ViT: Simple Open-Vocabulary Object Detection with Vision TransformersECCV 2022代码
VL-PLM: Exploiting Unlabeled Data with Vision and Language Models for Object DetectionECCV 2022代码
ZSD-YOLO: Zero-shot Object Detection Through Vision-Language Embedding AlignmentarXiv 2022代码
HierKD: Open-Vocabulary One-Stage Detection with Hierarchical Visual-Language Knowledge DistillationarXiv 2022代码
VLDet: Learning Object-Language Alignments for Open-Vocabulary Object DetectionICLR 2023代码
F-VLM: Open-Vocabulary Object Detection upon Frozen Vision and Language ModelsICLR 2023代码
CondHead: Learning to Detect and Segment for Open Vocabulary Object DetectionCVPR 2023-
Aligning Bag of Regions for Open-Vocabulary Object DetectionCVPR 2023代码
Region-Aware Pretraining for Open-Vocabulary Object Detection with Vision TransformersCVPR 2023代码
Object-Aware Distillation Pyramid for Open-Vocabulary Object DetectionCVPR 2023代码
CORA: Adapting CLIP for Open-Vocabulary Detection with Region Prompting and Anchor Pre-MatchingCVPR 2023代码
DetCLIPv2: Scalable Open-Vocabulary Object Detection Pre-training via Word-Region AlignmentCVPR 2023-
Detecting Everything in the Open World: Towards Universal Object DetectionCVPR 2023代码
CapDet: Unifying Dense Captioning and Open-World Detection PretrainingCVPR 2023-
Contextual Object Detection with Multimodal Large Language ModelsarXiv 2023代码
Building One-class Detector for Anything: Open-vocabulary Zero-shot OOD Detection Using Text-image ModelsarXiv 2023代码
EdaDet: Open-Vocabulary Object Detection Using Early Dense AlignmentICCV 2023代码
Improving Pseudo Labels for Open-Vocabulary Object DetectionarXiv 2023-

用于语义分割的知识蒸馏

论文发表年份代码/项目
SSIW: 在不进行任何分割示例的情况下进行“野外”语义分割arXiv 2021-
ReCo: 用于零样本迁移的检索和共分割NeurIPS 2022代码
CLIMS: 用于弱监督语义分割的跨语言图像匹配CVPR 2022代码
CLIPSeg: 使用文本和图像提示进行图像分割CVPR 2022代码
ZegFormer: 解耦零样本语义分割CVPR 2022代码
LSeg: 由语言驱动的语义分割ICLR 2022代码
ZSSeg: 使用预训练视觉-语言模型进行开放词汇语义分割的简单基线ECCV 2022代码
OpenSeg: 使用图像级标签扩展开放词汇图像分割ECCV 2022代码
Fusioner: 使用冻结的视觉-语言模型进行开放词汇语义分割BMVC 2022代码
OVSeg: 使用蒙版调整的CLIP进行开放词汇语义分割CVPR 2023代码
ZegCLIP: 适应CLIP进行零样本语义分割CVPR 2023代码
CLIP也是一种高效的分割器:一种文本驱动的弱监督语义分割方法CVPR 2023代码
FreeSeg: 统一、通用和开放词汇的图像分割CVPR 2023代码
Mask-free OVIS: 无需手动蒙版注释的开放词汇实例分割CVPR 2023代码
在没有人为标签的情况下探索开放词汇语义分割arXiv 2023-
OpenVIS: 开放词汇视频实例分割arXiv 2023-
Segment Anything 是一种用于弱监督语义分割的优秀伪标签生成器arXiv 2023-
使用 Segment Anything Model (SAM) 增强伪标签进行弱监督语义分割arXiv 2023代码
即插即用,无密集标签:从视觉-语言模型中提取开放词汇语义分割arXiv 2023-
SegPrompt: 通过类别级别的提示学习提升开放世界分割ICCV 2023代码
ICPC: 使用对比学习进行实例条件提示的语义分割arXiv 2023-
卷积死得很难:使用单一冻结卷积CLIP进行开放词汇分割arXiv 2023代码
即插即用,无密集标签:从视觉-语言模型中提取开放词汇语义分割arXiv 2023-

知识蒸馏用于其他任务

论文发表年份代码/项目
控制视觉-语言模型用于通用图像修复arXiv 2023代码
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号