#视觉AI
OpenAI Vision API 实验集锦:探索计算机视觉的无限可能
awesome-openai-vision-api-experiments
该项目为OpenAI视觉API的研究与应用提供全面资源,覆盖从基础图像分类至高级的零次学习模型,适合初学者与专家共同探索、分享与合作。
awesome-yolo-object-detection
提供YOLO目标检测的全面资源汇编。包含官方以及多个针对特殊任务或硬件的优化版本,涵盖YOLOv1至YOLOv7等系列。项目中还包括丰富的学习资源、应用示例及工具,为学者和开发者提供了解及使用YOLO技术的优质资料。
Grounded-Segment-Anything
Grounded-Segment-Anything项目结合了Grounding DINO和Segment Anything模型的优势,能够根据文本提示检测和分割图像中的任意物体。该工具为开放世界场景中的目标检测和分割任务提供了有效解决方案,支持自动标注、3D人体网格重建和图像编辑等多种应用。通过提高检测和分割精度并提升工作效率,Grounded-Segment-Anything为计算机视觉领域带来了显著进展。
Descrb
Descrb是专为电商开发的AI产品页面生成工具。该工具通过扫描产品照片自动识别商品信息,生成产品描述、规格和属性。结合视觉AI和自然语言处理技术,Descrb提高产品上架效率,减少文案撰写时间,优化页面转化率。适用于电商平台、市场和PIM软件,无需训练即可处理多种产品类型。
Applitools
Applitools是一个AI驱动的端到端测试平台,融合Visual AI、GenAI和无代码方法,最大化测试覆盖率并自动化维护。平台支持快速创建测试、自动维护、减少误报,提高质量降低成本。可验证多种屏幕和设备上的用户界面,适用于组件、网站、Web应用、移动应用等场景,广泛应用于金融、零售、医疗等行业。
idefics2-8b
Idefics2是一款多模态AI模型,支持图像和文本的任意序列输入并生成文本输出。它能回答图像问题、描述视觉内容、基于多图创作故事,也可作为纯语言模型使用。相比前代,Idefics2在OCR、文档理解和视觉推理方面有显著提升。模型提供8B参数基础版、指令微调版和长对话优化版,均以Apache 2.0许可开源发布。