#视觉AI

awesome-openai-vision-api-experiments - OpenAI视觉API的研究与应用提供全面资源
OpenAI Vision APIGPT-4Vzero-shot学习图像分类视觉AIGithub开源项目
该项目为OpenAI视觉API的研究与应用提供全面资源,覆盖从基础图像分类至高级的零次学习模型,适合初学者与专家共同探索、分享与合作。
awesome-yolo-object-detection - YOLO目标检测开源项目与资源汇编
YOLO目标检测实时检测机器学习视觉AIGithub开源项目
提供YOLO目标检测的全面资源汇编。包含官方以及多个针对特殊任务或硬件的优化版本,涵盖YOLOv1至YOLOv7等系列。项目中还包括丰富的学习资源、应用示例及工具,为学者和开发者提供了解及使用YOLO技术的优质资料。
Grounded-Segment-Anything - 融合文本引导的开放世界目标检测与分割工具
Grounded-SAM目标检测图像分割视觉AI开源项目Github
Grounded-Segment-Anything项目结合了Grounding DINO和Segment Anything模型的优势,能够根据文本提示检测和分割图像中的任意物体。该工具为开放世界场景中的目标检测和分割任务提供了有效解决方案,支持自动标注、3D人体网格重建和图像编辑等多种应用。通过提高检测和分割精度并提升工作效率,Grounded-Segment-Anything为计算机视觉领域带来了显著进展。
Descrb - 电商产品页面AI生成工具
AI工具电商AI产品描述生成视觉AI销售增长自动化内容
Descrb是专为电商开发的AI产品页面生成工具。该工具通过扫描产品照片自动识别商品信息,生成产品描述、规格和属性。结合视觉AI和自然语言处理技术,Descrb提高产品上架效率,减少文案撰写时间,优化页面转化率。适用于电商平台、市场和PIM软件,无需训练即可处理多种产品类型。
Applitools - AI驱动的端到端测试平台 提高覆盖率降低维护成本
AI工具Applitools测试自动化视觉AI端到端测试用户界面测试
Applitools是一个AI驱动的端到端测试平台,融合Visual AI、GenAI和无代码方法,最大化测试覆盖率并自动化维护。平台支持快速创建测试、自动维护、减少误报,提高质量降低成本。可验证多种屏幕和设备上的用户界面,适用于组件、网站、Web应用、移动应用等场景,广泛应用于金融、零售、医疗等行业。
idefics2-8b - 多模态AI模型实现图文交互
模型图像理解Github开源项目多模态模型HuggingfaceIdefics2视觉AI自然语言对话
Idefics2是一款多模态AI模型,支持图像和文本的任意序列输入并生成文本输出。它能回答图像问题、描述视觉内容、基于多图创作故事,也可作为纯语言模型使用。相比前代,Idefics2在OCR、文档理解和视觉推理方面有显著提升。模型提供8B参数基础版、指令微调版和长对话优化版,均以Apache 2.0许可开源发布。