#视觉感知
agentlego - 多模态工具扩展及集成的开源库
AgentLego大语言模型视觉感知图像生成语音处理Github开源项目
AgentLego是一个提供多种工具API的开源库,旨在增强基于大语言模型的代理功能。它支持多模态工具,如视觉感知、图像生成与编辑、语音处理等,且易于集成到LangChain、Transformers Agents和Lagent等框架中。同时,AgentLego支持远程访问和工具服务,适用于需要大型机器学习模型或特定环境的应用。
Emu - 多模态AI模型 图像文本智能生成的新突破
Emu多模态模型生成式人工智能视觉感知自然语言处理Github开源项目
Emu是BAAI开发的先进多模态生成模型系列,包括入选ICLR 2024的Emu1和CVPR 2024的Emu2。这些模型展示了卓越的多模态理解和生成能力,能在复杂环境中无缝生成图像和文本。Emu在图像描述、视觉问答等任务中表现优异,超越了许多现有模型。作为通用基础模型,Emu适用于广泛的应用场景,如智能创作、视觉分析等,代表了AI技术的新发展方向。BAAI开源Emu旨在推动多模态智能研究的进步,为下一代AI技术发展铺平道路。