i-Code

打造集成可组合的多模态人工智能框架

Project i-Code 多模态人工智能基础模型文档智能视觉问答 Github 开源项目

i-Code是一个致力于多模态人工智能研究的开源项目。它提供了多个版本的多模态基础模型，包括i-Code V1、V2和V3(CoDi)，以及i-Code Studio框架。项目还涉及多模态文档智能和基于知识的视觉问答技术。i-Code为AI领域提供了集成视觉、语言和语音的多模态工具，促进了人工智能的跨领域发展。

访问官网

Github

介绍相关项目

SkyCode-AI-CodeX-GPT3 - 多语言支持与中文优化的开源代码生成模型

GPT3GithubSkyCode代码生成多语言开源模型开源项目

SkyCode是一款由奇点智源发布的多语言开源代码生成模型，基于GPT3架构并使用大量代码进行训练。支持Java、JavaScript、C、C++、Python、Go和shell等主流编程语言，并能理解中文注释。SkyCode在中文编码优化和HumanEval数据集的解题性能上表现卓越，使开发者能够高效完成编程任务。了解更多信息，请访问Hugging Face模型主页。

AgileCoder - 基于敏捷方法论的多智能体软件开发框架

AgileCoderGithub任务导向多智能体框架开源项目敏捷方法论软件开发

AgileCoder是一个基于敏捷方法论的多智能体软件开发框架。该框架通过动态任务列表和迭代冲刺阶段模拟真实软件开发流程，支持OpenAI、Azure OpenAI和Anthropic等多种模型。AgileCoder能够生成复杂软件项目，在HumanEval、MBPP和ProjectDev等评估中展现了优秀性能。

ImageBind - 跨模态AI模型实现六种感官数据的统一嵌入

CVPR 2023GithubImageBind多模态嵌入开源项目跨模态检索零样本分类

ImageBind是由Meta AI研发的AI模型，可将图像、文本、音频、深度、热感和IMU数据统一到单一嵌入空间。该模型支持跨模态检索、模态组合运算、检测和生成等应用，在多个零样本分类任务中表现良好。ImageBind为多模态AI研究提供了新思路，研究者可通过其开源的PyTorch实现和预训练模型进行进一步探索。

video_features - 多模态视频特征提取框架支持多种深度学习模型

GitHub项目Github多模态分析开源项目深度学习模型视频特征提取计算机视觉

video_features是一个开源的视频特征提取框架，支持视觉、音频和光流等多种模态。该框架集成了S3D、R(2+1)d、I3D-Net等动作识别模型，VGGish声音识别模型，以及RAFT光流提取模型。它支持多GPU和多节点并行处理，可通过命令行或Colab快速使用。输出格式灵活，适用于视频分析相关的研究和应用。

MiniCPM-V-2 - 多模态语言模型，支持跨平台高效部署

GithubHuggingfaceMiniCPM-V场景文本理解多模态开源项目模型深度学习视觉问答

MiniCPM-V 2.0是一个多模态大模型，以高效端侧部署和可靠性为特色，支持OCRBench和TextVQA等基准测试。该模型结合RLHF多模态技术，减少幻觉生成，并能处理任意宽高比的高分辨率图像。MiniCPM-V 2.0可在多数GPU和PC上高效运行，拥有中英双语支持，并能够在移动设备上执行，提供多种部署选择。

cody - AI 代码助手

AI编程助手CodyGithubSourcegraph代码助手大语言模型开源项目

Cody是一款开源AI编码助手，通过搜索和代码库上下文帮助更快地理解、编写和修复代码。支持最新的Claude 3.5 Sonnet和GPT-4o语言模型。Cody提供聊天、自动补全、内联编辑和快捷命令功能，适用于VS Code、JetBrains和网页端。个人和团队均可免费使用，并支持Sourcegraph账户访问免费的大型语言模型。

moondream - 小巧高效的视觉语言模型兼容多平台运行

AI问答Githubmoondream图像识别开源项目深度学习视觉语言模型

moondream是一款小型视觉语言模型，可在多种平台上运行。该模型在VQAv2、GQA和TextVQA等基准测试中表现优异，能够回答图像相关问题并提供详细描述。moondream支持批量处理，可通过transformers库或GitHub仓库使用。尽管体积小巧，该模型在图像理解和问答任务上表现出色。

llava-onevision-qwen2-0.5b-si - 多模态AI模型实现图像、多图和视频的智能交互

GithubHuggingfaceLLaVA-OneVisionQwen2图像处理多模态开源项目模型视觉语言模型

LLaVA-OneVision是一个基于Qwen2的多模态AI模型，能够处理图像、多图和视频输入。它具有32K tokens的上下文窗口，支持英文和中文交互。该模型在AI2D、ChartQA和DocVQA等多项任务中表现优异，为视觉语言应用提供了强大的基础。LLaVA-OneVision采用LLaVA-OneVision数据集进行训练，可轻松集成到各类视觉语言项目中。

CodeGPT - AI编码助手和可定制智能代理平台

AI工具AI编程IDE扩展代码助手企业解决方案开发者工具

CodeGPT是开发者的智能编程助手，集成于VS Code等主流IDE。平台支持自定义AI代理，确保数据安全的同时提供多种AI模型选择。通过工作流整合，CodeGPT有效提升编码效率，为各类开发团队提供智能化编程支持。

OpenCodeInterpreter - 集成代码生成、执行和优化的开源系统

GithubOpenCodeInterpreter人工智能代码生成开源项目执行反馈模型性能

OpenCodeInterpreter是一套开源代码生成系统，通过集成执行和迭代优化功能，提高了代码生成能力。该项目提供多个模型系列，展示了执行反馈对提升代码解释和执行性能的影响。项目还开源了Code-Feedback数据集，包含68K多轮交互，并提供本地演示系统。

相关项目

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号