mediapipe

支持在移动、Web、桌面、边缘设备和物联网中集成机器学习功能的平台

MediaPipe 机器学习人工智能跨平台开源项目 Github

MediaPipe为开发者提供了一个平台，支持在移动、Web、桌面、边缘设备和物联网中集成机器学习功能。通过跨平台API和预训练模型，可快速部署和定制AI解决方案。MediaPipe还包含模型定制工具和浏览器内的可视化评估工具，支持高效开发和迭代。欢迎访问Google官方文档了解更多，并参与社区交流和贡献。

访问官网

Github

介绍相关项目

PixelLM - 像素级推理与理解的大型多模态模型

GithubMUSE数据集PixelLM像素级推理图像分割多模态大模型开源项目

PixelLM是一种创新的大型多模态模型，专注于像素级推理和理解。它能处理开放集目标和复杂推理任务，同时保持LMM的基本结构。通过轻量级像素解码器和分割码本，PixelLM实现高效mask生成。项目同时推出MUSE数据集，为多目标推理分割研究提供高质量基准。在多个基准测试中，PixelLM展现出优越性能。

mlc-llm - 通用大语言模型高性能部署引擎

AI模型优化GithubMLC LLMMLCEngine开源项目机器学习编译器高性能部署

MLC LLM是一款用于大语言模型的高性能部署引擎，支持用户在各种平台上开发、优化和部署AI模型。核心组件MLCEngine通过REST服务器、Python、JavaScript、iOS和Android等接口提供OpenAI兼容的API，支持AMD、NVIDIA、Apple和Intel等多种硬件平台。项目持续优化编译器和引擎，与社区共同发展。

NewPipe - Android平台上的开源流媒体聚合应用

GithubNewPipe安卓开源软件开源项目流媒体视频播放器

NewPipe是一款Android平台的开源流媒体聚合应用，支持YouTube、PeerTube等多个视频音频服务。它提供4K视频播放、后台音频播放、画中画模式和频道订阅等功能。无需Google服务即可使用，不收集用户数据，注重用户隐私保护。NewPipe为用户提供了一个轻量级且功能丰富的流媒体体验。

ScreenAI - 深度理解界面和信息图的视觉语言模型

GithubScreenAIUI理解信息图表理解多模态开源项目视觉语言模型

ScreenAI是一个开源的多模态视觉语言模型，专注于用户界面(UI)和信息图的理解。该模型集成了视觉变换器(ViT)、注意力机制和前馈网络，能够处理图像和文本输入。通过深度学习技术，ScreenAI实现了对复杂视觉信息的处理和文本整合分析，为UI设计、信息可视化和人机交互研究提供了新的工具和方法。

generative-ai-android - Google Gemini API 的官方 Android 库

Android开发Gemini APIGithubGoogle AI SDKGoogle DeepMind多模态模型开源项目

Google AI Android SDK为Android开发者提供了一种简便方式来构建基于Gemini API的应用。使用这一SDK，可以无缝调用由Google DeepMind创建的多模态Gemini模型，实现跨文本、图像和代码的推理。尽管主要推荐用于快速原型开发，但在计划上线收费版本时，建议使用后端SDK以避免API密钥泄露风险。该SDK使模型初始化和API调用变得简单，从而加速应用开发。

ai_projects - 多领域机器学习项目开源仓库

AI项目GitHubGithubMiguel Fierro开源项目机器学习深度学习

ai_projects是一个涵盖多个机器学习领域的开源项目仓库。内容包括CNN、转移学习、推荐系统和自然语言处理等主题。每个项目都配有Jupyter笔记本和相关博客文章，为开发者和研究者提供实践资源。仓库定期更新，展示AI技术在实际应用中的最新进展。

Phi-3-Vision-MLX - 为Apple Silicon优化的多模态AI框架

AI框架Apple SiliconGithubPhi-3-MLX开源项目视觉模型语言模型

Phi-3-MLX是一个为Apple Silicon优化的AI框架，整合了Phi-3-Vision多模态模型和Phi-3-Mini-128K语言模型。该框架提供简洁接口，支持文本生成、视觉问答和代码执行等AI任务。项目特性包括批量处理、模型量化和LoRA微调，并可通过API扩展功能。Phi-3-MLX为开发者提供了高效灵活的AI工具，专为Apple Silicon设备设计。

PaddleHub - 多领域应用的跨平台AI模型服务平台

AI模型ERNIE-ViLGGithubHugging FacePaddleHubStable Diffusion开源项目

PaddleHub提供超过400种高质量AI模型，覆盖计算机视觉、自然语言处理和语音识别等领域。用户仅需3行代码即可进行模型预测，同时支持模型即服务，通过简单命令即可部署。最新版本v2.3.0引入了ERNIE-ViLG、Disco Diffusion和Stable Diffusion等模型，并支持在HuggingFace平台上发布。PaddleHub兼容Linux、Windows和MacOS，适合多平台开发。

BibiGPT-v1 - AI音视频内容一键总结与学习助理

AI总结BibiGPTBilibiliGithubOpenAI GPT-3.5YouTube开源项目热门

BibiGPT是一款先进的AI应用，专为YouTube和哔哩哔哩等平台设计，能够一键总结视频和音频内容。该项目利用OpenAI的ChatGPT API，通过Vercel Edge函数快速处理和总结大量信息，同时支持本地视频和音频文件，提供流畅的学习体验。此外，BibiGPT还设有速率限制和缓存机制，有效降低运营成本，支持Docker部署，方便用户在本地轻松运行和定制。

chameleon - 多模态早期融合基础模型的开源实现

AI研究GithubMeta Chameleon可视化工具多模态模型开源项目模型推理

Chameleon是Meta AI开发的多模态早期融合基础模型。项目提供GPU推理实现、浏览器端多模态输入输出查看工具和评估提示。开源内容包括模型代码、权重和数据集，支持多模态AI技术研究与应用。Chameleon能够在文本、图像等多种模态间实现高效融合和理解。

相关项目

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号