Project Icon

psi

开源框架助力多模态集成AI系统开发

Platform for Situated Intelligence (\psi)是一个开源框架,专注于多模态集成AI系统的开发和研究。它提供高性能基础设施处理多模态时序流数据,并配备数据可视化、标注和处理工具。\psi包含丰富的组件生态系统,支持各类传感器、处理技术和执行器。该框架适用于开发社交机器人、混合现实系统等应用,尤其擅长处理流式传感器数据、整合多种AI技术,并满足低延迟要求。

情境智能平台

构建状态 加入Gitter聊天

情境智能平台(简称\psi,发音如希腊字母)是一个开放、可扩展的框架,用于多模态、集成式人工智能系统的开发和研究。例如多模态交互系统,如社交机器人和具身会话代理、混合现实系统、环境智能或智能空间应用等。本质上,任何处理流式传输、传感器数据(如音频、视频、深度等),结合多种人工智能技术,并在延迟约束下运行的应用都可以从该框架提供的便利中受益。

该框架提供:

  • 用于处理多模态、时间流数据的现代高性能基础设施
  • 一套用于多模态数据可视化、注释和处理的工具
  • 各种传感器、处理技术和执行器的组件生态系统

Psi概览

关于该框架的高级概述可在这篇博文中找到。包含简短介绍和如何使用\psi编程的教程的网络研讨会可在此在线视频中观看。关于该框架的深入描述可在这份技术报告中找到。

最新动态

2024年3月14日:除了下一个beta版本0.19之外,我们很高兴宣布发布一个名为情境交互指导监控和辅助(SIGMA)的新应用。SIGMA基于\psi构建,是一个基准原型和测试平台系统,旨在加速混合现实任务辅助代理的研究。它采用仅限研究的许可证,研究人员可以试验并在此原型基础上进行开发,以研究开发实时交互式混合现实代理所面临的诸多挑战。快来看看吧!

2022年12月8日:本周我们发布了beta版本0.18,继续完善对使用\psi构建混合现实应用的支持,并进一步发展PsiStudio的调试和可视化功能。

2022年4月21日:我们最近发布了beta版本0.17,其中包括对\psi混合现实支持的重要更新,包括一套用于将数据从HoloLens 2流式传输到单独PC进行数据收集和导出的工具。此版本还包括对可视化和PsiStudio的多项更新,增加了运行MaskRCNN模型的包装器,更新了Azure Kinect组件,以及一些运行时更新和各种其他错误修复。

2021年7月29日:查看这个新的示例应用,它展示了如何将\psi与Teams机器人架构集成,以开发可以参与实时会议的机器人!(请注意,尽管它托管在Microsoft Graph存储库中,但您应该在这里发布有关此示例的任何问题或问题)。

2021年5月2日:我们已经开放了存储库的讨论标签,并计划将其用作与社区其他成员联系的场所。请使用这些论坛提问分享想法和功能请求展示您使用\psi构建的酷炫组件或项目,并与其他社区成员进行互动。

2021年4月29日:感谢所有参加情境智能平台研讨会的人!在这次研讨会中,我们讨论了如何使用该框架加速您在多模态、集成式人工智能领域的工作的基础知识;展示了一些深入的教程、演示和新功能预览;还举办了一个关于如何建立和培养开源社区的有趣小组讨论。所有会议都已录制,您现在可以在活动网站上找到这些视频。

入门

\psi核心基础设施构建在.NET Standard上,因此可以在Windows和Linux上运行。一些组件和工具更具体,仅在其中一个操作系统上可用。您可以通过利用\psi NuGet包克隆并构建源代码来构建\psi应用程序。 简介。 要了解更多关于 \psi 及如何用它构建应用程序,我们建议您从简介教程开始,它将带您了解一些主要概念。它展示了如何创建一个简单的程序,描述了流的核心概念,并解释了如何转换、同步、可视化、持久化和从磁盘重放流。

视频网络研讨会。 如果您更喜欢通过观看关于框架的演示来入门,这个视频网络研讨会提供了30分钟的框架高级概述,随后是30分钟的实践编码环节,展示如何编写第一个简单的应用程序。或者,您可以观看这个演示,它是我们作为Tech Minutes系列的一部分,提供了一个较短(约13分钟)的高级概述。

示例。 如果您想直接从示例代码开始,我们提供了许多小型示例应用程序,其中几个有详细说明,解释了示例的构建方式并指向额外的文档。我们建议您从以下示例开始,按复杂度递增排列:

名称描述跨平台要求
HelloWorld
HelloWorld预览
这个示例提供了创建\psi应用程序最简单的起点:它演示了如何创建和运行一个包含单个流的简单\psi管道。
SimpleVoiceActivityDetector
SimpleVAD预览
这个示例从麦克风捕获音频并执行语音活动检测,即计算一个布尔信号,指示音频是否包含有声语音。麦克风
WebcamWithAudio for WindowsLinux
Webcam预览
这个示例展示了如何显示来自摄像头的图像和来自麦克风的音频能量水平,并说明了流同步的基础知识。网络摄像头和麦克风
WhatIsThat
WhatIsThat预览
这个示例实现了一个简单的应用程序,使用Azure Kinect传感器检测人指向的物体。仅WindowsAzure Kinect + 认知服务
HoloLensSample
HoloLens示例演示之一的可视化输出流预览gif
这个示例演示了如何为HoloLens 2开发混合现实\psi应用程序。UWPHoloLens 2

文档。 \psi的文档可在GitHub项目wiki中找到。它包含许多额外资源,包括[教程](https://github.com/microsoft/psi/blob/master/ https://github.com/microsoft/psi/wiki/Tutorials)、其他[专门主题](https://github.com/microsoft/psi/blob/master/ https://github.com/microsoft/psi/wiki/Other-Topics),以及完整的[API参考](https://microsoft.github.io/psi/api/Microsoft.Psi.html),可以帮助您更多地了解该框架。

获取帮助

如果您发现了bug或想要请求新功能或额外文档,请在GitHub上提交问题。使用bug标签提交代表代码缺陷的问题,并提供足够的信息以重现该bug。使用feature request标签请求新功能,使用documentation标签请求额外文档。

请也使用讨论来提出一般问题,分享关于您可能感兴趣的新功能或应用程序的想法,展示您用\psi构建的精彩项目,并与其他社区成员互动。

贡献

我们期待与社区合作,改进和发展Platform for Situated Intelligence!我们欢迎各种形式的贡献:从简单地使用它并提交问题和bug,到编写和发布您自己的新组件,再到为bug修复或新功能创建拉取请求。wiki中的贡献指南页面描述了许多您可以参与的方式,以及在向代码库贡献之前需要了解的一些有用信息。 要了解有关我们未来计划的更多信息,请参阅路线图文档。

使用者

情境智能平台目前正在被多个行业和学术研究实验室使用,包括(但不限于):

如果您希望被添加到此列表中,只需提交一个GitHub问题并用whoisusing标签标记它。添加您希望我们链接到的研究实验室、网站或项目的网址。

技术报告

关于该框架更深入的描述可在此技术报告中找到。请按以下格式引用:

@misc{bohus2021platform,
      title={Platform for Situated Intelligence}, 
      author={Dan Bohus and Sean Andrist and Ashley Feniello and Nick Saw and Mihai Jalobeanu and Patrick Sweeney and Anne Loomis Thompson and Eric Horvitz},
      year={2021},
      eprint={2103.15975},
      archivePrefix={arXiv},
      primaryClass={cs.AI}
}

免责声明

代码库目前处于测试阶段,框架的各个方面正在积极开发中。代码中可能仍存在错误,我们可能会对API进行重大更改。

虽然情境智能平台的源代码和Microsoft.Psi.* NuGet包均采用MIT许可证,但我们的代码和NuGet包依赖于其他NuGet包。如果您使用情境智能平台构建应用程序,请检查解决方案中所有引用的NuGet包的许可要求。

许可证

情境智能平台采用MIT许可证,但Applications文件夹下的所有文件(包括SIGMA应用程序)除外,这些文件采用微软研究院许可协议发布。另请参阅第三方声明

商标

本项目可能包含项目、产品或服务的商标或标志。微软商标或标志的授权使用必须遵循微软商标和品牌指南。在本项目的修改版本中使用微软商标或标志不得引起混淆或暗示微软赞助。任何第三方商标或标志的使用均受这些第三方政策的约束。

致谢

我们要感谢我们的内部合作者和外部早期采用者,包括(但不限于):微软研究院的Daniel McDuffKael RowanLev NachmansonMike Barnett,卡内基梅隆大学MultiComp实验室的Chirag Raman和Louis-Phillipe Morency,以及博伊西州立大学SLIM研究小组和西北大学定性推理小组的研究人员。

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能,包括文生视频、动态画面和形象生成等,帮助用户快速上手,创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台,用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品,帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型,为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能,满足事务性工作的高频需求,帮助撰稿人节省精力,提高效率,优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号