情境智能平台
情境智能平台(简称\psi,发音如希腊字母)是一个开放、可扩展的框架,用于多模态、集成式人工智能系统的开发和研究。例如多模态交互系统,如社交机器人和具身会话代理、混合现实系统、环境智能或智能空间应用等。本质上,任何处理流式传输、传感器数据(如音频、视频、深度等),结合多种人工智能技术,并在延迟约束下运行的应用都可以从该框架提供的便利中受益。
该框架提供:
- 用于处理多模态、时间流数据的现代高性能基础设施
- 一套用于多模态数据可视化、注释和处理的工具
- 各种传感器、处理技术和执行器的组件生态系统
关于该框架的高级概述可在这篇博文中找到。包含简短介绍和如何使用\psi编程的教程的网络研讨会可在此在线视频中观看。关于该框架的深入描述可在这份技术报告中找到。
最新动态
2024年3月14日:除了下一个beta版本0.19之外,我们很高兴宣布发布一个名为情境交互指导监控和辅助(SIGMA)的新应用。SIGMA基于\psi构建,是一个基准原型和测试平台系统,旨在加速混合现实任务辅助代理的研究。它采用仅限研究的许可证,研究人员可以试验并在此原型基础上进行开发,以研究开发实时交互式混合现实代理所面临的诸多挑战。快来看看吧!
2022年12月8日:本周我们发布了beta版本0.18,继续完善对使用\psi构建混合现实应用的支持,并进一步发展PsiStudio的调试和可视化功能。
2022年4月21日:我们最近发布了beta版本0.17,其中包括对\psi混合现实支持的重要更新,包括一套用于将数据从HoloLens 2流式传输到单独PC进行数据收集和导出的工具。此版本还包括对可视化和PsiStudio的多项更新,增加了运行MaskRCNN模型的包装器,更新了Azure Kinect组件,以及一些运行时更新和各种其他错误修复。
2021年7月29日:查看这个新的示例应用,它展示了如何将\psi与Teams机器人架构集成,以开发可以参与实时会议的机器人!(请注意,尽管它托管在Microsoft Graph存储库中,但您应该在这里发布有关此示例的任何问题或问题)。
2021年5月2日:我们已经开放了存储库的讨论标签,并计划将其用作与社区其他成员联系的场所。请使用这些论坛提问、分享想法和功能请求、展示您使用\psi构建的酷炫组件或项目,并与其他社区成员进行互动。
2021年4月29日:感谢所有参加情境智能平台研讨会的人!在这次研讨会中,我们讨论了如何使用该框架加速您在多模态、集成式人工智能领域的工作的基础知识;展示了一些深入的教程、演示和新功能预览;还举办了一个关于如何建立和培养开源社区的有趣小组讨论。所有会议都已录制,您现在可以在活动网站上找到这些视频。
入门
\psi核心基础设施构建在.NET Standard上,因此可以在Windows和Linux上运行。一些组件和工具更具体,仅在其中一个操作系统上可用。您可以通过利用\psi NuGet包或克隆并构建源代码来构建\psi应用程序。 简介。 要了解更多关于 \psi 及如何用它构建应用程序,我们建议您从简介教程开始,它将带您了解一些主要概念。它展示了如何创建一个简单的程序,描述了流的核心概念,并解释了如何转换、同步、可视化、持久化和从磁盘重放流。
视频网络研讨会。 如果您更喜欢通过观看关于框架的演示来入门,这个视频网络研讨会提供了30分钟的框架高级概述,随后是30分钟的实践编码环节,展示如何编写第一个简单的应用程序。或者,您可以观看这个演示,它是我们作为Tech Minutes系列的一部分,提供了一个较短(约13分钟)的高级概述。
示例。 如果您想直接从示例代码开始,我们提供了许多小型示例应用程序,其中几个有详细说明,解释了示例的构建方式并指向额外的文档。我们建议您从以下示例开始,按复杂度递增排列:
名称 | 描述 | 跨平台 | 要求 |
---|---|---|---|
HelloWorld | 这个示例提供了创建\psi应用程序最简单的起点:它演示了如何创建和运行一个包含单个流的简单\psi管道。 | 是 | 无 |
SimpleVoiceActivityDetector | 这个示例从麦克风捕获音频并执行语音活动检测,即计算一个布尔信号,指示音频是否包含有声语音。 | 是 | 麦克风 |
WebcamWithAudio for Windows 或 Linux | 这个示例展示了如何显示来自摄像头的图像和来自麦克风的音频能量水平,并说明了流同步的基础知识。 | 是 | 网络摄像头和麦克风 |
WhatIsThat | 这个示例实现了一个简单的应用程序,使用Azure Kinect传感器检测人指向的物体。 | 仅Windows | Azure Kinect + 认知服务 |
HoloLensSample | 这个示例演示了如何为HoloLens 2开发混合现实\psi应用程序。 | UWP | HoloLens 2 |
文档。 \psi的文档可在GitHub项目wiki中找到。它包含许多额外资源,包括[教程](https://github.com/microsoft/psi/blob/master/ https://github.com/microsoft/psi/wiki/Tutorials)、其他[专门主题](https://github.com/microsoft/psi/blob/master/ https://github.com/microsoft/psi/wiki/Other-Topics),以及完整的[API参考](https://microsoft.github.io/psi/api/Microsoft.Psi.html),可以帮助您更多地了解该框架。
获取帮助
如果您发现了bug或想要请求新功能或额外文档,请在GitHub上提交问题。使用bug
标签提交代表代码缺陷的问题,并提供足够的信息以重现该bug。使用feature request
标签请求新功能,使用documentation
标签请求额外文档。
请也使用讨论来提出一般问题,分享关于您可能感兴趣的新功能或应用程序的想法,展示您用\psi构建的精彩项目,并与其他社区成员互动。
贡献
我们期待与社区合作,改进和发展Platform for Situated Intelligence!我们欢迎各种形式的贡献:从简单地使用它并提交问题和bug,到编写和发布您自己的新组件,再到为bug修复或新功能创建拉取请求。wiki中的贡献指南页面描述了许多您可以参与的方式,以及在向代码库贡献之前需要了解的一些有用信息。 要了解有关我们未来计划的更多信息,请参阅路线图文档。
使用者
情境智能平台目前正在被多个行业和学术研究实验室使用,包括(但不限于):
- 微软研究院的情境交互项目,以及其他研究项目。
- 麻省理工学院的交互式机器人小组。
- 卡内基梅隆大学的MultiComp实验室。
- 博伊西州立大学的语音语言与交互式机器研究小组。
- 西北大学的定性推理小组。
- 南加州大学创新技术研究所的智能人类感知实验室。
- 卡内基梅隆大学的Teledia研究小组。
- 富兰克林与马歇尔学院的F&M计算、情感、机器人和伦理科学(F&M CARES)实验室。
- 卡内基梅隆大学的交通、机器人与残障实验室。
如果您希望被添加到此列表中,只需提交一个GitHub问题并用whoisusing
标签标记它。添加您希望我们链接到的研究实验室、网站或项目的网址。
技术报告
关于该框架更深入的描述可在此技术报告中找到。请按以下格式引用:
@misc{bohus2021platform,
title={Platform for Situated Intelligence},
author={Dan Bohus and Sean Andrist and Ashley Feniello and Nick Saw and Mihai Jalobeanu and Patrick Sweeney and Anne Loomis Thompson and Eric Horvitz},
year={2021},
eprint={2103.15975},
archivePrefix={arXiv},
primaryClass={cs.AI}
}
免责声明
代码库目前处于测试阶段,框架的各个方面正在积极开发中。代码中可能仍存在错误,我们可能会对API进行重大更改。
虽然情境智能平台的源代码和Microsoft.Psi.*
NuGet包均采用MIT许可证,但我们的代码和NuGet包依赖于其他NuGet包。如果您使用情境智能平台构建应用程序,请检查解决方案中所有引用的NuGet包的许可要求。
许可证
情境智能平台采用MIT许可证,但Applications文件夹下的所有文件(包括SIGMA应用程序)除外,这些文件采用微软研究院许可协议发布。另请参阅第三方声明。
商标
本项目可能包含项目、产品或服务的商标或标志。微软商标或标志的授权使用必须遵循微软商标和品牌指南。在本项目的修改版本中使用微软商标或标志不得引起混淆或暗示微软赞助。任何第三方商标或标志的使用均受这些第三方政策的约束。
致谢
我们要感谢我们的内部合作者和外部早期采用者,包括(但不限于):微软研究院的Daniel McDuff、Kael Rowan、Lev Nachmanson和Mike Barnett,卡内基梅隆大学MultiComp实验室的Chirag Raman和Louis-Phillipe Morency,以及博伊西州立大学SLIM研究小组和西北大学定性推理小组的研究人员。