#实时交互

VideoLLM-online: 突破性的流式视频大语言模型

3 个月前

VideoLLM-online 流媒体视频实时交互大语言模型视频处理 Github 开源项目

3 个月前

相关项目

GPT-4o

GPT-4o是一款突破性的AI工具，整合了文本、视觉和音频处理功能。它的实时响应和情感检测能力为教育、内容创作和客户服务带来了新的可能。GPT-4o的多模态处理和即时交互为用户提供了流畅的AI体验，其普及性有助于推动全球AI技术的创新应用。

NvCloth

NvCloth是一个为实时交互应用设计的布料模拟库。它提供快速稳健的布料模拟功能，适用于游戏开发，支持动画角色的碰撞检测和响应。NvCloth采用低开销的底层接口，易于集成，为开发者提供高效的布料模拟方案。该库与PhysX 4.0兼容，能为游戏和交互应用带来逼真的布料效果。

videollm-online

VideoLLM-online是一款针对流媒体视频的在线大语言模型。该模型支持视频流实时交互，可主动更新响应，如记录活动变化和提供实时指导。项目通过创新的数据合成方法将离线注释转化为流式对话数据，并采用并行化推理技术实现高速处理，在A100 GPU上处理速度可达10-15 FPS。VideoLLM-online在在线和离线环境中均表现出色，能高效处理长达10分钟的视频，为视频理解与交互领域带来新的可能性。

engine

Galacean Engine是一个高性能实时交互引擎，提供2D和3D图形渲染、动画系统、物理特性和交互功能。采用组件系统设计，支持HTML5和支付宝小程序，适用于Web和移动平台。开发者可使用TypeScript脚本进行项目开发，充分利用引擎的性能和灵活性。

moshika-pytorch-bf16

Moshi是基于bf16的Pytorch实现的实时全双工语音对话模型，支持流式语音识别与文本到语音转换，拥有低延迟，适合自然语音交互场景。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com