#实时
riffusion-app-hobby
Riffusion是一款基于稳定扩散技术的实时音乐生成应用程序,支持Next.js、React、Typescript、three.js、Tailwind和Vercel技术栈。用户可通过安装Node v18或更高版本运行开发服务器,并在本地浏览器中查看应用。项目需要配置推理服务器来快速生成模型输出,适用于大GPU用户。请在二次开发时引用相关工作。
bark.cpp
bark.cpp 是一个用纯 C/C++ 编写的开源项目,实现了 SunoAI 的 bark 模型,用于提供高质量的实时多语言文本到语音转换。该项目无需外部依赖,支持 AVX、AVX2 和 AVX512 指令集,兼容 CPU 和 GPU,并提供 F16/F32 混合精度和多种量化选项。用户可以轻松进行构建、下载模型和转换格式。社区成员可以通过报告问题、提出新功能或提交 pull request 来贡献代码。
sherpa-ncnn
sherpa-ncnn 是一个开源的实时语音识别项目,支持 Linux、macOS、Windows 及嵌入式设备。基于 ncnn 框架开发,无需依赖 PyTorch,具有轻量化和高效性特点。项目提供详细文档、演示视频和 Android 应用开发指南。支持多语言识别和背景噪音处理,适用于各种语音识别应用场景。
CityGaussian
CityGaussian项目开发了一种创新的分而治之训练方法和细节层次(LoD)策略,用于高效训练和渲染大规模3D高斯溅射场景。该方法利用全局场景先验和自适应训练数据选择,实现高效训练和无缝融合。通过融合高斯基元生成不同细节层次,并采用块级细节层次选择和聚合策略,实现跨尺度的快速渲染。实验结果显示,CityGaussian在大规模场景上实现了先进的渲染质量,并能在不同尺度下保持一致的实时渲染性能。
deepkit-framework
Deepkit Framework是一个面向企业级应用开发的TypeScript框架。它集成了独立的TypeScript库,提供高性能和实时处理能力。框架支持HTTP、RPC和CLI控制器,包含ORM集成和GraphQL支持。Deepkit生态系统涵盖OpenAPI生成、Serverless适配器等社区包,为开发者提供多样化的功能选择。