Logo

#实时处理

Logo of TensorFlowTTS
TensorFlowTTS
探索TensorFlowTTS:快速、灵活的多语言语音合成平台,采用最新技术如Tacotron-2、MelGAN,可部署于移动设备,助力全球开发者创造多语种语音应用。
Logo of BackgroundMattingV2
BackgroundMattingV2
该项目开发了实时高分辨率背景抠图技术,通过额外背景图像实现高质量抠图。研究展示了创新的神经网络架构,并提供新数据集。成果获CVPR 2021最佳学生论文荣誉提名,推动视频处理和图像编辑技术发展。
Logo of MonocularRGB_3D_Handpose_WACV18
MonocularRGB_3D_Handpose_WACV18
MonocularRGB_3D_Handpose_WACV18项目开发了一种基于单个RGB摄像头的实时多手3D姿态估计方法。该方法融合深度学习与生成式技术,实现了不受限场景下的实时单目3D手部姿态估计。项目通过手部检测、2D关节估计和3D模型拟合三个步骤完成姿态估计。代码库包含Ubuntu 16.04二进制文件、Python脚本,支持多种2D关节估计器,并提供Docker配置便于测试。
Logo of awesome-streaming
awesome-streaming
本项目汇集了实时数据流处理领域的优质资源,涵盖流处理框架、应用、库和工具等。包含Apache Flink、Spark Streaming等知名开源项目,以及IoT和机器学习等领域的专业解决方案。为开发者提供全面参考,便于选择合适的流处理技术。
Logo of persian-license-plate-recognition
persian-license-plate-recognition
利用先进的深度学习模型和友好界面,实现高精度的波斯车牌识别。适用于交通监控和自动车辆识别,支持实时视频流处理与管理。
Logo of RapidTranscribe.com
RapidTranscribe.com
RapidTranscribe.com提供专业的音视频转文字服务,支持100多种语言。该平台具备说话人分离、YouTube集成、可编辑报告等功能,能快速准确地处理常见音视频格式。通过转录会议和教学视频,用户可提高工作效率并改善内容可访问性。该平台为个人和企业提供多种定价方案,以满足不同需求。
Logo of Anime4K
Anime4K
Anime4K是一套开源的实时动漫画质优化算法,专为1080p动漫设计。它能在实时播放中将画面上采样至4K分辨率,效果超越waifu2x。项目包含多种算法和着色器,如CNN上采样、去模糊和降噪等,可根据不同动漫和个人需求自定义。Anime4K致力于保留原始内容,为观众提供更多选择。该算法可在Windows、Linux和Mac等多个平台上实现。
Logo of DeepFilterNet
DeepFilterNet
DeepFilterNet是一个低复杂度的全频段音频(48kHz)实时语音增强框架,支持Linux、MacOS和Windows。该项目包含用于数据加载和增强的Rust代码模块,以及Python接口和预训练模型。它还支持LADSPA插件,用于实时噪声抑制,并提供详细的安装和使用指南,适用于终端命令行、Python脚本和深度学习模型训练等多种应用场景。
Logo of Gladia
Gladia
Gladia是一个音频智能处理API平台,基于优化的Whisper ASR技术提供实时和异步语音转文字、多语言翻译服务。平台集成了摘要生成、章节划分、情感分析等音频智能功能,支持99种语言。通过简单的API集成,开发者可以快速为应用添加先进的音频AI能力,有效挖掘音频数据价值。
Logo of ESANet
ESANet
ESANet是一个高效的RGB-D语义分割网络,专为室内场景分析设计。该网络在NVIDIA Jetson AGX Xavier上实现实时语义分割,适用于移动机器人的实时场景分析系统。项目提供训练和评估代码,支持模型转换至ONNX和TensorRT,并可测量推理时间。ESANet在NYUv2、SUNRGB-D和Cityscapes等数据集上展现出优异性能。
Logo of aubiojs
aubiojs
aubiojs是一个基于aubio的JavaScript实时音频处理库,主要提供实时音高检测和BPM计算功能。该库支持Web和Node.js环境,具有易用性和高性能特点。利用aubiojs可进行音频分析和处理,适用于音乐应用和声音识别等项目。通过emscripten编译,aubiojs实现了高效的跨平台兼容性。
Logo of live-captions.com
live-captions.com
live-captions.com提供实时字幕和交互式转录服务,支持近140种语言和方言。该平台易于集成,无需编程即可实现基本功能,可与RTMP流无缝对接。适用于会议、直播等场景,提供实时处理和录制媒体的字幕生成,为用户提供经济高效的无障碍解决方案。
Logo of pipeless
pipeless
Pipeless是一个开源框架,旨在简化计算机视觉应用的开发和部署过程。该框架自动化处理代码并行化、多媒体管道和内存管理等复杂任务,加速实时应用开发。Pipeless采用模块化设计,支持动态组合处理阶段和多种推理运行时,可部署于边缘设备和云端。通过简化开发流程,Pipeless有效提升了计算机视觉项目的开发效率。