Project Icon

superpowered

多平台实时低延迟音频SDK及开发工具集

这是一个开源项目,提供跨平台C++音频、网络和加密SDK。主要特点包括低功耗和实时低延迟处理,支持Android、iOS、macOS等多种系统。SDK功能涵盖音频播放、解码、效果器、流媒体等,适用于桌面、移动和嵌入式设备开发。项目还集成了网络通信和加密模块,为开发者提供全面的音频应用开发工具。

AudioDec - 流式高保真神经音频编解码开源项目
AudioDecGithub开源开源项目流式传输神经音频编解码器高保真
AudioDec项目开发了一种流式高保真神经音频编解码器,可以12.8 kbps的比特率处理48 kHz单声道语音。该编解码器在GPU上解码延迟约6毫秒,CPU上约10毫秒。项目采用两阶段训练方法,利用预训练模型可快速为新应用训练编码器。AudioDec在压缩率、延迟和重建质量方面均表现优异,适用于实时通信等场景。
AudioGPT - 多功能音频生成与理解平台,支持语音、音乐、音效及虚拟人对话
AudioGPTGithub开源项目语音增强语音识别音乐生成音频合成
AudioGPT 是一个多功能音频生成与理解平台,具备语音合成、语音识别、语音分离、风格迁移、声音检测、声音提取、文本到音频转换等功能,还支持音乐生成与虚拟人对话。集成了 FastSpeech、whisper、GeneFace 等多个领先的基础模型,AudioGPT 为开发者提供强大的开源工具和预训练模型,支持多种音频相关任务,不断扩展其功能和应用场景。此平台适合音频处理、自然语言处理及多模态研究的需求。
RealtimeSTT_LLM_TTS - 整合语音识别与AI对话的开源项目
GPU支持GithubRealtimeSTT唤醒词实时转录开源项目语音转文字
该项目集成语音识别、AI对话和语音合成,支持GPU加速以实现低延迟交互。具备语音检测、实时转录和唤醒词等功能,可用于开发语音助手和AI对话应用。Web界面支持个性化配置,适合快速构建语音交互系统。
tracktion_engine - 跨平台音频应用开发框架 适用于简单播放器到专业DAW
GithubJUCE模块Tracktion Engine开源项目跨平台支持音序器音频应用开发
tracktion_engine是一个用于构建基于序列的音频应用程序的高级框架。它支持主流桌面和移动操作系统,适用于开发各类音频应用,从简单播放器到专业DAW。该引擎具备文件管理、音频处理、MIDI支持等核心功能,基于C++20开发。作为JUCE模块提供,方便集成到现有JUCE项目中。
awesome-audio-plaza - 全球音频领域的最新研究成果和创新项目
Github开源项目自然语言处理语音合成语音识别音乐生成音频项目
Awesome Audio Plaza汇聚全球音频领域的最新研究成果和创新项目。涵盖自然语音合成、音乐创作、自动语音识别至声音转换等多个子领域,为研究人员、学者及爱好者提供了一个内容丰富的信息平台。该平台通过整合arxiv、Hugging Face日报、Twitter、GitHub等多种资源,确保用户能够访问到前沿科研和技术动态。
awesome-broadcasting - 广播行业开源工具和库精选
Github媒体处理开源广播资源开源项目流媒体视频制作音频编码器
该项目汇集了广播行业各领域的开源资源,包括演播室设备、编解码器、控制系统、媒体处理、播出系统等。涵盖时钟屏幕、伴随应用、互联电视、DVB、图形播出、混合广播、IP传输、播放器、元数据、质量控制等多个类别的工具和库,为广播专业人员提供全面的技术参考。
Superpowered AI - 检索增强生成平台 优化AI响应精准度
AI工具APILLMSuperStack检索增强生成知识库
Superpowered AI专注于提供检索增强生成(RAG)服务。平台采用SuperStack技术,包含AutoQuery、相关片段提取和AutoContext功能,解决了传统RAG系统的不足。支持多样化的数据接入和灵活部署,提供REST API、Python包和React组件。适用于客户服务、员工效率提升、法律分析和教育等领域。平台注重数据安全,使用256位AES加密。目前已获得6000多用户的信赖,正在推动检索增强生成技术的创新应用。
standardized-audio-context - Web Audio API跨浏览器封装库 实现统一可靠的音频处理
AudioContextGithubOfflineAudioContextWeb Audio API开源项目跨浏览器兼容音频处理
standardized-audio-context是Web Audio API的跨浏览器封装库,提供几乎完整的API子集。作为ponyfill实现,不影响全局作用域,可安全用于其他库。该项目专注实现缺失功能,避免重写内置特性,在支持的浏览器中提供一致可靠的音频处理能力,为开发者提供标准化的Web音频开发体验。
SemantiCodec-inference - 超低比特率音频编解码器优化潜在空间语义
GithubSemantiCodec低比特率开源项目神经网络语义空间音频编解码
SemantiCodec是一个开源的神经音频编解码器项目,提供0.31-1.40 kbps的超低比特率音频压缩。通过优化潜在空间的语义表示,实现高效的音频编码和解码。支持25-100每秒的灵活令牌率,兼容CPU、CUDA和MPS平台。项目提供简单的API接口,适用于需要高压缩率同时保持音质的应用场景。
livekit - 基于WebRTC的开源实时通信框架
GithubLiveKitWebRTC多人会议实时通信开源项目
LiveKit是基于WebRTC的开源项目,提供可扩展的多用户实时通信功能。它包含丰富的客户端SDK、服务器API和工具,支持语音检测、模拟广播和端到端加密等特性。LiveKit易于部署,适用于视频会议、直播等场景。该项目为开发者提供构建实时音视频和数据通信应用所需的全套解决方案。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号