Project Icon

SemantiCodec-inference

超低比特率音频编解码器优化潜在空间语义

SemantiCodec是一个开源的神经音频编解码器项目,提供0.31-1.40 kbps的超低比特率音频压缩。通过优化潜在空间的语义表示,实现高效的音频编码和解码。支持25-100每秒的灵活令牌率,兼容CPU、CUDA和MPS平台。项目提供简单的API接口,适用于需要高压缩率同时保持音质的应用场景。

stable-audio-metrics - 音频生成模型评估指标集合
GPU支持Githubstable-audio-metrics开源项目数据结构音频指标音频生成模型评估
stable-audio-metrics是一个评估音乐和音频生成模型的开源指标集合。它包含基于Openl3的Fréchet距离、基于PaSST的Kullback-Leibler散度和基于CLAP-LAION的CLAP分数。该项目针对长形式全频带立体声生成进行了优化,支持可变长度输入,并提供了详细文档和示例。适用于评估MusicCaps、AudioCaps和Song Describer等数据集的音频生成质量。
sparseml - 神经网络优化工具,简化代码实现高效稀疏模型
GithubSparseML开源项目推理优化模型优化神经网络稀疏化
SparseML是开源模型压缩工具包,使用剪枝、量化和蒸馏算法优化推理稀疏模型。可导出到ONNX,并与DeepSparse结合,在CPU上实现GPU级性能。适用于稀疏迁移学习和从零开始的稀疏化,兼容主流NLP和CV模型,如BERT、YOLOv5和ResNet-50,实现推理速度和模型大小的显著优化。
llm-compressor - 开源大型语言模型压缩优化库
GithubHugging FaceLLM Compressorvllm开源项目模型优化量化
llm-compressor是一个专注于大型语言模型优化和压缩的开源库。它提供全面的量化算法集,支持权重和激活量化,并与Hugging Face模型和仓库无缝集成。该项目采用safetensors文件格式,确保与vllm兼容,同时通过accelerate支持大规模模型处理。llm-compressor涵盖多种量化格式和算法,包括激活量化、混合精度和稀疏化技术,为模型优化提供灵活多样的选择。
sematic - 开源的机器学习平台,支持ML工程师和数据科学家使用Python编写并运行复杂的端到端流水线
GithubKubernetesPythonSematic开源开源项目机器学习
Sematic是一个开源的机器学习平台,支持ML工程师和数据科学家使用Python编写并运行复杂的端到端流水线。无论在本地计算机、云虚拟机还是Kubernetes集群上执行,Sematic都可以高效利用云资源。它具有易于上手、端到端可追溯性、本地与云一致性和高可重复性等特点,可在无需部署或额外基础设施的情况下开始使用,所有流水线步骤都可以在web仪表盘上监控和可视化,适用于优化不同计算资源。
bigvgan_base_22khz_80band - 支持多采样率的通用神经声码器音频合成系统
BigVGANGithubHuggingfacePyTorch开源项目模型神经声码器语音合成音频生成
BigVGAN是一个基于PyTorch的神经声码器项目,通过大规模数据训练实现音频合成。该模型支持44kHz采样率和512倍上采样,集成CUDA推理加速,可处理语音、环境声音和乐器等音频。项目提供多种预训练模型,覆盖不同采样率和mel频带参数配置,适用于多样化的音频生成需求。
SECap - 语音情感转文字描述的开源AI系统
GithubSECap大语言模型开源项目情感分析语音情感描述音频处理
SECap是一个开源的语音情感描述生成系统,结合大语言模型技术将语音情感转化为文字描述。项目包含模型代码、训练测试脚本和600个音频样本的测试集。系统能捕捉语音情感特征并生成相应描述,为语音情感分析研究提供新的工具和思路。
nncf - Neural Network Compression Framework:高效神经网络推理压缩算法
GithubNeural Network Compression FrameworkONNXOpenVINOPyTorchTensorFlow开源项目
Neural Network Compression Framework (NNCF) 提供一套后训练和训练时的优化算法,用于在 OpenVINO 中优化神经网络推理,保证最小的精度损失。NNCF 支持 PyTorch、TensorFlow 和 ONNX 等模型,并提供示例展示不同压缩算法的使用案例。NNCF 还支持自动化模型图转换、分布式训练和多种算法的无缝组合,支持将压缩后的 PyTorch 模型导出为 ONNX 检查点及将 TensorFlow 模型导出为 SavedModel 格式。
BigVGAN - 大规模训练的通用神经网络声码器
BigVGANGithub开源项目深度学习神经声码器语音合成音频处理
BigVGAN是一个通过大规模训练实现的通用神经网络声码器。它可高质量合成多语言语音、环境声音和乐器声音等多种音频。项目提供多个预训练模型,支持44kHz采样率和512倍上采样比率。BigVGAN集成自定义CUDA内核,在单个A100 GPU上推理速度提升1.5-3倍。
LookaheadDecoding - 创新并行算法加速大型语言模型推理
GithubJacobi迭代LLMLookahead Decoding并行解码开源项目推理加速
LookaheadDecoding项目开发了一种创新的并行解码算法,旨在加速大型语言模型(LLM)的推理过程。该方法不依赖草稿模型或数据存储,而是结合Jacobi迭代和n-gram缓存技术,有效减少解码步骤。实验结果显示,在多个数据集上可将延迟降低1.5到2.3倍。项目提供便捷的安装和使用方式,并支持FlashAttention技术,可广泛应用于各类LLM场景。
llmc - 开源工具压缩大型语言模型提升效率
GithubLLMCLLM压缩剪枝开源项目性能优化量化
llmc是一个压缩大型语言模型的开源工具,采用先进压缩算法提高效率和减小模型体积。它支持多种LLM和压缩方法,可在单GPU上量化评估大模型,兼容多种推理后端。项目提供LLM量化基准,帮助用户选择合适的压缩策略。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号