Project Icon

bitsandbytes

高效CUDA优化库 支持多位量化和矩阵运算

bitsandbytes是一个轻量级Python库,为CUDA自定义函数提供封装。该库主要提供8位优化器、矩阵乘法(LLM.int8())以及8位和4位量化功能。通过bitsandbytes.nn模块实现多位线性层,bitsandbytes.optim模块提供优化器。目前正在拓展对更多硬件后端的支持,包括Intel CPU+GPU、AMD GPU和Apple Silicon,Windows平台的支持也在开发中。

MiniCPM-V-2_6-GGUF - 使用imatrix量化优化模型性能
GithubHuggingfaceMiniCPM-V-2_6transformers多语言开源项目模型视觉处理量化
项目应用llama.cpp的imatrix量化方法,优化模型的文本性能。提供多种量化文件,适配不同硬件配置,尤其适合低RAM环境。这一技术允许根据系统RAM和GPU VRAM选择合适的模型,实现性能与速度的平衡。支持多模态图像-文本转换和多语言处理,可在LM Studio中运行,为开源社区提供多样化的工具和使用选择。
qulacs - 快速高效的量子电路模拟库 适用于大规模复杂和参数化电路
C++GPUGithubPythonQulacs开源项目量子电路模拟
Qulacs是一个Python/C++开发的高性能量子电路模拟库,专注于大规模、含噪声和参数化量子电路的快速模拟。它采用并行化C/C++后端,支持噪声模型、参数化量子门和电路优化。Qulacs提供GPU加速功能和丰富的量子计算研究工具。在多项基准测试中,Qulacs展现出优秀的性能,适用于广泛的量子计算研究领域。
FBGEMM - 针对服务器端推理的高性能低精度矩阵运算库
FBGEMMGithubPyTorch低精度计算开源项目服务器推理矩阵乘法
FBGEMM是一个专注于服务器端推理的高性能低精度矩阵运算库。它提供小批量的高效低精度矩阵乘法,支持行级量化等技术以最小化精度损失,并通过操作融合解决低精度计算的挑战。作为PyTorch在x86平台上量化算子的后端,FBGEMM为深度学习推理提供了关键支持。
bittensor - 基于区块链的分布式机器学习网络
BittensorGithub区块链去中心化开源项目机器学习神经网络
Bittensor是一个创新的分布式机器学习网络,通过区块链代币机制激励计算机提供高效的AI模型服务。该网络开放参与、无中心控制,任何人都可以贡献并获益。Bittensor正在重塑AI模型的开发、访问和价值分配模式,为去中心化AI生态系统提供基础设施。
AutoFP8 - 量化库优化大语言模型推理性能
AutoFP8FP8量化GithubvLLM开源项目模型压缩神经网络
AutoFP8是一个开源FP8量化库,用于生成vLLM兼容的压缩检查点。它提供FP8_E4M3精度的量化权重、激活和KV缓存比例,支持静态和动态激活方案。AutoFP8能将预训练模型转换为FP8格式,与vLLM无缝集成,提高大语言模型推理效率,同时保持模型精度。这个工具适用于优化和部署大规模语言模型。
pytorch - 能GPU加速的Python深度学习平台
GPU加速PyTorch深度学习神经网络
PyTorch是一个开源的提供强大GPU加速的张量计算和深度神经网络平台,基于动态autograd系统设计。它不仅支持广泛的科学计算需求,易于使用和扩展,还可以与Python的主流科学包如NumPy、SciPy无缝集成,是进行深度学习和AI研究的理想工具。
deepsparse - 优化CPU上深度学习推理的高效稀疏性使用
CPU推理DeepSparseGithubLLM支持开源项目模型量化稀疏性
DeepSparse是一个专为CPU优化的深度学习推理运行时,通过使用稀疏性显著加快模型推理速度。结合SparseML优化库,DeepSparse支持模型剪枝和量化,在CPU上实现卓越性能。支持各种计算机视觉和自然语言处理模型,包括BERT、ViT、ResNet、YOLOv5/8等。此外,DeepSparse现已支持高效的LLM推理,对稀疏量化模型实现多倍加速。可通过PyPI安装,并提供多种API便于部署。
CUDA-GEMM-Optimization - CUDA实现的GEMM优化与性能分析
CUDAGEMMGPU优化Github开源项目性能分析矩阵乘法
该项目展示了一系列针对通用矩阵乘法(GEMM)的CUDA内核优化实现。内容涵盖从基础到高度优化的多个GEMM内核版本,并提供了详细的性能分析。这些内核适用于任意矩阵大小,并针对NVIDIA GeForce RTX 3090 GPU进行了参数调优。项目包含Docker环境配置说明、编译运行指南,以及FP32和FP16 GEMM的性能对比,直观展示了不同优化技术对性能的影响。
chainer - Python深度学习框架,支持动态计算图和CUDA加速
CUDAChainerCuPyGithub开源项目深度学习自动微分
Chainer是一个Python深度学习框架,提供基于define-by-run方法的自动微分API(动态计算图)和面向对象的高级API,用于构建和训练神经网络。通过CuPy支持CUDA/cuDNN,实现高性能训练和推理。尽管Chainer已进入维护阶段,仅进行bug修复和维护,但其文档、教程和社区资源仍然活跃,适合研究和开发深度学习模型的用户。
Llama-2-7b-LoRA-alpaca-cleaned - 量化配置与训练过程的详细介绍
8bitGithubHuggingfacebfloat16bitsandbytespeft开源项目模型量化配置
该项目客观描述了在PEFT框架下应用bitsandbytes量化配置进行模型训练的详细过程,尤其是4bit量化策略与bfloat16计算类型的使用。这些配置旨在提升模型效率,优化计算负载表现。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号