#CPU
mixtral-offloading
该项目实现了Mixtral-8x7B模型的高效推理,使用混合量化和MoE卸载策略。通过HQQ量化方案分别处理注意力层和专家层,使模型适应GPU和CPU内存。每层的专家单独卸载并在需要时重新加载到GPU,活跃专家存储在LRU缓存中以减少GPU-RAM通信。更多技术细节和结果请参阅技术报告。
lightweight-human-pose-estimation.pytorch
该项目实现了实时2D多人人体姿态估计的训练代码,基于OpenPose优化技术,使其能够在CPU上进行实时推理且准确度几乎不变。此模型能够识别并连接18个关键点,在COCO 2017数据集的验证集上达到40%的AP。项目对多种深度学习框架和设备友好支持。
pytorch_scatter
该扩展库为PyTorch提供了高效的稀疏更新和分段操作,包含scatter、segment_coo和segment_csr,支持sum、mean、min和max等归约方式。操作可适用于不同数据类型,并支持CPU和GPU。复合功能包括scatter_std、scatter_logsumexp、scatter_softmax和scatter_log_softmax。安装过程简单,适用于各大操作系统和PyTorch/CUDA组合。
putting-the-you-in-cpu
该项目全面探讨计算机从启动到程序执行的过程,涵盖程序运行、系统调用和多任务处理等核心概念。通过深入研究,项目提供了一份详尽的计算机系统工作原理指南,适合希望了解计算机底层机制的读者。项目内容包括计算机启动过程、程序执行机制、系统调用原理和多任务处理技术。通过系统性研究,为读者呈现了一个全面的计算机底层工作原理指南,填补了许多人在这一领域的知识空白。
cpumemory-zhtw
本项目提供Ulrich Drepper经典论文《What Every Programmer Should Know About Memory》的中文翻译。内容涵盖现代计算机内存系统结构、CPU缓存原理及优化策略,旨在帮助开发者深入理解内存机制,提升程序性能。该资源对于关注软件效率的程序员具有重要参考价值。
ThirdAI
ThirdAI开发创新技术,让大型语言模型(LLM)和前沿AI技术更易获取。其平台支持在普通CPU上训练和部署十亿参数级的定制化私有AI模型,无需GPU或专用硬件,实现超低延迟推理。这大幅降低了AI应用的成本和复杂度,可广泛应用于搜索、推荐、聊天机器人和虚拟助手等领域。