#CPU
mixtral-offloading
该项目实现了Mixtral-8x7B模型的高效推理,使用混合量化和MoE卸载策略。通过HQQ量化方案分别处理注意力层和专家层,使模型适应GPU和CPU内存。每层的专家单独卸载并在需要时重新加载到GPU,活跃专家存储在LRU缓存中以减少GPU-RAM通信。更多技术细节和结果请参阅技术报告。
cpumemory-zhtw
本项目提供Ulrich Drepper经典论文《What Every Programmer Should Know About Memory》的中文翻译。内容涵盖现代计算机内存系统结构、CPU缓存原理及优化策略,旨在帮助开发者深入理解内存机制,提升程序性能。该资源对于关注软件效率的程序员具有重要参考价值。
lightweight-human-pose-estimation.pytorch
该项目实现了实时2D多人人体姿态估计的训练代码,基于OpenPose优化技术,使其能够在CPU上进行实时推理且准确度几乎不变。此模型能够识别并连接18个关键点,在COCO 2017数据集的验证集上达到40%的AP。项目对多种深度学习框架和设备友好支持。
ThirdAI
ThirdAI开发创新技术,让大型语言模型(LLM)和前沿AI技术更易获取。其平台支持在普通CPU上训练和部署十亿参数级的定制化私有AI模型,无需GPU或专用硬件,实现超低延迟推理。这大幅降低了AI应用的成本和复杂度,可广泛应用于搜索、推荐、聊天机器人和虚拟助手等领域。