#加速
Medusa - 使用多个解码头加速 LLM 生成的简单框架
Medusa加速LLM生成多解码头性能优化Github开源项目
Medusa框架通过多解码头技术加速大型语言模型(LLM)的生成,解决了草稿模型需求、系统复杂性和采样生成效率低的问题。在保持原模型性能的基础上,Medusa通过添加新解码头预测多个未来词,显著提升生成速度。最新的Medusa-2版本支持全模型训练和自我蒸馏,使任何微调后的LLM都能利用Medusa,无需原始训练数据。测试显示在不同LLM上提升了2.2-3.6倍的速度。
ffcv - 插入式数据加载系统,可显著提高模型训练中的数据吞吐量
ffcv模型训练数据加载计算机视觉加速Github开源项目
FFCV通过加速数据加载,显著提升模型训练的数据吞吐量,同时保持训练算法不变,极大地减少训练时间和成本。例如,使用FFCV在一块GPU上训练ImageNet模型仅需35分钟,而CIFAR-10模型仅需36秒。FFCV还提供预封装的标准视觉基准代码、自动优化的数据处理功能,以及适用于各种资源约束环境的灵活选项。更多详细信息和安装指南,请访问官方网站。
medusa-vicuna-7b-v1.3 - 采用多解码头技术的LLM加速框架
多头解码深度学习加速推理HuggingfaceGithub开源项目模型Medusa
Medusa是一个通过多解码头技术加速LLM生成的开源框架,支持7B、13B和33B模型权重。提供便捷的pip安装和源码构建选项,允许自定义模型格式加载。支持单GPU推理,未来将集成更多推理框架,开放社区贡献。