Jlama
Jlama是一款面向Java应用的大型语言模型推理引擎,提供对GPT-2、BERT等模型的支持,集成多种分词器。其功能包括闪电注意力、专家混合,同时支持多种数据类型处理。Jlama借助最新Vector API加速推理,可实现分布式处理,适合集成LLM推理的开发者使用。