Cortex简介
Cortex是一个用C++编写的AI引擎,提供Docker风格的命令行界面和客户端库。它支持使用ONNX、TensorRT-LLM和llama.cpp等引擎运行AI模型,可以作为独立服务器运行或集成为库使用。
Cortex目前仍在开发中,可能存在一些bug和突破性变化。但它已经具备了强大的功能,值得AI开发者关注和尝试。
主要功能
Cortex支持以下三种核心引擎:
- cortex.llamacpp:C++推理工具,支持GGUF模型的推理,在CPU和GPU上都有良好的性能优化。
- cortex.onnx:基于onnxruntime-genai的Windows推理库,使用DirectML提供GPU加速。
- cortex.tensorrt-llm:专为NVIDIA GPU设计的推理库,集成了TensorRT-LLM进行GPU加速推理。
安装方法
Cortex提供了多种安装方式:
- MacOS:
brew install cortex-engine
- Windows:
winget install cortex-engine
- Linux:
sudo apt install cortex-engine
也可以从源码构建安装,具体步骤请参考官方文档。
此外,Cortex还提供了JavaScript和Python的客户端库:
快速开始
安装完成后,可以通过以下命令快速开始使用Cortex:
# 启动Cortex服务器
cortex
# 启动一个模型
cortex run [model_id]
# 与模型对话
cortex chat [model_id]
支持的模型
Cortex支持多种流行的LLM模型,包括:
- llama.cpp引擎:mistral、llama3、phi3等
- ONNX引擎:gemma、llama3、mistral等
- TensorRT-LLM引擎:llama3、mistral等
完整的支持模型列表可以在Cortex Hub上查看。
常用CLI命令
Cortex提供了丰富的命令行工具,主要包括:
- 模型管理:拉取、启动、停止、删除模型等
- 对话:与模型进行对话
- 嵌入:获取文本嵌入向量
- 引擎管理:安装、配置引擎等
例如:
# 拉取模型
cortex pull [model_id]
# 启动模型
cortex models start [model_id]
# 与模型对话
cortex chat [options] [model_id] [message]
更多详细的CLI命令说明,请参考官方文档。
REST API
除了CLI,Cortex还提供了REST API,运行在localhost:1337
。主要包括:
- 拉取模型
- 启动/停止模型
- 与模型对话
- 获取嵌入向量
API的完整说明文档可以在这里查看。
总结
Cortex是一个功能丰富、易于使用的AI开发工具,适合需要在本地运行和定制AI模型的开发者。它支持多种流行的模型和引擎,提供了便捷的CLI和API接口,大大简化了AI应用的开发流程。
如果您在使用过程中遇到任何问题,可以通过GitHub Issues或Discord社区寻求帮助。Cortex团队也欢迎开发者参与项目贡献,共同推动这个强大工具的发展。