推理服务框架
模型 (Model):是“大脑”,包含具体的参数权重(Weights)。例如:Llama-3-8B、Qwen-2.5-72B。它是一个静态的文件。 引擎 (Engine/Runtime):是“身体”或“执行者”,负责让大脑动起来。它读取模型文件,进行数学计算,生成文字。 llama.cpp 不包含具体的模型权重(除了示例用的微小模型)。 你需要下载一个模型文件(如 model.gguf),然后告诉 llama.cpp 去加载它。 结论:llama.cpp 是典型的推理运行时(Inference Runtime)。
Xinference / vLLM:通常是基于 Python 的重型引擎,依赖 PyTorch 或 TensorFlow,主要面向服务器端、高并发场景,对 GPU 优化极佳。 llama.cpp:是零依赖(或极少依赖)的 C++ 实现,极度轻量化,核心优势是能在没有高端 GPU 的设备上运行(如笔记本电脑 CPU、树莓派、甚至手机和浏览器 WASM)。