推理服务框架

模型 (Model)：是“大脑”，包含具体的参数权重（Weights）。例如：Llama-3-8B、Qwen-2.5-72B。它是一个静态的文件。引擎 (Engine/Runtime)：是“身体”或“执行者”，负责让大脑动起来。它读取模型文件，进行数学计算，生成文字。 llama.cpp 不包含具体的模型权重（除了示例用的微小模型）。你需要下载一个模型文件（如 model.gguf），然后告诉 llama.cpp 去加载它。结论：llama.cpp 是典型的推理运行时（Inference Runtime）。

Xinference / vLLM：通常是基于 Python 的重型引擎，依赖 PyTorch 或 TensorFlow，主要面向服务器端、高并发场景，对 GPU 优化极佳。 llama.cpp：是零依赖（或极少依赖）的 C++ 实现，极度轻量化，核心优势是能在没有高端 GPU 的设备上运行（如笔记本电脑 CPU、树莓派、甚至手机和浏览器 WASM）。

☁️ 部署建议