llama

Note

默认安装的 llama-cpp-python 在 Windows 只支持 CPU 或 NVIDIA CUDA GPU。

llama-cpp-python OpenAI 兼容 API

pip install llama-cpp-python[server]

python -m llama_cpp.server --model "C:\Users\wjn.lmstudio\models\chaparro2001\Qwen3-4B-Instruct-2507-Q4_K_M-GGUF\qwen3-4b-instruct-2507-q4_k_m.gguf" --model_alias qwen --n_ctx 16382

cpu 推理

--n_gpu_layers 0 --n_threads 8 --n_ctx 4096

普通gpu

--n_gpu_layers 30 --n_ctx 8192 --n_threads 8

http://localhost:8000/v1/models

☁️ 部署建议

如果你打算长期运行项目（博客 / API / 自动化脚本），建议直接用云服务器，会比本地稳定很多。

👉 查看云服务器（新用户优惠）