本地LLM显存计算器

您的GPU能运行它吗？了解哪些开源模型适合您的硬件 - 每种量化级别的显存需求，包含CPU卸载估算。

GPU

上下文长度

影响KV缓存显存开销。

高级选项(可选)

Custom VRAM

用于卸载的系统内存

Set > 0 to enable CPU offloading results.

M4 Pro 24GB(24 GB)|上下文: 32K

85models can run on your setup 85 完全载入显存

完全载入显存运行

(85)

(65)

+ 45 个无法运行的模型

常见问题

对于有HuggingFace GGUF数据的模型，估算基于实际文件大小，非常准确。对于其他模型，我们使用标准量化比率从参数数量计算。KV缓存在可用时使用架构详情。实际显存可能因运行时、批量大小和框架不同而有约5-10%的差异。

最佳平衡点是每GB质量比最优的量化级别。对于大多数模型，这是Q4_K_M - 它保留了约92%的全精度质量，同时比FP16小约4倍。低于Q4会出现明显的质量下降；高于Q5则收益递减。

当模型无法完全载入GPU显存时，部分层可以卸载到系统内存。GPU以全速处理其层，然后等待CPU。速度取决于卸载了多少层 - 卸载20%意味着约2倍慢，卸载40%意味着约3-5倍慢。

是的。Apple Silicon使用统一内存，因此"显存"就是您的总内存。从GPU下拉菜单中选择您的Mac。注意Mac使用Metal/MLX而非CUDA，因此性能与NVIDIA显卡不同。

此计算器专注于llama.cpp使用的GGUF量化（Q2_K到FP16）。这是本地LLM推理最常用的格式。EXL2、AWQ和GPTQ格式尚未涵盖。