您的GPU能运行它吗?了解哪些开源模型适合您的硬件 - 每种量化级别的显存需求,包含CPU卸载估算。
可选。设置为0表示仅使用GPU。
影响KV缓存显存开销。
+ 31 个无法运行的模型
对于有HuggingFace GGUF数据的模型,估算基于实际文件大小,非常准确。对于其他模型,我们使用标准量化比率从参数数量计算。KV缓存在可用时使用架构详情。实际显存可能因运行时、批量大小和框架不同而有约5-10%的差异。
最佳平衡点是每GB质量比最优的量化级别。对于大多数模型,这是Q4_K_M - 它保留了约92%的全精度质量,同时比FP16小约4倍。低于Q4会出现明显的质量下降;高于Q5则收益递减。
当模型无法完全载入GPU显存时,部分层可以卸载到系统内存。GPU以全速处理其层,然后等待CPU。速度取决于卸载了多少层 - 卸载20%意味着约2倍慢,卸载40%意味着约3-5倍慢。
是的。Apple Silicon使用统一内存,因此"显存"就是您的总内存。从GPU下拉菜单中选择您的Mac。注意Mac使用Metal/MLX而非CUDA,因此性能与NVIDIA显卡不同。
此计算器专注于llama.cpp使用的GGUF量化(Q2_K到FP16)。这是本地LLM推理最常用的格式。EXL2、AWQ和GPTQ格式尚未涵盖。