上下文窗口效率探索器

分析300个AI模型的评分/上下文令牌比率，找出最充分利用上下文窗口、输出容量和成本的模型。

上下文窗口 vs 评分

LMMarketCap.com

效率概览

所有分析模型的关键效率指标。

最高效 (128K+)

GPT-5.3 Chat

682.8 score/MToken

最佳输出效率

Gemma 2 27B

37.8 score/1K output

最佳成本效率

Llama 3.1 8B Instruct

1251.4 score/$

平均总体效率

6.8%

所有模型标准化

效率排名

按每百万上下文令牌评分排名的前50个模型。

#	模型	提供商	评分	上下文	输出	评分/百万令牌	输出效率	成本效率	层级
1	Gemma 2 27BGoogle	Google	77	8K	2K	9448.2	37.8	119.1	Small
2	GPT-4 (older v0314)OpenAI	OpenAI	65	8K	4K	7911.1	15.8	1.4	Small
3	GPT-4OpenAI	OpenAI	65	8K	4K	7911.1	15.8	1.4	Small
4	Llama 3 70B InstructMeta	Meta	57	8K	8K	6958.0	7.1	91.2	Small
5	Phi 4Microsoft	Microsoft	60	16K	16K	3674.3	3.7	587.3	Small
6	Llama 3.1 8B InstructMeta	Meta	44	16K	16K	2673.3	2.7	1251.4	Small
7	Reka Edgerekaai	rekaai	40	16K	16K	2441.4	2.4	400.0	Small
8	DeepSeek V3.1DeepSeek	DeepSeek	69	33K	7K	2108.8	9.6	153.6	Medium
9	Qwen3 30B A3BAlibaba	Alibaba	64	41K	20K	1555.2	3.2	235.9	Medium
10	Qwen3 8BAlibaba	Alibaba	61	41K	8K	1479.5	7.4	269.3	Medium
11	ERNIE 4.5 VL 28B A3BBaidu	Baidu	40	30K	8K	1333.3	5.0	114.3	Small
12	Qwen2.5 VL 72B InstructAlibaba	Alibaba	40	32K	--	1250.0	--	80.0	Medium
13	LFM2-24B-A2BLiquid AI	Liquid AI	40	33K	--	1220.7	--	533.3	Medium
14	LFM2.5-1.2B-Thinking (free)Liquid AI	Liquid AI	40	33K	--	1220.7	--	Free	Medium
15	LFM2.5-1.2B-Instruct (free)Liquid AI	Liquid AI	40	33K	--	1220.7	--	Free	Medium
16	Rnj 1 Instructessentialai	essentialai	40	33K	--	1220.7	--	266.7	Medium
17	Gemma 3n 4BGoogle	Google	40	33K	--	1220.7	--	444.4	Medium
18	Coder Largearcee-ai	arcee-ai	40	33K	--	1220.7	--	61.5	Medium
19	SabaMistral AI	Mistral AI	40	33K	--	1220.7	--	100.0	Medium
20	Qwen-Max Alibaba	Alibaba	40	33K	8K	1220.7	4.9	15.4	Medium
21	Mistral Small 3Mistral AI	Mistral AI	40	33K	16K	1220.7	2.4	615.4	Medium
22	R1DeepSeek	DeepSeek	73	64K	16K	1140.6	4.6	45.6	Medium
23	MiniMax M2-herMiniMax	MiniMax	69	66K	2K	1054.4	33.7	92.1	Medium
24	Llama 3.3 70B Instruct (free)Meta	Meta	66	66K	--	1002.5	--	Free	Medium
25	Qwen3 14BAlibaba	Alibaba	40	41K	41K	976.6	1.0	266.7	Medium
26	Qwen3 32BAlibaba	Alibaba	40	41K	16K	976.6	2.4	222.2	Medium
27	Mixtral 8x22B InstructMistral AI	Mistral AI	63	66K	--	967.4	--	15.8	Medium
28	GLM 4.5VZhipu AI	Zhipu AI	62	66K	16K	938.4	3.8	51.3	Medium
29	Olmo 3 32B ThinkAllen AI	Allen AI	55	66K	66K	837.7	0.8	168.9	Medium
30	GPT-5.3 ChatOpenAI	OpenAI	87	128K	16K	682.8	5.3	11.1	Large
31	GPT-5.1 ChatOpenAI	OpenAI	87	128K	16K	676.6	5.3	15.4	Large
32	Qianfan-OCR-Fast (free)Baidu	Baidu	40	66K	29K	610.4	1.4	Free	Medium
33	Reka Flash 3rekaai	rekaai	40	66K	66K	610.4	0.6	266.7	Medium
34	GPT-5.2 ChatOpenAI	OpenAI	77	128K	32K	598.4	2.4	9.7	Large
35	GLM 4.5Zhipu AI	Zhipu AI	75	131K	98K	573.0	0.8	53.6	Large
36	Grok 3xAI	xAI	74	131K	--	560.8	--	8.2	Large
37	Grok 3 BetaxAI	xAI	74	131K	--	560.8	--	8.2	Large
38	GPT-4o (2024-08-06)OpenAI	OpenAI	71	128K	16K	556.3	4.3	11.4	Large
39	GPT-4o (2024-05-13)OpenAI	OpenAI	71	128K	4K	556.3	17.4	7.1	Large
40	GPT-4oOpenAI	OpenAI	71	128K	16K	556.3	4.3	11.4	Large
41	GPT-5 ChatOpenAI	OpenAI	71	128K	16K	550.8	4.3	12.5	Large
42	GPT-4o AudioOpenAI	OpenAI	70	128K	16K	550.0	4.3	11.3	Large
43	GPT-4o Search PreviewOpenAI	OpenAI	70	128K	16K	550.0	4.3	11.3	Large
44	GPT-4o-miniOpenAI	OpenAI	69	128K	16K	541.4	4.2	184.8	Large
45	GLM 4.5 Air (free)Zhipu AI	Zhipu AI	71	131K	96K	539.4	0.7	Free	Large
46	GLM 4.5 AirZhipu AI	Zhipu AI	71	131K	98K	539.4	0.7	144.3	Large
47	DeepSeek V3.2DeepSeek	DeepSeek	70	131K	66K	536.3	1.1	223.2	Large
48	GPT-4 TurboOpenAI	OpenAI	67	128K	4K	521.1	16.3	3.3	Large
49	Qwen3 VL 235B A22B ThinkingAlibaba	Alibaba	68	131K	33K	516.5	2.1	47.3	Large
50	Mistral LargeMistral AI	Mistral AI	66	128K	--	514.8	--	16.5	Large

层级分析

不同上下文窗口层级的效率分析。

Small8 models

平均评分56

评分/百万令牌5293.9

最佳

Gemma 2 27B

最差

ERNIE 4.5 VL 28B A3B

Medium27 models

平均评分49

评分/百万令牌1035.3

最佳

DeepSeek V3.1

最差

Sonar

Large207 models

平均评分58

评分/百万令牌318.8

最佳

GPT-5.3 Chat

最差

GPT Chat Latest

Mega58 models

平均评分65

评分/百万令牌60.9

最佳

Claude Opus 4.6 (Fast)

最差

Grok 4 Fast

边际递减分析

更大的上下文窗口是否与更高的评分相关？

检测到收益递减：更大的上下文窗口并不总是与更高的平均评分相关。

层级	平均上下文	平均评分	平均效率
Small	14K	56	5293.9
Medium	57K	49	1035.3
Large	203K	58	318.8
Mega	1.1M	65	60.9

输出令牌效率

按输出效率（每1K输出令牌评分）排名的前20个模型。16K+输出令牌的模型已高亮显示。

模型	提供商	评分	最大输出	输出效率
Gemma 2 27BGoogle	Google	77	2K	37.8
MiniMax M2-herMiniMax	MiniMax	69	2K	33.7
UI-TARS 7B ByteDance	ByteDance	40	2K	19.5
GPT-4o (2024-05-13)OpenAI	OpenAI	71	4K	17.4
GPT-4 TurboOpenAI	OpenAI	67	4K	16.3
GPT-4 (older v0314)OpenAI	OpenAI	65	4K	15.8
GPT-4OpenAI	OpenAI	65	4K	15.8
GPT-4 Turbo PreviewOpenAI	OpenAI	60	4K	14.6
GPT-4 Turbo (older v1106)OpenAI	OpenAI	60	4K	14.6
Claude 3 HaikuAnthropic	Anthropic	50	4K	12.3
Command R+ (08-2024)Cohere	Cohere	49	4K	12.2
Command R (08-2024)Cohere	Cohere	49	4K	12.2
Jamba Large 1.7AI21 Labs	AI21 Labs	40	4K	9.8
DeepSeek V3.1DeepSeek	DeepSeek	69	7K	9.6
MiniMax M2.5 (free)MiniMax	MiniMax	78	8K	9.5
Gemini 2.0 FlashGoogle	Google	72	8K	8.8
Nova Lite 1.0Amazon	Amazon	40	5K	7.8
Nova Micro 1.0Amazon	Amazon	40	5K	7.8
Qwen3 8BAlibaba	Alibaba	61	8K	7.4
Gemini 2.0 Flash LiteGoogle	Google	59	8K	7.2

关键洞察

从效率数据中自动生成的观察结果。

上下文最优点

Small models have the highest average efficiency at 5293.9 score/MToken across 8 models.

输出很重要

Models with 16K+ output tokens score 15% higher on average than models with smaller output limits.

紧凑型高性能模型

0 models achieve top-20 scores with under 128K context.

探索更多

深入了解上下文窗口、对比模型或探索其他维度。

全部探索器上下文窗口大上下文模型

Frequently Asked Questions

Efficiency is measured as the score-per-context-token ratio - how much ranking score a model achieves relative to its context window size. Models that score highly with smaller context windows are considered more efficient than those requiring massive context to achieve similar results.

Cost efficiency combines quality (composite score) with pricing. The most cost-efficient models achieve high benchmark scores while maintaining low per-token API costs. Free and budget-tier models that perform well are the most cost-efficient options.

Not necessarily. Our efficiency analysis shows diminishing returns beyond certain context sizes. Models with 128K tokens often score similarly to those with 1M+ tokens, meaning the extra context capacity adds cost without proportional quality gains for most use cases.

效率排名

按每百万上下文令牌评分排名的前50个模型。

#	模型	提供商	评分	上下文	输出	评分/百万令牌	输出效率	成本效率	层级
1	Gemma 2 27BGoogle	Google	77	8K	2K	9448.2	37.8	119.1	Small
2	GPT-4 (older v0314)OpenAI	OpenAI	65	8K	4K	7911.1	15.8	1.4	Small
3	GPT-4OpenAI	OpenAI	65	8K	4K	7911.1	15.8	1.4	Small
4	Llama 3 70B InstructMeta	Meta	57	8K	8K	6958.0	7.1	91.2	Small
5	Phi 4Microsoft	Microsoft	60	16K	16K	3674.3	3.7	587.3	Small
6	Llama 3.1 8B InstructMeta	Meta	44	16K	16K	2673.3	2.7	1251.4	Small
7	Reka Edgerekaai	rekaai	40	16K	16K	2441.4	2.4	400.0	Small
8	DeepSeek V3.1DeepSeek	DeepSeek	69	33K	7K	2108.8	9.6	153.6	Medium
9	Qwen3 30B A3BAlibaba	Alibaba	64	41K	20K	1555.2	3.2	235.9	Medium
10	Qwen3 8BAlibaba	Alibaba	61	41K	8K	1479.5	7.4	269.3	Medium
11	ERNIE 4.5 VL 28B A3BBaidu	Baidu	40	30K	8K	1333.3	5.0	114.3	Small
12	Qwen2.5 VL 72B InstructAlibaba	Alibaba	40	32K	--	1250.0	--	80.0	Medium
13	LFM2-24B-A2BLiquid AI	Liquid AI	40	33K	--	1220.7	--	533.3	Medium
14	LFM2.5-1.2B-Thinking (free)Liquid AI	Liquid AI	40	33K	--	1220.7	--	Free	Medium
15	LFM2.5-1.2B-Instruct (free)Liquid AI	Liquid AI	40	33K	--	1220.7	--	Free	Medium
16	Rnj 1 Instructessentialai	essentialai	40	33K	--	1220.7	--	266.7	Medium
17	Gemma 3n 4BGoogle	Google	40	33K	--	1220.7	--	444.4	Medium
18	Coder Largearcee-ai	arcee-ai	40	33K	--	1220.7	--	61.5	Medium
19	SabaMistral AI	Mistral AI	40	33K	--	1220.7	--	100.0	Medium
20	Qwen-Max Alibaba	Alibaba	40	33K	8K	1220.7	4.9	15.4	Medium
21	Mistral Small 3Mistral AI	Mistral AI	40	33K	16K	1220.7	2.4	615.4	Medium
22	R1DeepSeek	DeepSeek	73	64K	16K	1140.6	4.6	45.6	Medium
23	MiniMax M2-herMiniMax	MiniMax	69	66K	2K	1054.4	33.7	92.1	Medium
24	Llama 3.3 70B Instruct (free)Meta	Meta	66	66K	--	1002.5	--	Free	Medium
25	Qwen3 14BAlibaba	Alibaba	40	41K	41K	976.6	1.0	266.7	Medium
26	Qwen3 32BAlibaba	Alibaba	40	41K	16K	976.6	2.4	222.2	Medium
27	Mixtral 8x22B InstructMistral AI	Mistral AI	63	66K	--	967.4	--	15.8	Medium
28	GLM 4.5VZhipu AI	Zhipu AI	62	66K	16K	938.4	3.8	51.3	Medium
29	Olmo 3 32B ThinkAllen AI	Allen AI	55	66K	66K	837.7	0.8	168.9	Medium
30	GPT-5.3 ChatOpenAI	OpenAI	87	128K	16K	682.8	5.3	11.1	Large
31	GPT-5.1 ChatOpenAI	OpenAI	87	128K	16K	676.6	5.3	15.4	Large
32	Qianfan-OCR-Fast (free)Baidu	Baidu	40	66K	29K	610.4	1.4	Free	Medium
33	Reka Flash 3rekaai	rekaai	40	66K	66K	610.4	0.6	266.7	Medium
34	GPT-5.2 ChatOpenAI	OpenAI	77	128K	32K	598.4	2.4	9.7	Large
35	GLM 4.5Zhipu AI	Zhipu AI	75	131K	98K	573.0	0.8	53.6	Large
36	Grok 3xAI	xAI	74	131K	--	560.8	--	8.2	Large
37	Grok 3 BetaxAI	xAI	74	131K	--	560.8	--	8.2	Large
38	GPT-4o (2024-08-06)OpenAI	OpenAI	71	128K	16K	556.3	4.3	11.4	Large
39	GPT-4o (2024-05-13)OpenAI	OpenAI	71	128K	4K	556.3	17.4	7.1	Large
40	GPT-4oOpenAI	OpenAI	71	128K	16K	556.3	4.3	11.4	Large
41	GPT-5 ChatOpenAI	OpenAI	71	128K	16K	550.8	4.3	12.5	Large
42	GPT-4o AudioOpenAI	OpenAI	70	128K	16K	550.0	4.3	11.3	Large
43	GPT-4o Search PreviewOpenAI	OpenAI	70	128K	16K	550.0	4.3	11.3	Large
44	GPT-4o-miniOpenAI	OpenAI	69	128K	16K	541.4	4.2	184.8	Large
45	GLM 4.5 Air (free)Zhipu AI	Zhipu AI	71	131K	96K	539.4	0.7	Free	Large
46	GLM 4.5 AirZhipu AI	Zhipu AI	71	131K	98K	539.4	0.7	144.3	Large
47	DeepSeek V3.2DeepSeek	DeepSeek	70	131K	66K	536.3	1.1	223.2	Large
48	GPT-4 TurboOpenAI	OpenAI	67	128K	4K	521.1	16.3	3.3	Large
49	Qwen3 VL 235B A22B ThinkingAlibaba	Alibaba	68	131K	33K	516.5	2.1	47.3	Large
50	Mistral LargeMistral AI	Mistral AI	66	128K	--	514.8	--	16.5	Large

层级分析

不同上下文窗口层级的效率分析。