模态探索器

按输入和输出模态分析343个AI模型。查看哪些模型接受文本、图像、音频或视频输入以及它们产生什么输出。发现支持视觉的模型、图像生成器和真正的多模态AI。

模型总数

343

输入模态

输出模态

真正多模态

输入模态分布

text51.0%

image26.4%

file13.3%

video6.4%

audio2.8%

LMMarketCap.com

输出模态分布

text91.3%

image4.8%

video2.8%

audio1.1%

LMMarketCap.com

输入模态

模型可以接受哪些类型的数据作为输入。

text

342

image

177

file

video

audio

模态	模型数量	占比	示例模型
text	342	100%	Fugu Ultra, Nano Banana 2 (Gemini 3.1 Flash Image), Nano Banana Pro (Gemini 3 Pro Image)
image	177	52%	Fugu Ultra, Nano Banana 2 (Gemini 3.1 Flash Image), Nano Banana Pro (Gemini 3 Pro Image)
file	89	26%	Claude Fable Latest, Claude Fable 5, Claude Opus 4.8 (Fast)
video	43	13%	MiniMax M3, Step 3.7 Flash, Gemini 3.5 Flash
audio	19	6%	Gemini 3.5 Flash, Gemini 3.1 Flash Lite, Nemotron 3 Nano Omni (free)

输出模态

模型可以产生哪些类型的数据作为输出。

text

324

image

video

audio

模态	模型数量	占比	示例模型
text	324	94%	Fugu Ultra, Nano Banana 2 (Gemini 3.1 Flash Image), Nano Banana Pro (Gemini 3 Pro Image)
image	17	5%	Nano Banana 2 (Gemini 3.1 Flash Image), Nano Banana Pro (Gemini 3 Pro Image), GPT-5.4 Image 2
video	10	3%	Sora, Veo 2, Runway Gen-3 Alpha
audio	4	1%	Lyria 3 Pro Preview, Lyria 3 Clip Preview, GPT Audio

模态流 (输入 → 输出)

所有模型中最常见的输入到输出模态组合。

输入模态	输出模态	数量	占比	示例模型
text	text	149	43%	North Mini Code (free)
fileimagetext	text	62	18%	Claude Fable Latest
imagetext	text	48	14%	Fugu Ultra
imagetextvideo	text	27	8%	MiniMax M3
audiofileimagetextvideo	text	13	4%	Gemini 3.5 Flash
filetext	text	8	2%	Devstral 2 2512
imagetext	video	8	2%	Sora
imagetext	imagetext	5	1%	Nano Banana 2 (Gemini 3.1 Flash Image)
text	image	5	1%	DALL-E 3
imagetext	image	4	1%	Midjourney v6.1
fileimagetext	imagetext	3	1%	GPT-5.4 Image 2
audioimagetextvideo	text	2	1%	Nemotron 3 Nano Omni (free)
imagetext	audiotext	2	1%	Lyria 3 Pro Preview
audiotext	audiotext	2	1%	GPT Audio
fileimagetextvideo	text	1	0%	Nova 2 Lite
audiofiletext	text	1	0%	Voxtral Small 24B 2507
audiofileimagetext	text	1	0%	Gemini 2.5 Pro Preview 06-05
image	video	1	0%	Stable Video Diffusion
text	video	1	0%	Wan 2.1 T2V

最通用的模型

按总独特模态数排名，模态支持最多样化的前20个模型。

模型	提供商	输入模态	输出模态	总计独特	类别
Gemini 2.5 Flash	Google	audiofileimagetextvideo	text	5	coding
Gemini 2.5 Flash Lite	Google	audiofileimagetextvideo	text	5	coding
Gemini 2.5 Flash Lite Preview 09-2025	Google	audiofileimagetextvideo	text	5	coding
Gemini 2.5 Pro	Google	audiofileimagetextvideo	text	5	coding
Gemini 2.5 Pro Preview 05-06	Google	audiofileimagetextvideo	text	5	coding
Gemini 3 Flash Preview	Google	audiofileimagetextvideo	text	5	coding
Gemini 3.1 Flash Lite	Google	audiofileimagetextvideo	text	5	coding
Gemini 3.1 Flash Lite Preview	Google	audiofileimagetextvideo	text	5	coding
Gemini 3.1 Pro Preview	Google	audiofileimagetextvideo	text	5	coding
Gemini 3.1 Pro Preview Custom Tools	Google	audiofileimagetextvideo	text	5	coding
Gemini 3.5 Flash	Google	audiofileimagetextvideo	text	5	coding
Google Gemini Flash Latest	~google	audiofileimagetextvideo	text	5	coding
Google Gemini Pro Latest	~google	audiofileimagetextvideo	text	5	coding
Gemini 2.5 Pro Preview 06-05	Google	audiofileimagetext	text	4	coding
MiMo-V2.5	Xiaomi	audioimagetextvideo	text	4	coding
Nemotron 3 Nano Omni (free)	NVIDIA	audioimagetextvideo	text	4	coding
Nova 2 Lite	Amazon	fileimagetextvideo	text	4	coding
Anthropic Claude Haiku Latest	~anthropic	fileimagetext	text	3	coding
Anthropic Claude Sonnet Latest	~anthropic	fileimagetext	text	3	coding
Claude Fable 5	Anthropic	fileimagetext	text	3	coding

支持视觉的模型

177个接受图像输入的模型，按字母顺序排列。

模型	提供商	类别	免费?	上下文
Adobe Firefly 3Adobe	Adobe	image-generation	否	0K
Anthropic Claude Haiku Latest~anthropic	~anthropic	coding	否	200K
Anthropic Claude Sonnet Latest~anthropic	~anthropic	coding	否	1M
Claude 3 HaikuAnthropic	Anthropic	coding	否	200K
Claude Fable 5Anthropic	Anthropic	coding	否	1M
Claude Fable Latest~anthropic	~anthropic	coding	否	1M
Claude Haiku 4.5Anthropic	Anthropic	coding	否	200K
Claude Opus 4Anthropic	Anthropic	coding	否	200K
Claude Opus 4.1Anthropic	Anthropic	coding	否	200K
Claude Opus 4.5Anthropic	Anthropic	coding	否	200K
Claude Opus 4.6Anthropic	Anthropic	coding	否	1M
Claude Opus 4.6 (Fast)Anthropic	Anthropic	coding	否	1M
Claude Opus 4.7Anthropic	Anthropic	coding	否	1M
Claude Opus 4.7 (Fast)Anthropic	Anthropic	coding	否	1M
Claude Opus 4.8Anthropic	Anthropic	coding	否	1M
Claude Opus 4.8 (Fast)Anthropic	Anthropic	coding	否	1M
Claude Opus Latest~anthropic	~anthropic	coding	否	1M
Claude Sonnet 4Anthropic	Anthropic	coding	否	1M
Claude Sonnet 4.5Anthropic	Anthropic	coding	否	1M
Claude Sonnet 4.6Anthropic	Anthropic	coding	否	1M
ERNIE 4.5 VL 424B A47B Baidu	Baidu	coding	否	131.1K
Fugu Ultrasakana	sakana	coding	否	1M
Gemini 2.5 FlashGoogle	Google	coding	否	1.0M
Gemini 2.5 Flash LiteGoogle	Google	coding	否	1.0M
Gemini 2.5 Flash Lite Preview 09-2025Google	Google	coding	否	1.0M
Gemini 2.5 ProGoogle	Google	coding	否	1.0M
Gemini 2.5 Pro Preview 05-06Google	Google	coding	否	1.0M
Gemini 2.5 Pro Preview 06-05Google	Google	coding	否	1.0M
Gemini 3 Flash PreviewGoogle	Google	coding	否	1.0M
Gemini 3.1 Flash LiteGoogle	Google	coding	否	1.0M
Gemini 3.1 Flash Lite PreviewGoogle	Google	coding	否	1.0M
Gemini 3.1 Pro PreviewGoogle	Google	coding	否	1.0M
Gemini 3.1 Pro Preview Custom ToolsGoogle	Google	coding	否	1.0M
Gemini 3.5 FlashGoogle	Google	coding	否	1.0M
Gemma 3 12BGoogle	Google	coding	否	131.1K
Gemma 3 27BGoogle	Google	coding	否	131.1K
Gemma 3 4BGoogle	Google	coding	否	131.1K
Gemma 4 26B A4B Google	Google	coding	否	262.1K
Gemma 4 26B A4B (free)Google	Google	coding	是	262.1K
Gemma 4 31BGoogle	Google	coding	否	262.1K
Gemma 4 31B (free)Google	Google	coding	是	262.1K
GLM 4.5VZhipu AI	Zhipu AI	coding	否	65.5K
GLM 4.6VZhipu AI	Zhipu AI	coding	否	131.1K
GLM 5V TurboZhipu AI	Zhipu AI	coding	否	202.8K
Google Gemini Flash Latest~google	~google	coding	否	1.0M
Google Gemini Pro Latest~google	~google	coding	否	1.0M
GPT Chat LatestOpenAI	OpenAI	coding	否	400K
GPT-4 TurboOpenAI	OpenAI	coding	否	128K
GPT-4.1OpenAI	OpenAI	coding	否	1.0M
GPT-4.1 MiniOpenAI	OpenAI	coding	否	1.0M
GPT-4.1 NanoOpenAI	OpenAI	coding	否	1.0M
GPT-4oOpenAI	OpenAI	coding	否	128K
GPT-4o (2024-05-13)OpenAI	OpenAI	coding	否	128K
GPT-4o (2024-08-06)OpenAI	OpenAI	coding	否	128K
GPT-4o (2024-11-20)OpenAI	OpenAI	coding	否	128K
GPT-4o-miniOpenAI	OpenAI	coding	否	128K
GPT-4o-mini (2024-07-18)OpenAI	OpenAI	coding	否	128K
GPT-5OpenAI	OpenAI	coding	否	400K
GPT-5 ChatOpenAI	OpenAI	coding	否	128K
GPT-5 CodexOpenAI	OpenAI	coding	否	400K
GPT-5 ImageOpenAI	OpenAI	image-generation	否	400K
GPT-5 Image MiniOpenAI	OpenAI	image-generation	否	400K
GPT-5 MiniOpenAI	OpenAI	coding	否	400K
GPT-5 NanoOpenAI	OpenAI	coding	否	400K
GPT-5 ProOpenAI	OpenAI	coding	否	400K
GPT-5.1OpenAI	OpenAI	coding	否	400K
GPT-5.1 ChatOpenAI	OpenAI	coding	否	128K
GPT-5.1-CodexOpenAI	OpenAI	coding	否	400K
GPT-5.1-Codex-MaxOpenAI	OpenAI	coding	否	400K
GPT-5.1-Codex-MiniOpenAI	OpenAI	coding	否	400K
GPT-5.2OpenAI	OpenAI	coding	否	400K
GPT-5.2 ChatOpenAI	OpenAI	coding	否	128K
GPT-5.2 ProOpenAI	OpenAI	coding	否	400K
GPT-5.2-CodexOpenAI	OpenAI	coding	否	400K
GPT-5.3 ChatOpenAI	OpenAI	coding	否	128K
GPT-5.3-CodexOpenAI	OpenAI	coding	否	400K
GPT-5.4OpenAI	OpenAI	coding	否	1.1M
GPT-5.4 Image 2OpenAI	OpenAI	image-generation	否	272K
GPT-5.4 MiniOpenAI	OpenAI	coding	否	400K
GPT-5.4 NanoOpenAI	OpenAI	coding	否	400K
GPT-5.4 ProOpenAI	OpenAI	coding	否	1.1M
GPT-5.5OpenAI	OpenAI	coding	否	1.1M
GPT-5.5 ProOpenAI	OpenAI	coding	否	1.1M
Grok 4.20xAI	xAI	coding	否	2M
Grok 4.20 Multi-AgentxAI	xAI	coding	否	2M
Grok 4.3xAI	xAI	coding	否	1M
Grok Build 0.1xAI	xAI	coding	否	256K
Kimi K2.5Moonshot AI	Moonshot AI	coding	否	262.1K
Kimi K2.6Moonshot AI	Moonshot AI	coding	否	262.1K
Kimi K2.7 CodeMoonshot AI	Moonshot AI	coding	否	262.1K
Kling 1.6Kuaishou	Kuaishou	video-generation	否	0K
Leonardo PhoenixLeonardo AI	Leonardo AI	image-generation	否	0K
Llama 3.2 11B Vision InstructMeta	Meta	coding	否	131.1K
Llama 4 MaverickMeta	Meta	coding	否	1.0M
Llama 4 ScoutMeta	Meta	coding	否	10M
Llama Guard 4 12BMeta	Meta	coding	否	163.8K
LTX-Video 2Lightricks	Lightricks	video-generation	是	0K
Luma Dream MachineLuma AI	Luma AI	video-generation	否	0K
Lyria 3 Clip PreviewGoogle	Google	coding	是	1.0M
Lyria 3 Pro PreviewGoogle	Google	coding	是	1.0M
Midjourney v6.1Midjourney	Midjourney	image-generation	否	0K
MiMo-V2.5Xiaomi	Xiaomi	coding	否	1.0M
MiniMax M3MiniMax	MiniMax	coding	否	1.0M
MiniMax Video-01MiniMax	MiniMax	video-generation	否	0K
MiniMax-01MiniMax	MiniMax	coding	否	1.0M
Ministral 3 14B 2512Mistral AI	Mistral AI	coding	否	262.1K
Ministral 3 3B 2512Mistral AI	Mistral AI	coding	否	131.1K
Ministral 3 8B 2512Mistral AI	Mistral AI	coding	否	262.1K
Mistral Large 3 2512Mistral AI	Mistral AI	coding	否	262.1K
Mistral Medium 3Mistral AI	Mistral AI	coding	否	131.1K
Mistral Medium 3.1Mistral AI	Mistral AI	coding	否	131.1K
Mistral Medium 3.5Mistral AI	Mistral AI	coding	否	262.1K
Mistral Small 3.1 24BMistral AI	Mistral AI	coding	否	128K
Mistral Small 3.2 24BMistral AI	Mistral AI	coding	否	128K
Mistral Small 4Mistral AI	Mistral AI	coding	否	262.1K
MoonshotAI Kimi Latest~moonshotai	~moonshotai	coding	否	262.1K
Nano Banana (Gemini 2.5 Flash Image)Google	Google	image-generation	否	32.8K
Nano Banana 2 (Gemini 3.1 Flash Image Preview)Google	Google	image-generation	否	131.1K
Nano Banana 2 (Gemini 3.1 Flash Image)Google	Google	image-generation	否	131.1K
Nano Banana Pro (Gemini 3 Pro Image Preview)Google	Google	image-generation	否	65.5K
Nano Banana Pro (Gemini 3 Pro Image)Google	Google	image-generation	否	65.5K
Nemotron 3 Nano Omni (free)NVIDIA	NVIDIA	coding	是	256K
Nemotron 3.5 Content Safety (free)NVIDIA	NVIDIA	coding	是	128K
Nemotron Nano 12B 2 VL (free)NVIDIA	NVIDIA	coding	是	128K
Nova 2 LiteAmazon	Amazon	coding	否	1M
Nova Lite 1.0Amazon	Amazon	coding	否	300K
Nova Premier 1.0Amazon	Amazon	coding	否	1M
Nova Pro 1.0Amazon	Amazon	coding	否	300K
o1OpenAI	OpenAI	coding	否	200K
o1-proOpenAI	OpenAI	coding	否	200K
o3OpenAI	OpenAI	coding	否	200K
o3 Deep ResearchOpenAI	OpenAI	coding	否	200K
o3 ProOpenAI	OpenAI	coding	否	200K
o4 MiniOpenAI	OpenAI	coding	否	200K
o4 Mini Deep ResearchOpenAI	OpenAI	coding	否	200K
o4 Mini HighOpenAI	OpenAI	coding	否	200K
OpenAI GPT Latest~openai	~openai	coding	否	1.1M
OpenAI GPT Mini Latest~openai	~openai	coding	否	400K
Perceptron Mk1perceptron	perceptron	coding	否	32.8K
Pika 2.0Pika	Pika	video-generation	否	0K
Qwen2.5 VL 72B InstructAlibaba	Alibaba	coding	否	131.1K
Qwen3 VL 235B A22B InstructAlibaba	Alibaba	coding	否	262.1K
Qwen3 VL 235B A22B ThinkingAlibaba	Alibaba	coding	否	131.1K
Qwen3 VL 30B A3B InstructAlibaba	Alibaba	coding	否	262.1K
Qwen3 VL 30B A3B ThinkingAlibaba	Alibaba	coding	否	131.1K
Qwen3 VL 32B InstructAlibaba	Alibaba	coding	否	262.1K
Qwen3 VL 8B InstructAlibaba	Alibaba	coding	否	256K
Qwen3 VL 8B ThinkingAlibaba	Alibaba	coding	否	256K
Qwen3.5 397B A17BAlibaba	Alibaba	coding	否	256K
Qwen3.5 Plus 2026-02-15Alibaba	Alibaba	coding	否	1M
Qwen3.5 Plus 2026-04-20Alibaba	Alibaba	coding	否	1M
Qwen3.5-122B-A10BAlibaba	Alibaba	coding	否	262.1K
Qwen3.5-27BAlibaba	Alibaba	coding	否	262.1K
Qwen3.5-35B-A3BAlibaba	Alibaba	coding	否	262.1K
Qwen3.5-9BAlibaba	Alibaba	coding	否	262.1K
Qwen3.5-FlashAlibaba	Alibaba	coding	否	1M
Qwen3.6 27BAlibaba	Alibaba	coding	否	262.1K
Qwen3.6 35B A3BAlibaba	Alibaba	coding	否	262.1K
Qwen3.6 FlashAlibaba	Alibaba	coding	否	1M
Qwen3.6 PlusAlibaba	Alibaba	coding	否	1M
Qwen3.7 PlusAlibaba	Alibaba	coding	否	1M
Reka Edgerekaai	rekaai	coding	否	16.4K
Runway Gen-3 AlphaRunway	Runway	video-generation	否	0K
Seed 1.6ByteDance	ByteDance	coding	否	262.1K
Seed 1.6 FlashByteDance	ByteDance	coding	否	262.1K
Seed-2.0-LiteByteDance	ByteDance	coding	否	262.1K
Seed-2.0-MiniByteDance	ByteDance	coding	否	262.1K
SonarPerplexity	Perplexity	coding	否	127.1K
Sonar ProPerplexity	Perplexity	coding	否	200K
Sonar Pro SearchPerplexity	Perplexity	coding	否	200K
Sonar Reasoning ProPerplexity	Perplexity	coding	否	128K
SoraOpenAI	OpenAI	video-generation	否	0K
Stable Diffusion 3.5Stability AI	Stability AI	image-generation	否	0K
Stable Video DiffusionStability AI	Stability AI	video-generation	否	0K
Step 3.7 FlashStepFun	StepFun	coding	否	256K
UI-TARS 7B ByteDance	ByteDance	coding	否	128K
Veo 2Google	Google	video-generation	否	0K

图像生成器

17个可以生成图像输出的模型。

模型	提供商	类别	免费?
Adobe Firefly 3Adobe	Adobe	image-generation	否
DALL-E 3OpenAI	OpenAI	image-generation	否
FLUX.1 ProBlack Forest Labs	Black Forest Labs	image-generation	否
GPT-5 ImageOpenAI	OpenAI	image-generation	否
GPT-5 Image MiniOpenAI	OpenAI	image-generation	否
GPT-5.4 Image 2OpenAI	OpenAI	image-generation	否
Ideogram 2.0Ideogram	Ideogram	image-generation	否
Imagen 3Google	Google	image-generation	否
Leonardo PhoenixLeonardo AI	Leonardo AI	image-generation	否
Midjourney v6.1Midjourney	Midjourney	image-generation	否
Nano Banana (Gemini 2.5 Flash Image)Google	Google	image-generation	否
Nano Banana 2 (Gemini 3.1 Flash Image Preview)Google	Google	image-generation	否
Nano Banana 2 (Gemini 3.1 Flash Image)Google	Google	image-generation	否
Nano Banana Pro (Gemini 3 Pro Image Preview)Google	Google	image-generation	否
Nano Banana Pro (Gemini 3 Pro Image)Google	Google	image-generation	否
Recraft V3Recraft	Recraft	image-generation	否
Stable Diffusion 3.5Stability AI	Stability AI	image-generation	否

探索更多

深入了解多模态AI、视觉模型或浏览所有探索器。

全部探索器多模态AI模型支持视觉的AI模型

Frequently Asked Questions

Modalities refer to the types of data an AI model can process as input or generate as output. Common input modalities include text, images, and audio. Output modalities include text generation, image creation, code, and structured data like JSON.

A multimodal AI model can process and generate multiple types of data - for example, accepting both text and images as input. Models like GPT-4o, Claude 3.5, and Gemini 2.0 are multimodal, supporting text, image, and sometimes audio inputs.

Our tracker shows that a growing majority of new AI models support vision (image) input. Most top-tier models from OpenAI, Anthropic, Google, and Meta now accept image inputs alongside text, making vision a near-standard capability.