Modality Explorer

Analyze 343 AI models by their input and output modalities. See which models accept text, images, audio, or video - and what they produce. Discover vision-capable models, image generators, and true multimodal AI.

Total Models

343

Input Modalities

Output Modalities

True Multimodal

Input Modality Distribution

text51.0%

image26.4%

file13.3%

video6.4%

audio2.8%

LMMarketCap.com

Output Modality Distribution

text91.3%

image4.8%

video2.8%

audio1.1%

LMMarketCap.com

Input Modalities

What types of data can models accept as input.

text

342

image

177

file

video

audio

Modality	Model Count	% of Total	Example Models
text	342	100%	Fugu Ultra, Nano Banana 2 (Gemini 3.1 Flash Image), Nano Banana Pro (Gemini 3 Pro Image)
image	177	52%	Fugu Ultra, Nano Banana 2 (Gemini 3.1 Flash Image), Nano Banana Pro (Gemini 3 Pro Image)
file	89	26%	Claude Fable Latest, Claude Fable 5, Claude Opus 4.8 (Fast)
video	43	13%	MiniMax M3, Step 3.7 Flash, Gemini 3.5 Flash
audio	19	6%	Gemini 3.5 Flash, Gemini 3.1 Flash Lite, Nemotron 3 Nano Omni (free)

Output Modalities

What types of data can models produce as output.

text

324

image

video

audio

Modality	Model Count	% of Total	Example Models
text	324	94%	Fugu Ultra, Nano Banana 2 (Gemini 3.1 Flash Image), Nano Banana Pro (Gemini 3 Pro Image)
image	17	5%	Nano Banana 2 (Gemini 3.1 Flash Image), Nano Banana Pro (Gemini 3 Pro Image), GPT-5.4 Image 2
video	10	3%	Sora, Veo 2, Runway Gen-3 Alpha
audio	4	1%	Lyria 3 Pro Preview, Lyria 3 Clip Preview, GPT Audio

Modality Flow (Input → Output)

The most common input-to-output modality combinations across all models.

Input Modalities	Output Modalities	Count	% of Total	Example Model
text	text	149	43%	North Mini Code (free)
fileimagetext	text	62	18%	Claude Fable Latest
imagetext	text	48	14%	Fugu Ultra
imagetextvideo	text	27	8%	MiniMax M3
audiofileimagetextvideo	text	13	4%	Gemini 3.5 Flash
filetext	text	8	2%	Devstral 2 2512
imagetext	video	8	2%	Sora
imagetext	imagetext	5	1%	Nano Banana 2 (Gemini 3.1 Flash Image)
text	image	5	1%	DALL-E 3
imagetext	image	4	1%	Midjourney v6.1
fileimagetext	imagetext	3	1%	GPT-5.4 Image 2
audioimagetextvideo	text	2	1%	Nemotron 3 Nano Omni (free)
imagetext	audiotext	2	1%	Lyria 3 Pro Preview
audiotext	audiotext	2	1%	GPT Audio
fileimagetextvideo	text	1	0%	Nova 2 Lite
audiofiletext	text	1	0%	Voxtral Small 24B 2507
audiofileimagetext	text	1	0%	Gemini 2.5 Pro Preview 06-05
image	video	1	0%	Stable Video Diffusion
text	video	1	0%	Wan 2.1 T2V

Most Versatile Models

Top 20 models with the most diverse modality support, ranked by total unique modalities.

Model	Provider	Input Modalities	Output Modalities	Total Unique	Category
Gemini 2.5 Flash	Google	audiofileimagetextvideo	text	5	coding
Gemini 2.5 Flash Lite	Google	audiofileimagetextvideo	text	5	coding
Gemini 2.5 Flash Lite Preview 09-2025	Google	audiofileimagetextvideo	text	5	coding
Gemini 2.5 Pro	Google	audiofileimagetextvideo	text	5	coding
Gemini 2.5 Pro Preview 05-06	Google	audiofileimagetextvideo	text	5	coding
Gemini 3 Flash Preview	Google	audiofileimagetextvideo	text	5	coding
Gemini 3.1 Flash Lite	Google	audiofileimagetextvideo	text	5	coding
Gemini 3.1 Flash Lite Preview	Google	audiofileimagetextvideo	text	5	coding
Gemini 3.1 Pro Preview	Google	audiofileimagetextvideo	text	5	coding
Gemini 3.1 Pro Preview Custom Tools	Google	audiofileimagetextvideo	text	5	coding
Gemini 3.5 Flash	Google	audiofileimagetextvideo	text	5	coding
Google Gemini Flash Latest	~google	audiofileimagetextvideo	text	5	coding
Google Gemini Pro Latest	~google	audiofileimagetextvideo	text	5	coding
Gemini 2.5 Pro Preview 06-05	Google	audiofileimagetext	text	4	coding
MiMo-V2.5	Xiaomi	audioimagetextvideo	text	4	coding
Nemotron 3 Nano Omni (free)	NVIDIA	audioimagetextvideo	text	4	coding
Nova 2 Lite	Amazon	fileimagetextvideo	text	4	coding
Anthropic Claude Haiku Latest	~anthropic	fileimagetext	text	3	coding
Anthropic Claude Sonnet Latest	~anthropic	fileimagetext	text	3	coding
Claude Fable 5	Anthropic	fileimagetext	text	3	coding

Vision-Capable Models

177 models that accept images as input, sorted alphabetically.

Model	Provider	Category	Free?	Context
Adobe Firefly 3Adobe	Adobe	image-generation	No	0K
Anthropic Claude Haiku Latest~anthropic	~anthropic	coding	No	200K
Anthropic Claude Sonnet Latest~anthropic	~anthropic	coding	No	1M
Claude 3 HaikuAnthropic	Anthropic	coding	No	200K
Claude Fable 5Anthropic	Anthropic	coding	No	1M
Claude Fable Latest~anthropic	~anthropic	coding	No	1M
Claude Haiku 4.5Anthropic	Anthropic	coding	No	200K
Claude Opus 4Anthropic	Anthropic	coding	No	200K
Claude Opus 4.1Anthropic	Anthropic	coding	No	200K
Claude Opus 4.5Anthropic	Anthropic	coding	No	200K
Claude Opus 4.6Anthropic	Anthropic	coding	No	1M
Claude Opus 4.6 (Fast)Anthropic	Anthropic	coding	No	1M
Claude Opus 4.7Anthropic	Anthropic	coding	No	1M
Claude Opus 4.7 (Fast)Anthropic	Anthropic	coding	No	1M
Claude Opus 4.8Anthropic	Anthropic	coding	No	1M
Claude Opus 4.8 (Fast)Anthropic	Anthropic	coding	No	1M
Claude Opus Latest~anthropic	~anthropic	coding	No	1M
Claude Sonnet 4Anthropic	Anthropic	coding	No	1M
Claude Sonnet 4.5Anthropic	Anthropic	coding	No	1M
Claude Sonnet 4.6Anthropic	Anthropic	coding	No	1M
ERNIE 4.5 VL 424B A47B Baidu	Baidu	coding	No	131.1K
Fugu Ultrasakana	sakana	coding	No	1M
Gemini 2.5 FlashGoogle	Google	coding	No	1.0M
Gemini 2.5 Flash LiteGoogle	Google	coding	No	1.0M
Gemini 2.5 Flash Lite Preview 09-2025Google	Google	coding	No	1.0M
Gemini 2.5 ProGoogle	Google	coding	No	1.0M
Gemini 2.5 Pro Preview 05-06Google	Google	coding	No	1.0M
Gemini 2.5 Pro Preview 06-05Google	Google	coding	No	1.0M
Gemini 3 Flash PreviewGoogle	Google	coding	No	1.0M
Gemini 3.1 Flash LiteGoogle	Google	coding	No	1.0M
Gemini 3.1 Flash Lite PreviewGoogle	Google	coding	No	1.0M
Gemini 3.1 Pro PreviewGoogle	Google	coding	No	1.0M
Gemini 3.1 Pro Preview Custom ToolsGoogle	Google	coding	No	1.0M
Gemini 3.5 FlashGoogle	Google	coding	No	1.0M
Gemma 3 12BGoogle	Google	coding	No	131.1K
Gemma 3 27BGoogle	Google	coding	No	131.1K
Gemma 3 4BGoogle	Google	coding	No	131.1K
Gemma 4 26B A4B Google	Google	coding	No	262.1K
Gemma 4 26B A4B (free)Google	Google	coding	Yes	262.1K
Gemma 4 31BGoogle	Google	coding	No	262.1K
Gemma 4 31B (free)Google	Google	coding	Yes	262.1K
GLM 4.5VZhipu AI	Zhipu AI	coding	No	65.5K
GLM 4.6VZhipu AI	Zhipu AI	coding	No	131.1K
GLM 5V TurboZhipu AI	Zhipu AI	coding	No	202.8K
Google Gemini Flash Latest~google	~google	coding	No	1.0M
Google Gemini Pro Latest~google	~google	coding	No	1.0M
GPT Chat LatestOpenAI	OpenAI	coding	No	400K
GPT-4 TurboOpenAI	OpenAI	coding	No	128K
GPT-4.1OpenAI	OpenAI	coding	No	1.0M
GPT-4.1 MiniOpenAI	OpenAI	coding	No	1.0M
GPT-4.1 NanoOpenAI	OpenAI	coding	No	1.0M
GPT-4oOpenAI	OpenAI	coding	No	128K
GPT-4o (2024-05-13)OpenAI	OpenAI	coding	No	128K
GPT-4o (2024-08-06)OpenAI	OpenAI	coding	No	128K
GPT-4o (2024-11-20)OpenAI	OpenAI	coding	No	128K
GPT-4o-miniOpenAI	OpenAI	coding	No	128K
GPT-4o-mini (2024-07-18)OpenAI	OpenAI	coding	No	128K
GPT-5OpenAI	OpenAI	coding	No	400K
GPT-5 ChatOpenAI	OpenAI	coding	No	128K
GPT-5 CodexOpenAI	OpenAI	coding	No	400K
GPT-5 ImageOpenAI	OpenAI	image-generation	No	400K
GPT-5 Image MiniOpenAI	OpenAI	image-generation	No	400K
GPT-5 MiniOpenAI	OpenAI	coding	No	400K
GPT-5 NanoOpenAI	OpenAI	coding	No	400K
GPT-5 ProOpenAI	OpenAI	coding	No	400K
GPT-5.1OpenAI	OpenAI	coding	No	400K
GPT-5.1 ChatOpenAI	OpenAI	coding	No	128K
GPT-5.1-CodexOpenAI	OpenAI	coding	No	400K
GPT-5.1-Codex-MaxOpenAI	OpenAI	coding	No	400K
GPT-5.1-Codex-MiniOpenAI	OpenAI	coding	No	400K
GPT-5.2OpenAI	OpenAI	coding	No	400K
GPT-5.2 ChatOpenAI	OpenAI	coding	No	128K
GPT-5.2 ProOpenAI	OpenAI	coding	No	400K
GPT-5.2-CodexOpenAI	OpenAI	coding	No	400K
GPT-5.3 ChatOpenAI	OpenAI	coding	No	128K
GPT-5.3-CodexOpenAI	OpenAI	coding	No	400K
GPT-5.4OpenAI	OpenAI	coding	No	1.1M
GPT-5.4 Image 2OpenAI	OpenAI	image-generation	No	272K
GPT-5.4 MiniOpenAI	OpenAI	coding	No	400K
GPT-5.4 NanoOpenAI	OpenAI	coding	No	400K
GPT-5.4 ProOpenAI	OpenAI	coding	No	1.1M
GPT-5.5OpenAI	OpenAI	coding	No	1.1M
GPT-5.5 ProOpenAI	OpenAI	coding	No	1.1M
Grok 4.20xAI	xAI	coding	No	2M
Grok 4.20 Multi-AgentxAI	xAI	coding	No	2M
Grok 4.3xAI	xAI	coding	No	1M
Grok Build 0.1xAI	xAI	coding	No	256K
Kimi K2.5Moonshot AI	Moonshot AI	coding	No	262.1K
Kimi K2.6Moonshot AI	Moonshot AI	coding	No	262.1K
Kimi K2.7 CodeMoonshot AI	Moonshot AI	coding	No	262.1K
Kling 1.6Kuaishou	Kuaishou	video-generation	No	0K
Leonardo PhoenixLeonardo AI	Leonardo AI	image-generation	No	0K
Llama 3.2 11B Vision InstructMeta	Meta	coding	No	131.1K
Llama 4 MaverickMeta	Meta	coding	No	1.0M
Llama 4 ScoutMeta	Meta	coding	No	10M
Llama Guard 4 12BMeta	Meta	coding	No	163.8K
LTX-Video 2Lightricks	Lightricks	video-generation	Yes	0K
Luma Dream MachineLuma AI	Luma AI	video-generation	No	0K
Lyria 3 Clip PreviewGoogle	Google	coding	Yes	1.0M
Lyria 3 Pro PreviewGoogle	Google	coding	Yes	1.0M
Midjourney v6.1Midjourney	Midjourney	image-generation	No	0K
MiMo-V2.5Xiaomi	Xiaomi	coding	No	1.0M
MiniMax M3MiniMax	MiniMax	coding	No	1.0M
MiniMax Video-01MiniMax	MiniMax	video-generation	No	0K
MiniMax-01MiniMax	MiniMax	coding	No	1.0M
Ministral 3 14B 2512Mistral AI	Mistral AI	coding	No	262.1K
Ministral 3 3B 2512Mistral AI	Mistral AI	coding	No	131.1K
Ministral 3 8B 2512Mistral AI	Mistral AI	coding	No	262.1K
Mistral Large 3 2512Mistral AI	Mistral AI	coding	No	262.1K
Mistral Medium 3Mistral AI	Mistral AI	coding	No	131.1K
Mistral Medium 3.1Mistral AI	Mistral AI	coding	No	131.1K
Mistral Medium 3.5Mistral AI	Mistral AI	coding	No	262.1K
Mistral Small 3.1 24BMistral AI	Mistral AI	coding	No	128K
Mistral Small 3.2 24BMistral AI	Mistral AI	coding	No	128K
Mistral Small 4Mistral AI	Mistral AI	coding	No	262.1K
MoonshotAI Kimi Latest~moonshotai	~moonshotai	coding	No	262.1K
Nano Banana (Gemini 2.5 Flash Image)Google	Google	image-generation	No	32.8K
Nano Banana 2 (Gemini 3.1 Flash Image Preview)Google	Google	image-generation	No	131.1K
Nano Banana 2 (Gemini 3.1 Flash Image)Google	Google	image-generation	No	131.1K
Nano Banana Pro (Gemini 3 Pro Image Preview)Google	Google	image-generation	No	65.5K
Nano Banana Pro (Gemini 3 Pro Image)Google	Google	image-generation	No	65.5K
Nemotron 3 Nano Omni (free)NVIDIA	NVIDIA	coding	Yes	256K
Nemotron 3.5 Content Safety (free)NVIDIA	NVIDIA	coding	Yes	128K
Nemotron Nano 12B 2 VL (free)NVIDIA	NVIDIA	coding	Yes	128K
Nova 2 LiteAmazon	Amazon	coding	No	1M
Nova Lite 1.0Amazon	Amazon	coding	No	300K
Nova Premier 1.0Amazon	Amazon	coding	No	1M
Nova Pro 1.0Amazon	Amazon	coding	No	300K
o1OpenAI	OpenAI	coding	No	200K
o1-proOpenAI	OpenAI	coding	No	200K
o3OpenAI	OpenAI	coding	No	200K
o3 Deep ResearchOpenAI	OpenAI	coding	No	200K
o3 ProOpenAI	OpenAI	coding	No	200K
o4 MiniOpenAI	OpenAI	coding	No	200K
o4 Mini Deep ResearchOpenAI	OpenAI	coding	No	200K
o4 Mini HighOpenAI	OpenAI	coding	No	200K
OpenAI GPT Latest~openai	~openai	coding	No	1.1M
OpenAI GPT Mini Latest~openai	~openai	coding	No	400K
Perceptron Mk1perceptron	perceptron	coding	No	32.8K
Pika 2.0Pika	Pika	video-generation	No	0K
Qwen2.5 VL 72B InstructAlibaba	Alibaba	coding	No	131.1K
Qwen3 VL 235B A22B InstructAlibaba	Alibaba	coding	No	262.1K
Qwen3 VL 235B A22B ThinkingAlibaba	Alibaba	coding	No	131.1K
Qwen3 VL 30B A3B InstructAlibaba	Alibaba	coding	No	262.1K
Qwen3 VL 30B A3B ThinkingAlibaba	Alibaba	coding	No	131.1K
Qwen3 VL 32B InstructAlibaba	Alibaba	coding	No	262.1K
Qwen3 VL 8B InstructAlibaba	Alibaba	coding	No	256K
Qwen3 VL 8B ThinkingAlibaba	Alibaba	coding	No	256K
Qwen3.5 397B A17BAlibaba	Alibaba	coding	No	256K
Qwen3.5 Plus 2026-02-15Alibaba	Alibaba	coding	No	1M
Qwen3.5 Plus 2026-04-20Alibaba	Alibaba	coding	No	1M
Qwen3.5-122B-A10BAlibaba	Alibaba	coding	No	262.1K
Qwen3.5-27BAlibaba	Alibaba	coding	No	262.1K
Qwen3.5-35B-A3BAlibaba	Alibaba	coding	No	262.1K
Qwen3.5-9BAlibaba	Alibaba	coding	No	262.1K
Qwen3.5-FlashAlibaba	Alibaba	coding	No	1M
Qwen3.6 27BAlibaba	Alibaba	coding	No	262.1K
Qwen3.6 35B A3BAlibaba	Alibaba	coding	No	262.1K
Qwen3.6 FlashAlibaba	Alibaba	coding	No	1M
Qwen3.6 PlusAlibaba	Alibaba	coding	No	1M
Qwen3.7 PlusAlibaba	Alibaba	coding	No	1M
Reka Edgerekaai	rekaai	coding	No	16.4K
Runway Gen-3 AlphaRunway	Runway	video-generation	No	0K
Seed 1.6ByteDance	ByteDance	coding	No	262.1K
Seed 1.6 FlashByteDance	ByteDance	coding	No	262.1K
Seed-2.0-LiteByteDance	ByteDance	coding	No	262.1K
Seed-2.0-MiniByteDance	ByteDance	coding	No	262.1K
SonarPerplexity	Perplexity	coding	No	127.1K
Sonar ProPerplexity	Perplexity	coding	No	200K
Sonar Pro SearchPerplexity	Perplexity	coding	No	200K
Sonar Reasoning ProPerplexity	Perplexity	coding	No	128K
SoraOpenAI	OpenAI	video-generation	No	0K
Stable Diffusion 3.5Stability AI	Stability AI	image-generation	No	0K
Stable Video DiffusionStability AI	Stability AI	video-generation	No	0K
Step 3.7 FlashStepFun	StepFun	coding	No	256K
UI-TARS 7B ByteDance	ByteDance	coding	No	128K
Veo 2Google	Google	video-generation	No	0K

Image Generators

17 models that can produce images as output.

Model	Provider	Category	Free?
Adobe Firefly 3Adobe	Adobe	image-generation	No
DALL-E 3OpenAI	OpenAI	image-generation	No
FLUX.1 ProBlack Forest Labs	Black Forest Labs	image-generation	No
GPT-5 ImageOpenAI	OpenAI	image-generation	No
GPT-5 Image MiniOpenAI	OpenAI	image-generation	No
GPT-5.4 Image 2OpenAI	OpenAI	image-generation	No
Ideogram 2.0Ideogram	Ideogram	image-generation	No
Imagen 3Google	Google	image-generation	No
Leonardo PhoenixLeonardo AI	Leonardo AI	image-generation	No
Midjourney v6.1Midjourney	Midjourney	image-generation	No
Nano Banana (Gemini 2.5 Flash Image)Google	Google	image-generation	No
Nano Banana 2 (Gemini 3.1 Flash Image Preview)Google	Google	image-generation	No
Nano Banana 2 (Gemini 3.1 Flash Image)Google	Google	image-generation	No
Nano Banana Pro (Gemini 3 Pro Image Preview)Google	Google	image-generation	No
Nano Banana Pro (Gemini 3 Pro Image)Google	Google	image-generation	No
Recraft V3Recraft	Recraft	image-generation	No
Stable Diffusion 3.5Stability AI	Stability AI	image-generation	No

Explore More

Dive deeper into multimodal AI, vision models, or browse all explorers.

All Explorers Multimodal AI Models AI Models with Vision

Frequently Asked Questions

Modalities refer to the types of data an AI model can process as input or generate as output. Common input modalities include text, images, and audio. Output modalities include text generation, image creation, code, and structured data like JSON.

A multimodal AI model can process and generate multiple types of data - for example, accepting both text and images as input. Models like GPT-4o, Claude 3.5, and Gemini 2.0 are multimodal, supporting text, image, and sometimes audio inputs.

Our tracker shows that a growing majority of new AI models support vision (image) input. Most top-tier models from OpenAI, Anthropic, Google, and Meta now accept image inputs alongside text, making vision a near-standard capability.