Qwen 3 32B — Apple Silicon Benchmarks

Measured inference speed for Qwen 3 32B across 3 Apple Silicon chips. Tokens per second at multiple quantization levels. Real runs, not estimates.

Quantizations measured: Q4_K_M, iQ2_K_S

3Benchmark rows

3Chip tiers covered

22.0Fastest avg tok/s (M4 Max (40-core GPU, 64 GB))

11 GBMinimum RAM observed

Benchmark results for Qwen 3 32B

Rows sorted by avg tok/s descending. Click source badge to see original measurement page.

Chip	Quant	RAM req.	Context	Avg tok/s	Prompt tok/s	Runtime	Source
M4 Max (40-core GPU, 64 GB)	Q4_K_M	20.0 GB	128k	22.0 tok/s	—	factory harness	factory lab
M4 Max (32-core GPU)	iQ2_K_S	11.0 GB	4k	13.2 tok/s	—	—	ref
M4 Max (128 GB)	Q4_K_M	—	10k	11.7 tok/s	—	LM Studio	ref

Chips with published results for Qwen 3 32B

Data

benchmarks.json — full dataset · models.json — model summaries · benchmarks.csv — CSV export