Ollama

2026-04-14 03:19:18 +08:00

LLM 推理性能基準測試報告 V2 (2026-04)

1. 全模型性能對比表

模型名稱	部署類型	TTFT (秒)	TPS (tokens/s)	總耗時 (秒)	總字數
local-gemma4:26b (128K)	Local	87.99	10.79	131.74	717
local-gemma4:26b (32K)	Local	78.67	10.16	127.70	722
local-gemma4:e4b	Local	39.93	12.34	110.43	1338
ollama-deepseek-v3.1:671b-cloud	Cloud (Ollama)	1.04	51.74	7.30	479
ollama-gemma4:31b-cloud	Cloud	0.85	31.79	14.22	613
ollama-glm-5:cloud	Cloud (Ollama)	13.58	102.25	19.53	779
ollama-kimi-k2.5:cloud	Cloud (Ollama)	15.91	29.67	23.29	505
ollama-minimax-m2.7:cloud	Cloud (Ollama)	40.40	3.75	40.94	508
百煉-qwen3-max	Cloud	0.86	6.18	14.13	595
百煉-qwen3.5-35b-a3b	Cloud	37.64	69.15	39.22	543
百煉-qwen3.6-plus	Cloud	77.35	15.25	83.32	507
百煉-qwen3.6-plus-v2	Cloud	47.14	15.58	53.11	503
直連-MiniMax-M2.7	Cloud (Direct)	1.19	1.97	13.90	842
硅基流動-DeepSeek-R1-Qwen-8B	Cloud	10.15	75.57	13.40	398

雲端極速化：GLM-5 (102 t/s) 與 DeepSeek v3.1 (51 t/s) 展現了極致的雲端吞吐能力。
本地 e4b 觀察：即使是 4B 規模模型，在本地冷啟動仍需約 40 秒，說明啟動瓶頸（硬碟與 Ollama 服務初始化）與模型參數量的相關性較低，更受系統底層 IO 影響。
穩定性提升：直連 API 的 TTFT 普遍穩定在 1 秒左右，相比之下，各類中轉或代理層（如部分百煉接口）波動較大。

報告生成時間: 2026-04-14