# LLM 推理性能基準測試報告 V2 (2026-04) ## 1. 全模型性能對比表 | 模型名稱 | 部署類型 | TTFT (秒) | TPS (tokens/s) | 總耗時 (秒) | 總字數 | | :--- | :--- | :--- | :--- | :--- | :--- | | local-gemma4:26b (128K) | Local | 87.99 | 10.79 | 131.74 | 717 | | local-gemma4:26b (32K) | Local | 78.67 | 10.16 | 127.70 | 722 | | local-gemma4:e4b | Local | 39.93 | 12.34 | 110.43 | 1338 | | ollama-deepseek-v3.1:671b-cloud | Cloud (Ollama) | 1.04 | 51.74 | 7.30 | 479 | | ollama-gemma4:31b-cloud | Cloud | 0.85 | 31.79 | 14.22 | 613 | | ollama-glm-5:cloud | Cloud (Ollama) | 13.58 | 102.25 | 19.53 | 779 | | ollama-kimi-k2.5:cloud | Cloud (Ollama) | 15.91 | 29.67 | 23.29 | 505 | | ollama-minimax-m2.7:cloud | Cloud (Ollama) | 40.40 | 3.75 | 40.94 | 508 | | 百煉-qwen3-max | Cloud | 0.86 | 6.18 | 14.13 | 595 | | 百煉-qwen3.5-35b-a3b | Cloud | 37.64 | 69.15 | 39.22 | 543 | | 百煉-qwen3.6-plus | Cloud | 77.35 | 15.25 | 83.32 | 507 | | 百煉-qwen3.6-plus-v2 | Cloud | 47.14 | 15.58 | 53.11 | 503 | | 直連-MiniMax-M2.7 | Cloud (Direct) | 1.19 | 1.97 | 13.90 | 842 | | 硅基流動-DeepSeek-R1-Qwen-8B | Cloud | 10.15 | 75.57 | 13.40 | 398 | ## 2. 數據分析結論 - **雲端極速化**:`GLM-5` (102 t/s) 與 `DeepSeek v3.1` (51 t/s) 展現了極致的雲端吞吐能力。 - **本地 e4b 觀察**:即使是 4B 規模模型,在本地冷啟動仍需約 40 秒,說明啟動瓶頸(硬碟與 Ollama 服務初始化)與模型參數量的相關性較低,更受系統底層 IO 影響。 - **穩定性提升**:直連 API 的 TTFT 普遍穩定在 1 秒左右,相比之下,各類中轉或代理層(如部分百煉接口)波動較大。 --- *報告生成時間: 2026-04-14*