langchain-learning/ollama/llm_benchmark_report_v2.md

# LLM 推理性能基準測試報告 V2 (2026-04)

## 1. 全模型性能對比表
| 模型名稱 | 部署類型 | TTFT (秒) | TPS (tokens/s) | 總耗時 (秒) | 總字數 |
| :--- | :--- | :--- | :--- | :--- | :--- |
| local-gemma4:26b (128K) | Local | 87.99 | 10.79 | 131.74 | 717 |
| local-gemma4:26b (32K) | Local | 78.67 | 10.16 | 127.70 | 722 |
| local-gemma4:e4b | Local | 39.93 | 12.34 | 110.43 | 1338 |
| ollama-deepseek-v3.1:671b-cloud | Cloud (Ollama) | 1.04 | 51.74 | 7.30 | 479 |
| ollama-gemma4:31b-cloud | Cloud | 0.85 | 31.79 | 14.22 | 613 |
| ollama-glm-5:cloud | Cloud (Ollama) | 13.58 | 102.25 | 19.53 | 779 |
| ollama-kimi-k2.5:cloud | Cloud (Ollama) | 15.91 | 29.67 | 23.29 | 505 |
| ollama-minimax-m2.7:cloud | Cloud (Ollama) | 40.40 | 3.75 | 40.94 | 508 |
| 百煉-qwen3-max | Cloud | 0.86 | 6.18 | 14.13 | 595 |
| 百煉-qwen3.5-35b-a3b | Cloud | 37.64 | 69.15 | 39.22 | 543 |
| 百煉-qwen3.6-plus | Cloud | 77.35 | 15.25 | 83.32 | 507 |
| 百煉-qwen3.6-plus-v2 | Cloud | 47.14 | 15.58 | 53.11 | 503 |
| 直連-MiniMax-M2.7 | Cloud (Direct) | 1.19 | 1.97 | 13.90 | 842 |
| 硅基流動-DeepSeek-R1-Qwen-8B | Cloud | 10.15 | 75.57 | 13.40 | 398 |

## 2. 數據分析結論
- **雲端極速化**：`GLM-5` (102 t/s) 與 `DeepSeek v3.1` (51 t/s) 展現了極致的雲端吞吐能力。
- **本地 e4b 觀察**：即使是 4B 規模模型，在本地冷啟動仍需約 40 秒，說明啟動瓶頸（硬碟與 Ollama 服務初始化）與模型參數量的相關性較低，更受系統底層 IO 影響。
- **穩定性提升**：直連 API 的 TTFT 普遍穩定在 1 秒左右，相比之下，各類中轉或代理層（如部分百煉接口）波動較大。

---
*報告生成時間: 2026-04-14*