langchain-learning/ollama/llm_benchmark_report_v2.md
2026-04-14 03:19:18 +08:00

28 lines
1.7 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# LLM 推理性能基準測試報告 V2 (2026-04)
## 1. 全模型性能對比表
| 模型名稱 | 部署類型 | TTFT (秒) | TPS (tokens/s) | 總耗時 (秒) | 總字數 |
| :--- | :--- | :--- | :--- | :--- | :--- |
| local-gemma4:26b (128K) | Local | 87.99 | 10.79 | 131.74 | 717 |
| local-gemma4:26b (32K) | Local | 78.67 | 10.16 | 127.70 | 722 |
| local-gemma4:e4b | Local | 39.93 | 12.34 | 110.43 | 1338 |
| ollama-deepseek-v3.1:671b-cloud | Cloud (Ollama) | 1.04 | 51.74 | 7.30 | 479 |
| ollama-gemma4:31b-cloud | Cloud | 0.85 | 31.79 | 14.22 | 613 |
| ollama-glm-5:cloud | Cloud (Ollama) | 13.58 | 102.25 | 19.53 | 779 |
| ollama-kimi-k2.5:cloud | Cloud (Ollama) | 15.91 | 29.67 | 23.29 | 505 |
| ollama-minimax-m2.7:cloud | Cloud (Ollama) | 40.40 | 3.75 | 40.94 | 508 |
| 百煉-qwen3-max | Cloud | 0.86 | 6.18 | 14.13 | 595 |
| 百煉-qwen3.5-35b-a3b | Cloud | 37.64 | 69.15 | 39.22 | 543 |
| 百煉-qwen3.6-plus | Cloud | 77.35 | 15.25 | 83.32 | 507 |
| 百煉-qwen3.6-plus-v2 | Cloud | 47.14 | 15.58 | 53.11 | 503 |
| 直連-MiniMax-M2.7 | Cloud (Direct) | 1.19 | 1.97 | 13.90 | 842 |
| 硅基流動-DeepSeek-R1-Qwen-8B | Cloud | 10.15 | 75.57 | 13.40 | 398 |
## 2. 數據分析結論
- **雲端極速化**`GLM-5` (102 t/s) 與 `DeepSeek v3.1` (51 t/s) 展現了極致的雲端吞吐能力。
- **本地 e4b 觀察**:即使是 4B 規模模型,在本地冷啟動仍需約 40 秒,說明啟動瓶頸(硬碟與 Ollama 服務初始化)與模型參數量的相關性較低,更受系統底層 IO 影響。
- **穩定性提升**:直連 API 的 TTFT 普遍穩定在 1 秒左右,相比之下,各類中轉或代理層(如部分百煉接口)波動較大。
---
*報告生成時間: 2026-04-14*