langchain-learning/ollama/llm_benchmark_report_v2.md
2026-04-14 03:19:18 +08:00

1.7 KiB
Raw Blame History

LLM 推理性能基準測試報告 V2 (2026-04)

1. 全模型性能對比表

模型名稱 部署類型 TTFT (秒) TPS (tokens/s) 總耗時 (秒) 總字數
local-gemma4:26b (128K) Local 87.99 10.79 131.74 717
local-gemma4:26b (32K) Local 78.67 10.16 127.70 722
local-gemma4:e4b Local 39.93 12.34 110.43 1338
ollama-deepseek-v3.1:671b-cloud Cloud (Ollama) 1.04 51.74 7.30 479
ollama-gemma4:31b-cloud Cloud 0.85 31.79 14.22 613
ollama-glm-5:cloud Cloud (Ollama) 13.58 102.25 19.53 779
ollama-kimi-k2.5:cloud Cloud (Ollama) 15.91 29.67 23.29 505
ollama-minimax-m2.7:cloud Cloud (Ollama) 40.40 3.75 40.94 508
百煉-qwen3-max Cloud 0.86 6.18 14.13 595
百煉-qwen3.5-35b-a3b Cloud 37.64 69.15 39.22 543
百煉-qwen3.6-plus Cloud 77.35 15.25 83.32 507
百煉-qwen3.6-plus-v2 Cloud 47.14 15.58 53.11 503
直連-MiniMax-M2.7 Cloud (Direct) 1.19 1.97 13.90 842
硅基流動-DeepSeek-R1-Qwen-8B Cloud 10.15 75.57 13.40 398

2. 數據分析結論

  • 雲端極速化GLM-5 (102 t/s) 與 DeepSeek v3.1 (51 t/s) 展現了極致的雲端吞吐能力。
  • 本地 e4b 觀察:即使是 4B 規模模型,在本地冷啟動仍需約 40 秒,說明啟動瓶頸(硬碟與 Ollama 服務初始化)與模型參數量的相關性較低,更受系統底層 IO 影響。
  • 穩定性提升:直連 API 的 TTFT 普遍穩定在 1 秒左右,相比之下,各類中轉或代理層(如部分百煉接口)波動較大。

報告生成時間: 2026-04-14