9 種 AI 模型辨識台灣發票實測：Gemini、Claude、Gemma4、PaddleOCR 準確率、速度、費用完整比較

實測 9 種模型辨識台灣發票，gemini-3.1-flash-lite 以 1.8 秒、94.9% 準確率、費用便宜，拿下綜合第一，Gemma4:26b 卻意外輸給更小的 e4b。

我最近在為一個發票自動化系統挑選 OCR 引擎，測試範圍從免費本機方案到最強的雲端 LLM，最終結果讓我大吃一驚——最便宜的那個幾乎打敗了所有對手。

這篇文章把完整測試數據整理成讀者做決策所需的精華，包含準確率、速度、每萬張費用的三維比較，以及各模型在台灣發票上最常見的失分原因。

測試設計

使用 3 張台灣二聯式發票（含手寫欄位、方格統編、民國年日期），每張評分 13 個欄位（9 個表頭 + 4 個品項），共 39 分滿分。

測試環境為 Apple M4 Pro（48GB 統一記憶體），這讓本機 ollama 模型得以直接利用 GPU / Neural Engine，但即便如此，結果也未必如預期。

參與比較的 9 個模型：

雲端模型：gemini-3.1-flash-lite、gemini-3-flash-preview、gemini-3.1-pro-preview、claude-sonnet-4-6、claude-opus-4-7
本機 ollama：gemma4:e2b（7GB）、gemma4:e4b（9GB）、gemma4:26b（17GB）
傳統 OCR：PaddleOCR PPStructureV3

準確率：雲端模型大勝，本機差距明顯

模型	準確率	平均耗時	每萬張費用
gemini-3.1-pro-preview	97.4%	37.3s	$37.13
gemini-3.1-flash-lite	94.9%	1.8s	$2.17
gemini-3-flash-preview	94.9%	8.0s	$3.26
claude-sonnet-4-6	94.9%	19.6s	$1,093
claude-opus-4-7	94.9%	8.5s	$3,080
gemma4:e4b（本機）	61.5%	9.7s	免費
PaddleOCR PPStructureV3	38.5%	24.8s	免費
gemma4:e2b（本機）	20.5%	6.2s	免費
gemma4:26b（本機）	17.9%	4.3s	免費

前五名清一色是雲端模型，本機 ollama 最好的 gemma4:e4b 僅達 61.5%，且更大的 gemma4:26b 反而更差——這背後有重要原因值得留意。

真正的贏家：gemini-3.1-flash-lite

如果只能推薦一個模型，答案是 gemini-3.1-flash-lite。它用 1.8 秒完成辨識、每萬張只需 $2.17，準確率卻達 94.9%——與最強的 gemini-3.1-pro-preview 相比只差 1 分（在方格統編欄位失分），但快 20 倍、便宜 17 倍。

在綜合評分（準確率 50%、速度 25%、費用 25%）中，它以 0.942 高居第一，第二名的 gemini-3-flash-preview 僅有 0.733。

各模型最常見的失分原因

1. 手寫買受人名稱

「金鋐源管理顧問社」中的「鋐」字，所有雲端 LLM 都讀錯一兩個字（金銳/鎂/鑽/鑲），這是字跡先天難辨的問題，連人工也無法 100% 確認。這類欄位應標記為低信心值，留人工複核。

2. 方格統編（每格獨立印刷）

統編「42364761」印在 8 個獨立小方格內，較弱的模型把「7」誤讀為「2」。Pro 等級的模型（gemini-3.1-pro-preview、claude-opus-4-7、claude-sonnet-4-6）可正確辨識；flash-lite 與 flash-preview 在這欄失分。

3. 民國年沒有自動轉換

gemma4:e4b 把日期輸出為「111-09-26」、「114-08-25」，沒有自動轉換成西元年。所有雲端模型都正確輸出 YYYY-MM-DD 格式。

4. gemma4:26b 輸出不穩定

17GB 模型在 M4 Pro 上多次回傳壞 JSON（如 2thoughtful_user_request_analysis），準確率跌至 17.9%，比只有 7GB 的 e2b 更差。不建議用於生產環境。

5. Claude CLI 費用被高估

Claude 在這次測試中費用偏高（每萬張 $1,093–$3,080），是因為透過 claude -p 子程序每次冷啟動都載入 CLAUDE.md、hooks、skills 等系統 prompt（約 36k cache 創建 tokens）。若直接呼叫 Anthropic API，費用可降至 1/10 以下，與 Gemini Pro 同等量級。

依情境的推薦組合

情境	推薦模型	理由
生產預設（雲端）	gemini-3.1-flash-lite	速度、成本、準確率最佳平衡
精確模式（雲端）	gemini-3.1-pro-preview	手寫、方格統編準確率最高
離線（不送雲端）	gemma4:e4b	9GB ollama vision 模型，準確率 61.5%
純文字辨識	PaddleOCR PPStructureV3	完全本機、零費用，但需自寫 regex

常見問題

Q：用 Claude API 直接呼叫，費用真的會低很多嗎？

是的。本次測試透過 claude -p CLI 的費用包含每次約 36k tokens 的系統提示載入，直接呼叫 API（搭配 prompt cache）成本可降低 80-90%，與 Gemini Pro 相比就不再懸殊。

Q：PaddleOCR 可以做到同等水準嗎？

目前不行。PaddleOCR PPStructureV3 缺乏語意理解，無法抽取 invoice_number、issue_date、buyer_name 等結構化欄位（依賴 regex，invoice2/3 全部 null）。它適合大量純文字辨識，不適合結構化表單擷取。

Q：本機 Gemma4 可以達到雲端水準嗎？

目前 e4b（9GB）是可接受的本機選項，61.5% 對某些非精確場景夠用，但缺乏民國年轉換、品項名稱偶有幻覺。更大的 26b 在我的機器上反而更不穩定，不建議直接部署。

結語

這次測試最大的啟示是：模型大小不等於效果好。gemma4:26b（17GB）輸給了 e4b（9GB），而雲端的 gemini-3.1-flash-lite（極輕量）卻打敗了幾乎所有對手。對發票 OCR 這類需要語意理解的結構化擷取任務，選擇有 vision 能力的多模態 LLM 是正確方向，費用與速度的取捨再依業務量決定。

如果你在做類似評估，建議先以 gemini-3.1-flash-lite 為基準線，在失分嚴重的欄位（手寫、方格統編）加上 low-confidence 旗標，再考慮是否需要升級到 Pro 等級。