AI仍無法超越人類現場工程師 Datadog報告揭人機協作潛力

商傳媒｜葉安庭／綜合外電報導

根據一份由美國雲端監控服務供應商 Datadog 與卡內基美隆大學（Carnegie Mellon University）合作發布的最新基準測試報告 ARFBench 顯示，目前最先進的人工智慧模型，仍無法在實際生產環境的故障排除方面超越人類工程師。這項發現對科技業中日益增長的「自主運維代理」（autonomous site reliability engineer agents）趨勢提出了重要思考。

ARFBench 是首個完全基於真實生產事故構建的人工智慧基準測試，旨在評估 AI 模型在分析系統中斷問題時的表現。研究人員指出，全球每年因系統停機造成的損失高達數兆美元，而此測試正是要檢驗 AI 能否有效改善這一狀況。該基準測試集結了 63 起真實生產事故，包含 750 個多重選擇題、142 項監控指標及 538 萬個資料點，每個問題均經過人工驗證。

測試結果顯示，OpenAI 最新的 GPT-5 模型以 62.7% 的準確率領先所有現有 AI 模型，但仍遠低於領域專家 72.7% 的準確率。其他模型如 Gemini 3 Pro 獲得 58.1%，Claude Opus 4.6 為 54.8%，Claude Sonnet 4.5 則為 47.2%。即使是沒有廣泛觀察經驗的非領域專家，準確率也達到 69.7%，超越所有 AI 模型。這項數據明確指出，沒有任何單一 AI 模型能勝過人類的基線表現。

儘管通用型 AI 模型表現仍有落差，但 Datadog 內部結合了自家時間序列預測模型 Toto 與多模態模型 Qwen3-VL 32B 的混合模型 Toto-1.0-QA-Experimental，卻取得了 63.9% 的準確率，微幅超越 GPT-5。該模型在異常識別任務上的 F1 分數領先其他模型至少 8.8 個百分點，顯示專為可觀測性資料訓練的領域模型，在特定任務上能優於通用的前沿系統。

研究人員強調，AI 模型與人類專家在錯誤模式上存在顯著差異，這表明兩者的優勢具有互補性。AI 模型可能出現「幻覺」、忽略元數據或失去領域上下文，而人類則可能誤讀精確的時間戳或在處理複雜指令時失誤。這些錯誤類型鮮少重疊。報告中提出一個理論上的「模型-專家預言機」（Model-Expert Oracle），透過結合 AI 和人類判斷，其準確率可達 87.2%，這不僅量化了人機協作在解決問題上的潛在效益，也為科技業描繪了未來協同工作的目標藍圖。這份基準測試結果已在 Hugging Face 平台上公開，供各界檢視。

頭條留言

AI仍無法超越人類現場工程師 Datadog報告揭人機協作潛力

最新文章

民生報老同仁夏初聚會姚志剛有情同事有義

陸弈靜迎戰風雨奮不顧身颱風吹到抱電桿

伊品高唱驪歌媽媽送「有錢花」鈔票花束超狂畢業禮物...

北港媽祖首度北巡駐駕基隆　祈安晚會湧萬名信眾共沐神...

基隆安樂路二段施工挖破水管　周邊停水2小時搶修恢復...

社群媒體

聯絡我們

關於我們

AI仍無法超越人類現場工程師 Datadog報告揭人機協作潛力

最新文章

民生報老同仁夏初聚會 姚志剛有情同事有義

陸弈靜迎戰風雨奮不顧身 颱風吹到抱電桿

伊品高唱驪歌 媽媽送「有錢花」鈔票花束超狂畢業禮物...

北港媽祖首度北巡駐駕基隆 祈安晚會湧萬名信眾共沐神...

基隆安樂路二段施工挖破水管 周邊停水2小時搶修恢復...

社群媒體

聯絡我們

關於我們

民生報老同仁夏初聚會姚志剛有情同事有義

陸弈靜迎戰風雨奮不顧身颱風吹到抱電桿

伊品高唱驪歌媽媽送「有錢花」鈔票花束超狂畢業禮物...

北港媽祖首度北巡駐駕基隆　祈安晚會湧萬名信眾共沐神...

基隆安樂路二段施工挖破水管　周邊停水2小時搶修恢復...