AI仍無法超越人類現場工程師 Datadog報告揭人機協作潛力

商傳媒|葉安庭/綜合外電報導

根據一份由美國雲端監控服務供應商 Datadog 與卡內基美隆大學(Carnegie Mellon University)合作發布的最新基準測試報告 ARFBench 顯示,目前最先進的人工智慧模型,仍無法在實際生產環境的故障排除方面超越人類工程師。這項發現對科技業中日益增長的「自主運維代理」(autonomous site reliability engineer agents)趨勢提出了重要思考。

ARFBench 是首個完全基於真實生產事故構建的人工智慧基準測試,旨在評估 AI 模型在分析系統中斷問題時的表現。研究人員指出,全球每年因系統停機造成的損失高達數兆美元,而此測試正是要檢驗 AI 能否有效改善這一狀況。該基準測試集結了 63 起真實生產事故,包含 750 個多重選擇題、142 項監控指標及 538 萬個資料點,每個問題均經過人工驗證。

測試結果顯示,OpenAI 最新的 GPT-5 模型以 62.7% 的準確率領先所有現有 AI 模型,但仍遠低於領域專家 72.7% 的準確率。其他模型如 Gemini 3 Pro 獲得 58.1%,Claude Opus 4.6 為 54.8%,Claude Sonnet 4.5 則為 47.2%。即使是沒有廣泛觀察經驗的非領域專家,準確率也達到 69.7%,超越所有 AI 模型。這項數據明確指出,沒有任何單一 AI 模型能勝過人類的基線表現。

儘管通用型 AI 模型表現仍有落差,但 Datadog 內部結合了自家時間序列預測模型 Toto 與多模態模型 Qwen3-VL 32B 的混合模型 Toto-1.0-QA-Experimental,卻取得了 63.9% 的準確率,微幅超越 GPT-5。該模型在異常識別任務上的 F1 分數領先其他模型至少 8.8 個百分點,顯示專為可觀測性資料訓練的領域模型,在特定任務上能優於通用的前沿系統。

研究人員強調,AI 模型與人類專家在錯誤模式上存在顯著差異,這表明兩者的優勢具有互補性。AI 模型可能出現「幻覺」、忽略元數據或失去領域上下文,而人類則可能誤讀精確的時間戳或在處理複雜指令時失誤。這些錯誤類型鮮少重疊。報告中提出一個理論上的「模型-專家預言機」(Model-Expert Oracle),透過結合 AI 和人類判斷,其準確率可達 87.2%,這不僅量化了人機協作在解決問題上的潛在效益,也為科技業描繪了未來協同工作的目標藍圖。這份基準測試結果已在 Hugging Face 平台上公開,供各界檢視。

頭條留言
商傳媒
商傳媒https://sunmedia.tw/
商傳媒是一個提供財經、科技、智慧製造、醫療、產業資訊,為主要服務內容的金融、科技網路媒體,其宗旨在於提供台灣中小企業一個產品新聞的平台,未來更將推廣至世界各國!
- 廣告 -
- 廣告 -

最新文章

民生報老同仁夏初聚會 姚志剛有情同事有義

1978-2026 民生報還有人記得嗎?  ...

陸弈靜迎戰風雨奮不顧身 颱風吹到抱電桿

墨新聞|記者梁偉華/台北報導公視學生劇展推出金獎影...

伊品高唱驪歌 媽媽送「有錢花」鈔票花束超狂畢業禮物...

墨新聞|記者梁偉華/台北報導TPE48成員、也是1...

北港媽祖首度北巡駐駕基隆 祈安晚會湧萬名信眾共沐神...

墨新聞|記者江育銓/基隆報導「北港朝天宮媽祖北巡基...

基隆安樂路二段施工挖破水管 周邊停水2小時搶修恢復...

墨新聞|記者江育銓/基隆報導為提供更好的人行環境,...