微軟研究發現AI除錯失靈!Claude與OpenAI模型解Bug成效差強人意

商傳媒|記者責任編輯/綜合外電報導

Google執行長皮查伊(Sundar Pichai)指出,該公司目前有25%的新程式碼已由AI生成,Meta執行長祖克柏(Mark Zuckerberg)也公開宣示將全面部署AI編程工具。在科技巨頭爭相將「AI自動撰寫程式」導入產業應用的年代,科技媒體《TechCrunch》報導披露,一項由微軟研究部門(Microsoft Research)主導的分析卻揭示,當前最頂尖的AI模型在「除錯」表現方面仍遠遜於人類工程師。

微軟研究團隊以包含Anthropic的Claude 3.7 Sonnet與OpenAI的o3-mini在內的9種語言模型為測試對象,構建一個單一提示驅動(prompt-based)的AI代理系統,並賦予其多種除錯工具,如:Python除錯器,該系統被要求解決來自SWE-bench Lite基準的300項真實除錯任務,涵蓋程式錯誤識別、修復與邏輯調整。

結果顯示,表現最好的Claude 3.7 Sonnet僅完成48.4%的任務,OpenAI o1與o3-mini的成功率則分別落在30.2%與22.1%,明顯無法達到業界可接受的標準。研究團隊坦言,即便模型能力已大幅提升,距離實用除錯工具仍有相當落差。

造成低效能的主因之一,是模型在使用除錯工具時難以正確選擇並應用不同工具對應問題情境,反映其在序列化決策過程中的理解力仍有限。研究作者指出,當前AI訓練資料中,缺乏足夠的「人類除錯軌跡」(debugging trajectory)數據,是導致學習瓶頸的關鍵。

這項結果正呼應業界對AI撰寫程式工具的安全疑慮。例如AI開發平台Replit旗下的Devin模型,在20項程式測試中僅完成3項,顯示即便能生成語法正確的代碼,其邏輯完整性與維護性仍然堪慮。

專家建議,企業在導入AI輔助開發工具時,應審慎評估模型在「除錯、架構設計與安全性檢核」等方面的限制,並善用資深工程師進行二次審查,避免「系統性漏洞」導致將來造成更大損失。

頭條留言
商傳媒
商傳媒https://sunmedia.tw/
商傳媒是一個提供財經、科技、智慧製造、醫療、產業資訊,為主要服務內容的金融、科技網路媒體,其宗旨在於提供台灣中小企業一個產品新聞的平台,未來更將推廣至世界各國!
- 廣告 -
- 廣告 -

最新文章

蘇哈爾接受世界大學新聞專訪 推崇淡江未來學特色

墨新聞|記者韋石/綜合報導賴映秀、許宥萱淡水校園報...

淡江大學推動永續成果優異 再獲遠見大學社會責任2大...

墨新聞|記者韋石/綜合報導【潘劭愷淡水校園報導】2...

企業 AI 落地不再難!漸強實驗室推 Cresce...

AI 應用正加速席捲全球產業,但許多企業導入仍面臨「想用卻不知從哪開始」的挑戰。亞洲商務溝通品牌漸強實驗室(Crescendo Lab)宣布正式啟動「Crescendo AI」雙軌戰略,結合旗下兩大平台 MAAC(AI 自動化行銷平台)與 CAAC(企業級對話互動平台),並推出內建智慧助理「AiMon」,從行銷、客服到銷售三大面向全面協助企業以最低門檻、最高彈性掌握 AI 應用優勢。

母親節怎麼送最聰明?Yahoo 奇摩揭三大送禮趨勢...

面對近期關稅調漲與全球經濟震盪,民眾在母親節送禮上更講求實用與高CP值。Yahoo奇摩購物觀察指出,美妝保養、3C家電與旅遊票券成為今年送禮三大熱搜品類,平台特別推出分眾化送禮指南,並從4月14日起展開系列促銷活動,包括滿3,000送300購物金、天天簽到抽超贈點、指定信用卡最高回饋3,500元,還有多款熱門品牌祭出下殺優惠,為消費者提供兼具省錢與心意的送禮選擇。

BenQ 推出全新 PD2730S 設計螢幕,5K...

BenQ宣布推出新一代5K設計繪圖螢幕PD2730S,專為影像、設計與多工創作者量身打造。此機種內建BenQ獨家校色軟體PMU,確保多螢幕環境中的色彩一致性,並搭載HotKey Puck無線旋鈕與Thunderbolt 4高速連接,全面支援Mac作業系統與鍵盤操作。PD2730S即日起上市,建議售價為新台幣40,900元,凡於上市活動期間購買,即贈市價4,290元的ScreenBar Pro星辰銀,數量有限。