AI Agent表現不如預期 新研究揭不到5%任務能獨力完成

商傳媒|責任編輯/綜合外電報導

一份由數據標註公司 Scale AI 與 AI安全中心共同發布的最新研究指出,目前最先進的 AI Agent(人工智慧代理)在獨立完成真實世界數位工作任務方面的成功率低於 5%。這項名為 Remote Labor Index(RLI)的基準測試,旨在評估 AI Agent 是否能像人類專業工作者一樣,從頭到尾可靠地完成有償任務,並達到客戶要求的水準。

RLI 的任務來源涵蓋 Upwork 等自由工作者平台,橫跨影片剪輯、標誌與傳單設計、建築、資料分析、珠寶設計及遊戲開發等 23 個不同領域。評估人員會將 AI 生成的成果與人類產出的成果進行比較,並判斷客戶是否願意為此付費。

根據研究數據,RLI 於 2025 年底推出時,表現最佳的 AI Agent 僅能將 2.5% 的專案自動化至專業水準。截至 2026 年中旬,此成功率變化不大,仍在 5% 以下。目前排名最高的 AI Agent 為透過 CoWork 平台運作的 claude-opus-4-6,成功率約為 4.17%。研究發現,AI Agent 的低自動化率並非由於其產出品質差,而是無法可靠地完成端到端的任務。

Scale AI 資安與政策研究主管 Udari Madhushani Sehwag 指出,AI Agent 的關鍵瓶頸在於可靠性。她表示,Agent 可以完成任務中的部分環節,但大部分情況下無法獨立可靠地完成整個任務。她提到,AI Agent 仍存在三大能力缺口:理解任務簡報、完成所有組成部分,以及將這些部分組合成一個連貫的整體。Sehwag 預計 AI Agent 的能力不會快速提升,並強調這與 2025 年底以來的觀察一致。

儘管有這些限制,根據 Salesforce 對 200 位人力資源長(CHRO)的調查,有高達 89% 的受訪者相信 AI Agent 將有助於重新分配員工職責,並預期約 23% 的員工將因此技術而重新部署。然而,Sehwag 建議組織應基於現有證明來制定 AI Agent 決策,而非過度依賴對其未來能力的預測。她強調,AI Agent 應被視為「協作工具(copilot)」,協助人類更有效率地完成任務,而非取代人類來實現完全自動化。目前,AI Agent 的最佳用途仍是「增強輔助(augmentation)」,而非「自動化(automation)」,且在客戶端流程中,人類監督在每個階段都至關重要。RLI 的數據為企業在人力規劃上提供了實質的參考,幫助組織更理性地看待 AI Agent 的實際能力。

頭條留言
商傳媒
商傳媒https://sunmedia.tw/
商傳媒是一個提供財經、科技、智慧製造、醫療、產業資訊,為主要服務內容的金融、科技網路媒體,其宗旨在於提供台灣中小企業一個產品新聞的平台,未來更將推廣至世界各國!
- 廣告 -
- 廣告 -

最新文章

Salesforce斥資36億美元收購Fin 強化...

商傳媒|何映辰/台北報導全球客戶關聯管理(CRM)...

幣安趙長鵬倡議政府股票代幣化、國家穩定幣,形塑加密...

商傳媒|吳承岳/台北報導幣安(Binance)創辦...

保險業 AI 化引發裁員擔憂 州立農業保險公司惹議...

商傳媒|何映辰/台北報導隨著人工智慧(AI)技術日...

新加坡5月出口狂飆38.4% 創22年新高 AI晶...

商傳媒|責任編輯/綜合外電報導在人工智慧(AI)晶...

印度歐盟自由貿易協定 年底將正式簽署深化經濟連結

商傳媒|葉安庭/綜合外電報導歐盟高峰會主席安東尼奧...