阿里巴巴Metis AI代理突破 冗餘呼叫從98%降至2%準確度大增

商傳媒|葉安庭/綜合外電報導

阿里巴巴(Alibaba)的研究人員日前開發出名為Metis的AI代理,透過引入創新的Hierarchical Decoupled Policy Optimization(HDPO)框架,成功將其AI工具的冗餘呼叫從98%大幅降低至2%,同時在多項關鍵產業基準測試中,顯著提升了推理的準確度。

大型語言模型(LLMs)經常會盲目地呼叫外部工具,即便用戶的提示中已包含足夠完成任務的資訊,這種「過度啟用」的行為不僅導致延遲瓶頸、不必要的API成本,更會因環境雜訊而降低模型的推理能力。對於實際應用而言,這種頻繁且過多的工具呼叫,為系統帶來了嚴重的營運障礙。

為了解決此問題,阿里巴巴的研究人員推出了HDPO,這是一個強化學習框架,旨在訓練代理平衡執行效率與任務準確性。傳統的訓練演算法常將準確度與效率合併為單一獎勵訊號,形成難以最佳化的困境。HDPO則將準確度與效率拆分為兩個獨立的優化通道,其中準確度通道專注於最大化任務的正確性,效率通道則側重於優化執行經濟性。HDPO獨立計算這兩個通道的訓練訊號,僅在最終的損失計算階段進行結合,並確保錯誤的回應不會僅因速度快或使用較少工具而獲得獎勵。

研究團隊在嚴謹的多階段數據策劃下,透過篩選高品質的工具增強多模態數據,並使用Google的Gemini 3.1 Pro作為自動評審,確保訓練樣本能展現策略性的工具使用。Metis基於Qwen3-VL-8B-Instruct視覺語言模型開發,在兩階段訓練後,展現了卓越的效能。Metis在測試中超越了包括LLaVA-OneVision、DeepEyes V2及300億參數的Skywork-R1V4等現有AI代理模型,無論在視覺感知或推理任務上,都取得了最先進或極具競爭力的表現。例如,Metis能自動識別圖像中清晰可讀的文字,進而完全跳過工具使用,直接進行推理。

研究人員總結:「我們的結果表明,策略性的工具使用與強大的推理效能並非權衡取捨;相反,消除雜訊、冗餘的工具呼叫直接有助於提升卓越的準確性。」他們認為,這項工作預示著工具增強學習的範式轉變,從僅教導模型如何執行工具,轉向培養何時避免使用工具的「元認知智慧」。阿里巴巴已將Metis及其HDPO框架的程式碼依據Apache 2.0許可證開源。

頭條留言
商傳媒
商傳媒https://sunmedia.tw/
商傳媒是一個提供財經、科技、智慧製造、醫療、產業資訊,為主要服務內容的金融、科技網路媒體,其宗旨在於提供台灣中小企業一個產品新聞的平台,未來更將推廣至世界各國!
- 廣告 -
- 廣告 -

最新文章

《霸王列傳》「無冕之王」荷蘭作第九個世界新冠軍大夢...

說起荷蘭隊世界盃征程輝煌而又坎坷,曾十二度問鼎足球盛宴,三次(1974年、1978年、2010年)無限接近最高榮譽,卻三次飲恨冠軍決賽,與大力神杯擦肩而過。儘管荷蘭被譽為「無冕之王」,實力毋庸置疑,他們在會外賽中表現出色,會內賽與日本、瑞典和突尼西亞同處F組,讓人又不禁期待荷蘭是否能在本屆大賽中衝擊冠軍。

金牌全壘打! 馬來西亞世界廚藝賽咖啡拉花 崑大餐飲...

墨新聞|記者蔡清欽/台南報導崑山科技大學餐飲管理及...

結合LINE@「奇醫管家」推動ePROM智慧照護平...

墨新聞|記者蔡清欽/台南報導奇美醫院推「ePROM...

《搶銀行先修班》首支預告曝光 大衛雷奇打造社群直播...

全新動作懸疑電影《搶銀行先修班》首支預告於2日正式曝光,作品以「銀行搶案全程社群直播」為核心設定,一開場便以高概念題材引爆話題。電影將傳統犯罪劫案轉化為即時網路直播事件,一群銀行搶匪不再只是單純作案,而是將每一次行動公開在社群平台上,讓全球觀眾同步圍觀,使搶案本身變成一場流量競賽,也讓電影呈現出貼近當代網路文化的全新犯罪樣貌。

《雨霖鈴》完結熱度破 5 億 楊洋雪地血戰掀全網熱...

由楊洋、章若楠與方逸倫主演的武俠劇《雨霖鈴》日前在Disney+迎來大結局,不僅連續兩週穩居平台排行榜前三名,全網播放量更突破5億次。劇情最高潮聚焦於楊洋飾演的展昭孤身闖入襄陽王大本營「沖霄樓」,身穿鮮紅官服與敵人展開生死決戰,即使身負重傷仍堅持迎戰,最終在漫天飛雪中持劍而立的畫面,成為全劇最具代表性的名場面,也讓不少觀眾盛讚其兼具英勇與悲壯氣質,堪稱近年武俠劇中的經典角色演出。