微軟研究:頂尖AI模型自動改寫文件 平均損毀25%內容且錯誤難察

商傳媒|何映辰/台北報導

微軟研究人員近期透過一項新研究示警,當前領先的大型人工智慧模型(LLMs)在處理文件時,會「靜默」地引入錯誤並改寫內容,導致高達四分之一的文件資訊遭到損毀。這項發現對日益普及的AI自主代理(AI agents)應用,投下嚴峻挑戰。

該研究團隊開發了「DELEGATE-52」基準測試,旨在模擬涵蓋金融會計、軟體工程、晶體學及音樂符號等多達52個專業領域的多步驟自主工作流程。這項測試透過「往返接力模擬」方法,自動測量文件內容在長時間、連續20次互動中劣化的程度,免除了昂貴的人工審查需求。基準測試共包含310個工作環境,每個環境採用2,000至5,000個符號的真實文本作為起始文件,並要求模型執行5到10項複雜的編輯任務。為提高真實性,測試還在每個任務情境中引入8,000至12,000個符號的無關干擾文件。

研究人員針對來自OpenAI、Anthropic、Google、Mistral和xAI等19個不同大型語言模型進行測試。結果顯示,經過20次連續編輯互動的模擬後,所有模型的平均文件內容劣化高達50%。即使是表現最佳的頂尖模型,例如Google的Gemini 3.1 Pro、Anthropic的Claude 4.6 Opus,以及OpenAI的GPT 5.4,也平均損毀了25%的文件內容。在52個專業領域中,Python程式語言領域是唯一多數模型能達到98%或更高「準備就緒」分數的項目。

微軟資深研究員菲利普·拉班(Philippe Laban)指出,大型語言模型在處理文件時,若無法編寫有效的程式來精準操作檔案,便會退而求其次,透過重新讀取與改寫整個文件。他表示,這種方式不僅效率低下,也更容易出錯。研究發現,高達80%的內容劣化來自於「大規模嚴重故障」,即模型在單次互動中會突然遺失至少10%的文件內容。雖然頂尖模型能延遲這類災難性故障的發生,卻未能更好地避免小型錯誤。更令人擔憂的是,賦予模型「代理工具」(如程式碼執行和檔案讀寫權限),反而會讓內容劣化程度平均增加6%。此外,文件越大或工作區增加更多干擾文件,內容劣化也會越嚴重。

菲利普·拉班強調,業界對於檢索增強生成(RAG)管線的評估,應該透過多步驟工作流程而非單一檢索基準來進行,以避免低估不精確檢索所帶來的損害。他建議,人工智慧應用應圍繞「短暫、透明」的任務來建構,而非仰賴複雜的「長程代理」。對於希望安全部署自主代理的組織,DELEGATE-52方法提供了一套實際的測試藍圖。儘管GPT系列模型在18個月內,從不到20%的得分進步到約70%,顯示技術進展迅速,但拉班提醒,企業環境遠比此基準測試更為複雜。他表示,組織仍需持續投入客製化、領域專屬的工具,以確保自主代理的可靠性。

頭條留言
商傳媒
商傳媒https://sunmedia.tw/
商傳媒是一個提供財經、科技、智慧製造、醫療、產業資訊,為主要服務內容的金融、科技網路媒體,其宗旨在於提供台灣中小企業一個產品新聞的平台,未來更將推廣至世界各國!
- 廣告 -
- 廣告 -

最新文章

抹茶交易所推 RealStocks 加密帳戶直通美...

商傳媒|方承業/綜合外電報導全球加密貨幣交易所抹茶...

烏克蘭爭取愛國者防空系統生產許可 強化國防自主與歐...

商傳媒|林昭衡/綜合外電報導烏克蘭正積極與美國協商...

WEFIX首季表現亮眼 資產抵押債券策略奏效

商傳媒|吳承岳/台北報導Weitz Short D...

毒駕還身兼詐欺提款車手 草屯警圍捕查緝一把抓

墨新聞|記者張游舜/台北報導 詐騙犯罪及毒駕嚴重威...

開平餐飲學校面臨停辦滅校危機 諸多國際「金牌」...

墨新聞|記者潘明賜/台北報導記者潘明賜/台北報導 ...