微軟研究：頂尖AI模型自動改寫文件平均損毀25%內容且錯誤難察

商傳媒｜何映辰／台北報導

微軟研究人員近期透過一項新研究示警，當前領先的大型人工智慧模型（LLMs）在處理文件時，會「靜默」地引入錯誤並改寫內容，導致高達四分之一的文件資訊遭到損毀。這項發現對日益普及的AI自主代理（AI agents）應用，投下嚴峻挑戰。

該研究團隊開發了「DELEGATE-52」基準測試，旨在模擬涵蓋金融會計、軟體工程、晶體學及音樂符號等多達52個專業領域的多步驟自主工作流程。這項測試透過「往返接力模擬」方法，自動測量文件內容在長時間、連續20次互動中劣化的程度，免除了昂貴的人工審查需求。基準測試共包含310個工作環境，每個環境採用2,000至5,000個符號的真實文本作為起始文件，並要求模型執行5到10項複雜的編輯任務。為提高真實性，測試還在每個任務情境中引入8,000至12,000個符號的無關干擾文件。

研究人員針對來自OpenAI、Anthropic、Google、Mistral和xAI等19個不同大型語言模型進行測試。結果顯示，經過20次連續編輯互動的模擬後，所有模型的平均文件內容劣化高達50%。即使是表現最佳的頂尖模型，例如Google的Gemini 3.1 Pro、Anthropic的Claude 4.6 Opus，以及OpenAI的GPT 5.4，也平均損毀了25%的文件內容。在52個專業領域中，Python程式語言領域是唯一多數模型能達到98%或更高「準備就緒」分數的項目。

微軟資深研究員菲利普·拉班（Philippe Laban）指出，大型語言模型在處理文件時，若無法編寫有效的程式來精準操作檔案，便會退而求其次，透過重新讀取與改寫整個文件。他表示，這種方式不僅效率低下，也更容易出錯。研究發現，高達80%的內容劣化來自於「大規模嚴重故障」，即模型在單次互動中會突然遺失至少10%的文件內容。雖然頂尖模型能延遲這類災難性故障的發生，卻未能更好地避免小型錯誤。更令人擔憂的是，賦予模型「代理工具」（如程式碼執行和檔案讀寫權限），反而會讓內容劣化程度平均增加6%。此外，文件越大或工作區增加更多干擾文件，內容劣化也會越嚴重。

菲利普·拉班強調，業界對於檢索增強生成（RAG）管線的評估，應該透過多步驟工作流程而非單一檢索基準來進行，以避免低估不精確檢索所帶來的損害。他建議，人工智慧應用應圍繞「短暫、透明」的任務來建構，而非仰賴複雜的「長程代理」。對於希望安全部署自主代理的組織，DELEGATE-52方法提供了一套實際的測試藍圖。儘管GPT系列模型在18個月內，從不到20%的得分進步到約70%，顯示技術進展迅速，但拉班提醒，企業環境遠比此基準測試更為複雜。他表示，組織仍需持續投入客製化、領域專屬的工具，以確保自主代理的可靠性。

頭條留言

微軟研究：頂尖AI模型自動改寫文件平均損毀25%內容且錯誤難察

最新文章

抹茶交易所推 RealStocks 加密帳戶直通美...

烏克蘭爭取愛國者防空系統生產許可強化國防自主與歐...

WEFIX首季表現亮眼資產抵押債券策略奏效

毒駕還身兼詐欺提款車手　草屯警圍捕查緝一把抓

開平餐飲學校面臨停辦滅校危機諸多國際「金牌」...

社群媒體

聯絡我們

關於我們

微軟研究：頂尖AI模型自動改寫文件 平均損毀25%內容且錯誤難察

最新文章

抹茶交易所推 RealStocks 加密帳戶直通美...

烏克蘭爭取愛國者防空系統生產許可 強化國防自主與歐...

WEFIX首季表現亮眼 資產抵押債券策略奏效

毒駕還身兼詐欺提款車手 草屯警圍捕查緝一把抓

開平餐飲學校面臨停辦滅校危機 諸多國際「金牌」...

社群媒體

聯絡我們

關於我們

微軟研究：頂尖AI模型自動改寫文件平均損毀25%內容且錯誤難察

烏克蘭爭取愛國者防空系統生產許可強化國防自主與歐...

WEFIX首季表現亮眼資產抵押債券策略奏效

毒駕還身兼詐欺提款車手　草屯警圍捕查緝一把抓

開平餐飲學校面臨停辦滅校危機諸多國際「金牌」...