微軟 Critique 與 Council 顛覆AI驗證模式 提升研究可靠度

商傳媒|責任編輯/綜合外電報導

微軟(Microsoft)近期推出一項劃時代的AI研究系統 Critique,旨在解決人工智慧(AI)模型生成內容後難以自我驗證的根本問題。這套系統搭配 Council 功能,透過導入多模型比較與評審機制,大幅提升AI研究的可靠度與透明度。

Critique 顛覆了傳統單一模型的工作模式,將流程劃分為兩個核心角色:一個生成模型負責規劃、資料檢索與草稿撰寫,而另一個獨立的評審模型則專責評估其輸出成果。這個評審模型會依據一套預先定義的評分標準,檢查論點的完整性、來源的可信度,以及證據的堅實程度,運作模式近似於學術界的同儕審查機制。

值得注意的是,Critique 系統不僅仰賴微軟內部模型,也整合了來自 OpenAI 和 Anthropic 等合作夥伴的模型。與此同時推出的 Council 功能,能讓使用者同時運行多個模型,並獨立生成報告,隨後再由一個獨立的「評審模型」統整這些報告的共識、差異點及獨到見解。Council 的設計理念,是透過呈現多元視角,協助使用者發現潛在的盲點,並深入理解結論的推導過程。

Critique 系統的核心評估標準,著重於三大面向:來源的可信度與相關性、對查詢問題回應的完整性,以及支持論點證據的清晰度。微軟利用 DRACO 基準測試對 Critique 進行評估,該測試涵蓋 100 項複雜的研究任務。結果顯示,基於 Critique 的系統相較於微軟自身的單一模型設定,效能提升了七個百分點。此外,該系統在分析的深度與廣度方面,也較 DRACO 基準測試中參考的其他系統展現出 13.88% 的優勢。

然而,這類多模型系統在提升可靠度的同時,也帶來了新的複雜性。如何解讀模型間的分歧,以及對最終「評審模型」的摘要是否完全信任,仍是待解的課題。此外,同時運行多個模型需要大量的運算資源,這可能限制了其在大型企業之外的應用,因為高成本與延遲問題仍需克服。儘管有審查機制,系統仍依賴底層模型的準確性,審查僅能降低風險,無法完全消除錯誤。

微軟推出的 Critique 和 Council,代表了人工智慧發展的一個重要轉變:從過去專注於生成答案,轉向強調答案的驗證。透過生成與評估的分離,以及多模型比較機制,微軟希望藉此打造更可靠、更透明的AI研究工具。

頭條留言
商傳媒
商傳媒https://sunmedia.tw/
商傳媒是一個提供財經、科技、智慧製造、醫療、產業資訊,為主要服務內容的金融、科技網路媒體,其宗旨在於提供台灣中小企業一個產品新聞的平台,未來更將推廣至世界各國!
- 廣告 -
- 廣告 -

最新文章

非農數據、科技財報與臺北AI大展將牽動美股走向

商傳媒|方承業/綜合外電報導本週華爾街將迎來關鍵時...

日本金融主管機關與主要銀行會晤 商議AI潛在網攻風...

商傳媒|吳承岳/台北報導日本金融主管機關與國內主要...

美商務部祭AI晶片出口新令 中國海外子公司難再繞道...

商傳媒|吳承岳/台北報導美國商務部已於週日(5月3...

小米Watch S5歐洲上市 搭載高亮螢幕與21天...

商傳媒|葉安庭/綜合外電報導小米公司於5月31日宣...