OpenAI模型o3評測起爭議 業界籲AI基準測試需揭露真實運算條件

商傳媒|記者責任編輯/綜合外電報導

科技媒體《TechCrunch》最新報導,人工智慧領導企業OpenAI推出的o3模型,遭爆實際表現與測試數據不一致的爭議。根據外部研究機構Epoch AI公布第三方測試結果顯示,OpenAI去年底宣稱,o3模型在高難度數學測試集FrontierMath上的正確率達25%,結果實際表現僅約10%,遠低於當初直播中宣傳的成績,引發產業對其測試透明度與評估標準的質疑。

OpenAI技術人員回應表示,當時展示的是以「高運算設定與內部強化腳本支援」的版本,而近期公開推出的o3模型則為專為「實用性與運行效率優化」的產品版本,因此在標準測試上表現有所差異。

根據Epoch AI近日公布的測試結果,o3模型在更新版本FrontierMath-2025測試集的答對率約10%,與OpenAI去年直播中聲稱的「超過25%」相距甚遠。研究團隊強調,該差異可能來自於:

  • OpenAI當時使用較小範圍(180題)舊版測試集
  • 測試使用更高階、具高推論能力的模型架構
  • 內部運行環境使用強化運算(aggressive test-time compute)與模型腳手架(scaffold)

然而,即便如此,OpenAI並未在最初發布成果時,明確標註上述限制,導致部分用戶、開發者對於產品真實性能產生誤解。

針對評測爭議,OpenAI技術團隊成員Wenda Zhou在上週的直播中回應指出,公開的o3版本已做過優化以適應產品實際需求,「我們希望這個版本更快、更省資源,也更貼近真實使用情境」。Wenda Zhou補充說明:「[o3的公開版本]雖非最強運算配置,但在效率、應用層面具備更好平衡,用戶不需等待數十秒才能得到答案」。

OpenAI也指出,目前旗下o3-mini-high與o4-mini模型,在FrontierMath測試中的表現已優於原始o3,且預計未來數週內將推出的o3-pro進階版本,應可填補此一性能落差。

實際上,這並非AI業界首次爆發基準測試爭議。例如:Meta近期承認其部分測試數據來自尚未公開版本,馬斯克旗下xAI則因「誤導性基準圖表」遭批,另外,Epoch AI也曾被質疑延後公開其與OpenAI的資金關係。

專家認為,隨著生成式AI市場競爭白熱化,企業為爭取媒體曝光與投資信心,往往選擇在最佳情況下公開模型成績,造成評測數據與實際使用體驗不一致。對於仰賴API或OEM應用AI模型的新創與企業來說,模型表現真實性影響決策甚鉅,因此業界呼籲:

  • AI模型商須揭露測試設定與推論資源條件
  • 第三方基準測試機構需保持獨立性與資金透明
  • 投資人與用戶應要求「實測效能報告」而非行銷報表

頭條留言
商傳媒
商傳媒https://sunmedia.tw/
商傳媒是一個提供財經、科技、智慧製造、醫療、產業資訊,為主要服務內容的金融、科技網路媒體,其宗旨在於提供台灣中小企業一個產品新聞的平台,未來更將推廣至世界各國!
- 廣告 -
- 廣告 -

最新文章

秧悦美地酒店 打造全齡療癒假期 首推睡眠改善之旅 ...

在大健康浪潮與永續旅遊趨勢興起的雙重推動下,位於中央山脈奇萊山下的「秧悦美地度假酒店」,以其獨特的有機療癒環境、七感設計與低碳永續實踐,成為全台首屈一指的健康療癒假期首選,花蓮縣政府推動「花蓮健康療癒之都」攜手秧悦美地,積極引領觀光轉型。

618 開打 iPhone 限時現省 5410 元...

618年中購物節開跑,地標網通即日起至6月21日推出「618夏殺狂歡購」活動,網羅Apple、Samsung、OPPO、vivo、小米等超過20款熱門手機、平板、耳機與智慧手錶,限時最低下殺至44折,並推出多款破盤優惠。

肖戰主演《藏海傳》迎最終高潮,全網播放破10億、金...

由肖戰主演的年度古裝劇《藏海傳》自開播以來話題不斷,播出進入尾聲後熱度不減,全劇即將於6月10日迎來完結篇,目前全球總播放量已突破10億次,在台灣穩坐Disney+「本日熱播Top 10」前三名,成為2025年最受矚目的復仇爽劇。隨著劇情邁入高潮,主角藏海面對三大滅門仇人正面對決,網友更熱議劇中一句句金句台詞,直呼「越看越上癮」,「是今年最有力的復仇劇本」。

沉浸音質與智慧通話的全方位耳罩耳機,Sony WH...

Sony 全新一代旗艦無線降噪耳罩式耳機 WH-1000XM6 即將於 2025 年 6 月 10 日正式在台灣開賣,建議售價新台幣 13,900 元,提供黑色、鉑金銀與深夜藍三款配色。即日起至 7 月 13 日止,凡預購並完成官網註冊及問卷填寫,即可獲得價值 500 元的好禮即享券2.0。睽違三年再推出的新一代產品,延續系列一貫的頂尖規格,帶來多項硬體與音質革新,針對日常與旅行情境皆能展現卓越降噪與智慧體驗。

中年轉職×AI創業潮來襲,2025 加盟展掀加盟新...

在高工時、低薪資壓力下,越來越多年輕族群與中年轉職者開始思考另一條出路,「加盟創業當老闆」成為實現自我價值的新選擇。2025台北國際連鎖加盟創業展夏季展將於6月20日至23日於世貿一館登場,號稱全台最大規模創業平台,集結餐飲、零售、美業、智能科技等百大品牌參展。主辦單位預估本屆展覽將帶動1130家實體店開設、創造超過5600個就業機會,並開出近17億元商機。