水務新創遇大型語言模型瓶頸 自研驗證型AI解方

商傳媒|何映辰/台北報導

面對大型語言模型(LLMs)在專業領域的潛在缺陷,一家致力於海水淡化技術的美國新創公司Waterline Development,在經歷了數個月的研發延誤與成本損失後,決定轉向自行開發人工智慧(AI)解決方案。此舉凸顯了通用型AI模型在跨學科研究中,資訊可靠性與準確性不足的挑戰,特別是對於攸關關鍵決策的公用事業應用。

Waterline Development 創辦人兼執行長 Derek Bednarski(Derek Bednarski)今日透過電子郵件向媒體表示,該公司在嘗試運用大型語言模型進行材料科學研究時,「它們自信滿滿地給出錯誤答案,導致我們耗費數個月的時間」。

該公司當時正致力於開發一種「水電池」式的海水淡化產品,核心問題在於選擇碳布(carbon cloth)或鑄造碳電極(cast carbon electrodes)作為材料。Bednarski 解釋,儘管團隊並非該領域的博士,他們仍參考了相關學術論文,並使用 Grok 及 ChatGPT 等大型語言模型來驗證研究結果。然而,基於「商業可取得性」及學術論文中普遍使用的情況,他們選擇了碳布。結果發現,碳布存在導電性差、保水性影響離子移除效率及耐用度不足等問題,而這些問題在鑄造碳電極上並不存在。

Bednarski 指出:「雖然我們並未完全依賴大型語言模型,但它們確實顯著影響了我們的研究。」他續稱,大型語言模型會從不同論文與領域中選取統計數據,並以看似合理的方式將其拼湊組合。最終,Waterline Development 耗費了四個月時間及約二十萬美元(約新台幣六百四十萬元),才證實碳布材料無法擴展至試點規模以外的應用,而鑄造碳電極才是更優的選擇。

Waterline Development 認為,商用大型語言模型不適用於跨學科研究,因為這類研究需要整合多個領域的專業知識。該公司在一份白皮書中解釋,現有的人工智慧模型難以可靠地達成此目標,它們在多步驟的複雜推理下容易產生「幻覺」(hallucinate),並在問題跨越不同領域界限時,給出看似合理但實際上錯誤的答案,這不僅浪費時間,更可能毒害關鍵決策。

為了解決此一問題,Waterline Development 開發出 Rozum,一個多模型推理系統。Rozum 的名稱源自斯拉夫語中的「理性」,目前已成為 Bednarski 旗下的一家獨立 AI 新創公司。這個系統的運作方式是平行操作多種人工智慧模型,並透過一個驗證層來整合及驗證其答案。Rozum 綜合運用商業模型、開源模型及領域專用模型,每個模型處理查詢時,會使用可執行驗證並產生確定性結果的工具,為答案提供依據。

該系統特設的驗證層,旨在偵測並修正錯誤、幻覺、不實陳述、計算錯誤及偽造引用。根據白皮書內容,Rozum 能夠從一系列零散的真實資訊中,推導出正確答案,即使單一模型未能掌握完整且正確的資訊。

Bednarski 強調,Rozum 的目標並非讓大型語言模型適用於橋樑建設等關鍵工程,而是賦能研究人員、工程師及科學家,使其能更有效地完成工作。他表示,該系統專注於確定性工具的實施,例如針對化學領域的 RDKit,讓工程師、科學家和分析師能以其熟悉的領域格式,直接驗證輸出結果。

Rozum 透過確定性驗證流程(如程式碼執行複製)來排除所有模型在不同時間都可能出現的幻覺現象。儘管 Rozum 可能需要數分鐘甚至數小時來生成回應,遠超 Gemini 3.1 Pro 或 GPT 5.4 等商用 AI 模型,因此不適合即時對話或高頻率的通用查詢。但 Bednarski 指出,對於高風險決策,如數百萬美元的太陽能投資或分配數月工程時間的研究優先順序等,客戶更看重智慧與準確性,而非成本,這證明了 Rozum 的價值。Rozum 在「人類最後一考」(Humanity’s Last Exam)基準測試中,表現優於 GPT-4、Grok 4 及 Gemini 3.1 Pro,多數類別的得分高出數個百分點。

Bednarski 透露,當他們將一千個博士級別的基準問題輸入該系統時,驗證層在 76.2% 的通用模型回應中標記出無根據的主張,且 21.3% 的引用來源無法被確認,僅有 5.5% 的問題能達成所有模型的一致共識。這個共識率突顯了人工智慧模型回應變數之高,以及單純依賴 AI 的不足。Rozum 已於上週首次亮相,目前正透過候補名單提供服務。

頭條留言
商傳媒
商傳媒https://sunmedia.tw/
商傳媒是一個提供財經、科技、智慧製造、醫療、產業資訊,為主要服務內容的金融、科技網路媒體,其宗旨在於提供台灣中小企業一個產品新聞的平台,未來更將推廣至世界各國!
- 廣告 -
- 廣告 -

最新文章

小米智慧穿戴新品六款同發!Watch S5、手環 ...

伴隨年度旗艦手機的熱潮,小米今(5/29)日在台灣一口氣發表六款全新智慧穿戴與音訊新品,全面擴大其智慧生態系陣容。

全線標配徠卡 5x 潛望長焦 Xiaomi 17T...

小米今(5/29)日在台正式推出備受期待的年度旗艦 Xiaomi 17T 系列,再度攜手傳奇影像品牌徠卡,將行動攝影體驗推向全新高度。

野獸國「潮玩宇宙城」登陸台北潮玩展 《假面騎士》與...

野獸國宣布將於「2026台北國際潮流玩具、授權展」打造大型主題展區「潮玩宇宙城」,於台北世貿一館推出結合潮流玩具、特攝IP與娛樂互動的沉浸式空間。此次展區以未來感與潮流美學為設計主軸,除了首度公開《假面騎士》特展區與K-pop獵魔女團主題視覺區外,也將展出多款限定公仔與收藏商品。現場同步推出全館盲盒任選3件85折,以及最低48折的限量福袋優惠,吸引潮玩與動漫迷關注。

台股瘋狂大漲!單週強彈2464點 市值暴增8兆元

墨新聞|記者張靜惠/綜合報導【記者張靜惠台北報導】...

TP-Link 首款 Wi-Fi 8 路由器 Ar...

TP-Link正式公開旗下首款Wi-Fi 8路由器「Archer 8」,預計將於2026年10月上市,成為品牌布局下一代無線網路的重要產品。不同於過往Wi-Fi世代強調理論峰值速度,Archer 8主打「真實世界穩定度」,鎖定家庭多裝置、高頻寬與跨空間使用需求,透過AI智慧優化、強化射頻架構與天線設計,改善訊號死角、跨樓層衰減與鄰近訊號干擾等常見問題。除了Archer 8之外,TP-Link也同步公布後續Wi-Fi 8產品規劃,包括預計2027年第一季推出的Deco 8 Mesh系統,以及2027年第二季登場的Roam 8旅行路由器、Wi-Fi 8訊號延伸器與網卡產品。