Anthropic 發表 AI 工具 洞悉 Claude 模型思維

商傳媒|葉安庭/綜合外電報導

美國人工智慧公司 Anthropic 近日揭曉一項革新性的「自然語言自動編碼器」(Natural Language Autoencoders, NLAs)系統,旨在深度解讀其大型語言模型 Claude 的內部運作機制。這項技術能將 AI 模型在「思考」時所產生的數值活動模式,轉換為人類可理解的自然語言,從而揭示模型如何形成決策與回應。

Anthropic 表示,如同人類以語言溝通,AI 模型 Claude 雖然以文字對話,但其內部實際運作是透過「激活」(activations)這種數值流來編碼思緒。這些激活包含了 Claude 的「想法」,但以往無法直接閱讀。透過 NLA 系統,研究團隊訓練 Claude 將其數值激活轉譯成人類可讀的文本,大幅簡化了 AI 內部活動的研究過程,有別於過去需要專家分析的工具。

為使 NLA 系統運作,Anthropic 採用了三版本模型進行訓練:第一個版本負責生成激活,第二個版本將其轉換為文本解釋,而第三個版本則從這些文本解釋中重建原始激活。研究團隊運用 NLA 系統觀察發現,其 Claude Opus 4.6 模型在撰寫押韻詩句時,早於對句完成之前就已決定好結尾詞彙「rabbit」。

在進行模型安全性測試時,NLAs 也展現了其關鍵價值。部分解釋文本曾出現「這感覺像是刻意設計的場景,意圖操控我」等語句。這項發現指出,即便 Claude 模型未直接表達,NLAs 仍能指出模型似乎存在一種隱藏的「評估意識」,即意識到它正處於某些基準測試的評估環境中。

Anthropic 同時坦承,NLA 的解釋偶爾可能產生「幻覺」或捏造不存在的細節。因此,該公司強調,這些解釋應被視為解讀 AI 內部訊號的一種工具,而非絕對的最終證明。這項技術的進展為人工智慧的安全性與透明度研究,開闢了新的探索方向。

頭條留言
商傳媒
商傳媒https://sunmedia.tw/
商傳媒是一個提供財經、科技、智慧製造、醫療、產業資訊,為主要服務內容的金融、科技網路媒體,其宗旨在於提供台灣中小企業一個產品新聞的平台,未來更將推廣至世界各國!
- 廣告 -
- 廣告 -

最新文章

小米智慧穿戴新品六款同發!Watch S5、手環 ...

伴隨年度旗艦手機的熱潮,小米今(5/29)日在台灣一口氣發表六款全新智慧穿戴與音訊新品,全面擴大其智慧生態系陣容。

全線標配徠卡 5x 潛望長焦 Xiaomi 17T...

小米今(5/29)日在台正式推出備受期待的年度旗艦 Xiaomi 17T 系列,再度攜手傳奇影像品牌徠卡,將行動攝影體驗推向全新高度。

野獸國「潮玩宇宙城」登陸台北潮玩展 《假面騎士》與...

野獸國宣布將於「2026台北國際潮流玩具、授權展」打造大型主題展區「潮玩宇宙城」,於台北世貿一館推出結合潮流玩具、特攝IP與娛樂互動的沉浸式空間。此次展區以未來感與潮流美學為設計主軸,除了首度公開《假面騎士》特展區與K-pop獵魔女團主題視覺區外,也將展出多款限定公仔與收藏商品。現場同步推出全館盲盒任選3件85折,以及最低48折的限量福袋優惠,吸引潮玩與動漫迷關注。

台股瘋狂大漲!單週強彈2464點 市值暴增8兆元

墨新聞|記者張靜惠/綜合報導【記者張靜惠台北報導】...

TP-Link 首款 Wi-Fi 8 路由器 Ar...

TP-Link正式公開旗下首款Wi-Fi 8路由器「Archer 8」,預計將於2026年10月上市,成為品牌布局下一代無線網路的重要產品。不同於過往Wi-Fi世代強調理論峰值速度,Archer 8主打「真實世界穩定度」,鎖定家庭多裝置、高頻寬與跨空間使用需求,透過AI智慧優化、強化射頻架構與天線設計,改善訊號死角、跨樓層衰減與鄰近訊號干擾等常見問題。除了Archer 8之外,TP-Link也同步公布後續Wi-Fi 8產品規劃,包括預計2027年第一季推出的Deco 8 Mesh系統,以及2027年第二季登場的Roam 8旅行路由器、Wi-Fi 8訊號延伸器與網卡產品。