基於 NVIDIA BlueField-4 STX,WEKA 以更低的每 Token 成本將 Token 輸出推至極限

NeuralMesh  Augmented Memory Grid  NVIDIA STX 整合,能在相同 GPU 佔用空間下,將 Token 產量提升 6.5 倍,大減 AI 驅動機構的推理成本

加州聖荷西和加州坎貝爾2026年3月18日 /美通社/ — 在 2026 年圖形處理器 (GPU) 技術大會 (GTC 2026) 上,人工智能 (AI) 儲存與記憶體系統公司 WEKA 今日宣佈,已將其 NeuralMesh™ 軟件與 NVIDIA STX 參考架構整合。 WEKA 基於 NeuralMesh 運行的突破性 Augmented Memory Grid™ 記憶體擴展技術,將支援 NVIDIA STX,為代理型 AI 工廠帶來高吞吐量的情境記憶儲存,使跨會話、工具和任務的長語境推理變得無縫流暢。 基於 NVIDIA STX 的 NeuralMesh 解決方案,運用 NVIDIA Vera Rubin NVL72、NVIDIA BlueField-4 及 NVIDIA Spectrum-X 以太網絡,預計能將情境記憶體的每秒 Token 生成量提升 4 至 10 倍,同時為 AI 工作負載提供每秒不少於 320 GB 讀取和 150 GB 寫入的吞吐量,較傳統 AI 儲存平台的吞吐量高出逾一倍。

WEKA 與 NVIDIA 合作實現具成本效益的大規模人工智能 (AI) 推論。
WEKA 與 NVIDIA 合作實現具成本效益的大規模人工智能 (AI) 推論。

利用共享鍵 (KV) 緩存基礎設施解決推理成本問題
擴展代理型系統,尤其在軟件工程應用領域,揭示一個殘酷真相:現今 AI 的經濟效益取決於記憶體基礎設施層。 每個大規模推理集群都會撞上記憶體牆:GPU 上有限的高頻寬記憶體 (HBM) 很快便耗盡,導致 KV 快取被逐出、情境丟失,系統被迫重複已經完成的工作。 這種架構效率低下,令推理成本急升。 解決之道在於建立共享的 KV 快取基礎設施,讓情境在代理、用戶與會話之間保持活躍。 這樣能消除重複計算、維持 Token 吞吐量,並保持效能穩定可測。 缺乏共享 KV 快取基礎設施的話,每增加一批並發用戶及代理,都會成為負累——成本上漲、體驗變差,推理集群規模越大,營運就越難。 NVIDIA 推出專為語境記憶而設的 STX,提供一套藍圖,旨在破解核心推理瓶頸。

上下文記憶體儲存:代理型 AI 工廠的基礎
透過基於 NVIDIA STX 架構聯合設計的 WEKA 解決方案,AI 雲端、企業及 AI 模型構建者,均可部署所需基建,讓 GPU 以頂尖效能運行,維持海量 Token 生成,同時提升大規模推理的能源效益及成本效益。

領先在前的 AI 創新者及雲端供應商,例如 Firmus,已開始應用 NeuralMesh 上的 Augmented Memory Grid,重塑其推理經濟模式。

Firmus 技術總監 Daniel Kearney 表示:「現實世界的 AI 並非在實驗室運行,而是要面對電力限制、散熱限制,以及源源不絕的工作負載需求。 Firmus 正是為此而生。 與 NVIDIA AI 基礎設施雙劍合璧之下,WEKA Augmented Memory Grid 可於大規模運行時,實現每秒 Token 數提升 6.5 倍,首個 Token 生成時間 (TTFT) 加快 4 倍,證明在相同 GPU 配置下,效能可提升至更高層次。 隨著 NeuralMesh 和 Augmented Memory Grid 整合到我們與 NVIDIA 一致的 AI Factory 和 NVIDIA STX 參考架構中,就能提供最快的情境記憶體網絡,實現可預測且高效的大規模推理。」

NeuralMesh  NVIDIA STX:專為代理型 AI 而設
NeuralMesh 是 WEKA 建基於超過 170 項專利的智能自適應儲存系統。 這將貫穿全棧 STX 參考架構,為企業提供所需的新一代儲存方案,旨在將高性能 AI 數據服務標準化,從而加快實現代理型 AI 的價值。 WEKA 的 Augmented Memory Grid 是專為擴展記憶體而設的技術層,能於 GPU 記憶體以外,將 KV 快取整合成池並持久保存。即使推理工作負載不斷增加,長情境會話依然穩定,並發量亦能維持高水平。 Augmented Memory Grid 於 GTC 2025 首次亮相,今日起正式向 NeuralMesh 客戶全面供應。該技術已在 Supermicro 平台上,搭配 NVIDIA Grace 中央處理器 (CPU) 及 BlueField-3 數據處理單元 (DPU) 完成驗證,能帶來多項提升 AI 成本效益的優勢,包括:

  • 戶體驗,大幅躍升:NeuralMesh 上的 Augmented Memory Grid 能將首個 Token 生成時間大幅縮短 4 至 20 倍,確保 AI 代理及應用程式在真實負載下依然反應迅速。
  • 相同硬件,收益更高:毋須增建基礎設施,每個 GPU 就能多處理 6.5 倍的 Token。
  • 規模擴張,效能恒久:隨著會話、代理及情境窗口增加,Augmented Memory Grid 依然能維持高 KV 快取命中率,避免純 DRAM 架構出現效能急跌的瓶頸。
  • GPU 原生效率:整合 BlueField-4 能將儲存數據路徑從 CPU 卸載,讓 GPU 全速運算,並消除輸入/輸出 (I/O) 瓶頸從此絕跡。

WEKA 聯合創始人兼行政總裁 Liran Zvibel 表示:「隨著編碼大型語言模型 (LLM) 不斷進步,軟件工程領域對代理型 AI 應用的採納程度可謂前所未見,生產力因此提升了 100 到 1000 倍。 當編碼助手反覆調用近乎相同的代碼庫及提示時,WEKA 的 Augmented Memory Grid 會重複使用已快取的語境,即使語境窗口長度已發展至難以置信,亦不用強制進行冗餘的預填充。 此舉大幅縮短回應時間,亦讓同一基礎設施上支援的並發用戶數目顯著增加。 WEKA 在一年多前便率先洞悉市場對情境記憶儲存的需求,並於 GTC 2025 推出 Augmented Memory Grid。 如今,NVIDIA STX 的出現,為企業打開大門,讓其能在最先進的 NVIDIA Vera Rubin 架構(包括 NVIDIA BlueField-4 及 NVIDIA Spectrum-X 以太網絡)上,運行儲存及記憶體擴展基礎設施。 為 NVIDIA STX 在 NeuralMesh 上運行 Augmented Memory Grid,將帶來無與倫比的效能及效率,直接實現顛覆市場的 AI 成本效益。」

供應情況

WEKA 的 Augmented Memory Grid 現已隨 NeuralMesh 一併正式推出市場。

今天對記憶體高牆視而不見的企業,日後將會面對更艱難、更昂貴的擴展挑戰。 隨著代理型工作負載增加,情境窗口不斷擴大,純 DRAM 架構將面對成本持續疊加的問題:每新增一個並發用戶或會話,重算開銷、GPU 閒置時間及營運成本便隨之上升。 現在就為持久 KV 快取規劃架構的企業,將比那些等待觀望的對手取得結構性成本及效能優勢。

如欲進一步了解 NeuralMesh,請瀏覽:weka.io/NeuralMesh
如欲進一步了解 Augmented Memory Grid,請瀏覽:weka.io/augmented-memory-grid

企業可瀏覽 weka.io/nvidia 獲取更多資訊,或親臨 GTC 2026 大會 WEKA 的 #1034 展位參觀。

關於 WEKA
WEKA 正憑藉其自適應智能網格儲存系統 NeuralMesh™ by WEKA®,徹底革新機構建立、運行和擴展 AI 工作流程的模式。 有別於傳統數據基礎設施會隨著工作負載擴展而變得緩慢不穩,NeuralMesh 在擴容時反而會變得更快速、更穩健、更高效。它能動態適應 AI 環境,為企業 AI 及代理型 AI 的創新,提供靈活穩固的基石。 NeuralMesh 備受財富 50 強中 30% 企業的信賴,致力協助頂尖企業、AI 雲端供應商及 AI 建構者,充分發揮 GPU 效能、加快 AI 擴展步伐,並降低創新成本。 在 www.weka.io 了解更多,或在 LinkedIn 及 X 與我們聯繫。

WEKA  W 標誌為 WekaIO, Inc. 的註冊商標。本文中出現的其他商業名稱,可能為其各自擁有者的商標

WEKA: The Foundation for Enterprise AI
WEKA: The Foundation for Enterprise AI

 

頭條留言
美 通社
美 通社
美通社通過其多管道發佈網路、受眾情報、定向、評估及資訊披露和投資者傳播服務,説明企業和組織與媒體、消費者、決策者、投資者及普通大眾進行充分、及時的動態對話,從而為塑造品牌、打響知名度、影響公共政策、推動銷售和籌集資本提供支持。 美通社在1954年開創了企業新聞稿發佈行業的先河,通過分佈在南北美洲、歐洲、亞洲和中東16個國家和地區的無與倫比的辦事處網路,借助與全球領先新聞機構之間的獨特關係,用40多種語言將客戶與170多個國家的受眾聯繫起來。全球4萬多家公司、組織和政府機構都在使用美通社的服務,其中包括50%以上的財富500強企業。
- 廣告 -
- 廣告 -

最新文章

小米智慧穿戴新品六款同發!Watch S5、手環 ...

伴隨年度旗艦手機的熱潮,小米今(5/29)日在台灣一口氣發表六款全新智慧穿戴與音訊新品,全面擴大其智慧生態系陣容。

全線標配徠卡 5x 潛望長焦 Xiaomi 17T...

小米今(5/29)日在台正式推出備受期待的年度旗艦 Xiaomi 17T 系列,再度攜手傳奇影像品牌徠卡,將行動攝影體驗推向全新高度。

野獸國「潮玩宇宙城」登陸台北潮玩展 《假面騎士》與...

野獸國宣布將於「2026台北國際潮流玩具、授權展」打造大型主題展區「潮玩宇宙城」,於台北世貿一館推出結合潮流玩具、特攝IP與娛樂互動的沉浸式空間。此次展區以未來感與潮流美學為設計主軸,除了首度公開《假面騎士》特展區與K-pop獵魔女團主題視覺區外,也將展出多款限定公仔與收藏商品。現場同步推出全館盲盒任選3件85折,以及最低48折的限量福袋優惠,吸引潮玩與動漫迷關注。

台股瘋狂大漲!單週強彈2464點 市值暴增8兆元

墨新聞|記者張靜惠/綜合報導【記者張靜惠台北報導】...

TP-Link 首款 Wi-Fi 8 路由器 Ar...

TP-Link正式公開旗下首款Wi-Fi 8路由器「Archer 8」,預計將於2026年10月上市,成為品牌布局下一代無線網路的重要產品。不同於過往Wi-Fi世代強調理論峰值速度,Archer 8主打「真實世界穩定度」,鎖定家庭多裝置、高頻寬與跨空間使用需求,透過AI智慧優化、強化射頻架構與天線設計,改善訊號死角、跨樓層衰減與鄰近訊號干擾等常見問題。除了Archer 8之外,TP-Link也同步公布後續Wi-Fi 8產品規劃,包括預計2027年第一季推出的Deco 8 Mesh系統,以及2027年第二季登場的Roam 8旅行路由器、Wi-Fi 8訊號延伸器與網卡產品。