Google TurboQuant演算法突破 AI記憶體效率倍增不失真

商傳媒｜責任編輯／綜合外電報導

Google 研究部門（Google Research）近日推出一項名為 TurboQuant 的人工智慧模型壓縮演算法，宣稱能在不犧牲準確性或無需重新訓練的情況下，大幅降低大型語言模型（LLM）關鍵記憶體「鍵值快取」（KV cache）的消耗。這項技術的發表，預計將對AI硬體設計及部署帶來深遠影響。

現今的LLM在處理長文本時，鍵值快取記憶體會隨著對話長度與上下文視窗大小呈線性增長，進而大幅增加圖形處理器（GPU）的記憶體負擔並拖慢推論速度。以處理百萬級代碼的GPT-4模型為例，其鍵值快取便可佔用數百GB記憶體，遠超單一Nvidia A100 GPU的80GB容量，往往需要部署多顆GPU才能應付。

TurboQuant演算法的核心是量化技術，它能將標準的32位元浮點數（float32）鍵值快取資料壓縮至3到4位元的整數表示。不同於模型權重（model weight）的量化，鍵值快取資料是在推論時動態生成，需即時壓縮，傳統量化方法易因累積數值誤差而影響準確性。為克服此挑戰，TurboQuant結合了PolarQuant與量化式約翰遜-林登斯特勞斯（Quantized Johnson-Lindenstrauss, QJL）兩項技術。其中，PolarQuant透過正交矩陣轉換優化壓縮品質，QJL則作為錯誤校正機制，將高維向量壓縮成單一位元，同時修正殘餘誤差以維持語義一致性。

Google針對多個開源模型，包括Gemma-7B、Mistral-7B-v0.1及Llama-3-8B進行了測試。結果顯示，TurboQuant能將鍵值快取壓縮至2.5至3.5位元，相較於標準的16位元格式（FP16），記憶體使用量減少了五到六倍。在3.5位元壓縮下，效能幾乎沒有減損；即便在2.5位元時，其準確度仍顯著優於其他競爭方法如KIVI。此外，Nvidia H100 GPU的注意力處理速度最高提升八倍，整體生成速度，尤其在長上下文情境中，也獲得顯著改善。

TurboQuant具備無需重新訓練或微調即可立即部署的優勢，且Google已將其開放原始碼並允許商業使用。分析師指出，儘管這項技術能提升AI效率，但根據耶佛斯悖論（Jevons paradox），效率的提高可能反而促進AI的廣泛應用，而非減少記憶體總需求。AI晶片仍高度依賴高頻寬記憶體（HBM），因此記憶體需求不太可能出現結構性下降。這項技術預計將加速邊緣AI與實體AI應用（如機器人技術）的發展，對於台灣等在全球AI晶片及高頻寬記憶體供應鏈中扮演關鍵角色的半導體產業而言，儘管單一裝置的記憶體效率提升，但整體AI市場的擴張將持續推升對高效能硬體組件的需求。

頭條留言

Google TurboQuant演算法突破 AI記憶體效率倍增不失真

最新文章

深耕紋黨參不負桑梓情訪文縣嘉誠農副產品公司蔣巧娥...

蘇澳端午「海上龍舟賽」　6/19南方澳第一漁港登場...

嘉義民雄爆今年首例日本腦炎　婦人發燒昏迷住院　周邊...

因受豪大雨影響　周末南投星空季及單車活動延期

發燒、頭痛找不出原因　竟是今年首例本土副傷寒

社群媒體

聯絡我們

關於我們

Google TurboQuant演算法突破 AI記憶體效率倍增不失真

最新文章

深耕紋黨參不負桑梓情 訪文縣嘉誠農副產品公司蔣巧娥...

蘇澳端午「海上龍舟賽」 6/19南方澳第一漁港登場...

嘉義民雄爆今年首例日本腦炎 婦人發燒昏迷住院 周邊...

因受豪大雨影響 周末南投星空季及單車活動延期

發燒、頭痛找不出原因 竟是今年首例本土副傷寒

社群媒體

聯絡我們

關於我們

深耕紋黨參不負桑梓情訪文縣嘉誠農副產品公司蔣巧娥...

蘇澳端午「海上龍舟賽」　6/19南方澳第一漁港登場...

嘉義民雄爆今年首例日本腦炎　婦人發燒昏迷住院　周邊...

因受豪大雨影響　周末南投星空季及單車活動延期

發燒、頭痛找不出原因　竟是今年首例本土副傷寒