Google TurboQuant演算法突破 AI記憶體效率倍增不失真

商傳媒|責任編輯/綜合外電報導

Google 研究部門(Google Research)近日推出一項名為 TurboQuant 的人工智慧模型壓縮演算法,宣稱能在不犧牲準確性或無需重新訓練的情況下,大幅降低大型語言模型(LLM)關鍵記憶體「鍵值快取」(KV cache)的消耗。這項技術的發表,預計將對AI硬體設計及部署帶來深遠影響。

現今的LLM在處理長文本時,鍵值快取記憶體會隨著對話長度與上下文視窗大小呈線性增長,進而大幅增加圖形處理器(GPU)的記憶體負擔並拖慢推論速度。以處理百萬級代碼的GPT-4模型為例,其鍵值快取便可佔用數百GB記憶體,遠超單一Nvidia A100 GPU的80GB容量,往往需要部署多顆GPU才能應付。

TurboQuant演算法的核心是量化技術,它能將標準的32位元浮點數(float32)鍵值快取資料壓縮至3到4位元的整數表示。不同於模型權重(model weight)的量化,鍵值快取資料是在推論時動態生成,需即時壓縮,傳統量化方法易因累積數值誤差而影響準確性。為克服此挑戰,TurboQuant結合了PolarQuant與量化式約翰遜-林登斯特勞斯(Quantized Johnson-Lindenstrauss, QJL)兩項技術。其中,PolarQuant透過正交矩陣轉換優化壓縮品質,QJL則作為錯誤校正機制,將高維向量壓縮成單一位元,同時修正殘餘誤差以維持語義一致性。

Google針對多個開源模型,包括Gemma-7B、Mistral-7B-v0.1及Llama-3-8B進行了測試。結果顯示,TurboQuant能將鍵值快取壓縮至2.5至3.5位元,相較於標準的16位元格式(FP16),記憶體使用量減少了五到六倍。在3.5位元壓縮下,效能幾乎沒有減損;即便在2.5位元時,其準確度仍顯著優於其他競爭方法如KIVI。此外,Nvidia H100 GPU的注意力處理速度最高提升八倍,整體生成速度,尤其在長上下文情境中,也獲得顯著改善。

TurboQuant具備無需重新訓練或微調即可立即部署的優勢,且Google已將其開放原始碼並允許商業使用。分析師指出,儘管這項技術能提升AI效率,但根據耶佛斯悖論(Jevons paradox),效率的提高可能反而促進AI的廣泛應用,而非減少記憶體總需求。AI晶片仍高度依賴高頻寬記憶體(HBM),因此記憶體需求不太可能出現結構性下降。這項技術預計將加速邊緣AI與實體AI應用(如機器人技術)的發展,對於台灣等在全球AI晶片及高頻寬記憶體供應鏈中扮演關鍵角色的半導體產業而言,儘管單一裝置的記憶體效率提升,但整體AI市場的擴張將持續推升對高效能硬體組件的需求。

頭條留言
商傳媒
商傳媒https://sunmedia.tw/
商傳媒是一個提供財經、科技、智慧製造、醫療、產業資訊,為主要服務內容的金融、科技網路媒體,其宗旨在於提供台灣中小企業一個產品新聞的平台,未來更將推廣至世界各國!
- 廣告 -
- 廣告 -

最新文章

深耕紋黨參不負桑梓情 訪文縣嘉誠農副產品公司蔣巧娥...

不分說,從經營企業與品牌行銷的角度上,蔣巧娥必定是位能說善道的推銷高手;但更令人驚訝、甚至不忍相擁落淚的,是在她這次迎接賓客時可掬笑容的底層,藏著那段艱辛奮鬥的創業故事。

蘇澳端午「海上龍舟賽」 6/19南方澳第一漁港登場...

墨新聞|記者農夫林/宜蘭報導農夫林/宜蘭報導 全台...

嘉義民雄爆今年首例日本腦炎 婦人發燒昏迷住院 周邊...

墨新聞|記者呂泓陞/台北報導疾病管制署今(9)日公...

因受豪大雨影響 周末南投星空季及單車活動延期

墨新聞|記者張游舜/台北報導 因近日受鋒面及西南氣...

發燒、頭痛找不出原因 竟是今年首例本土副傷寒

墨新聞|記者黃李舜/台北報導疾病管制署今(9)日公...