2026年3月尾,Google Research發表咗新一代AI記憶體壓縮技術TurboQuant,呢項技術被視為大型語言模型(LLM)推理階段的一次重大突破,主打「極致壓縮、零精準度損失」,並帶來高達8倍的效能提升。然而,消息傳出後,美股記憶體類股份應聲大跌,市場第一反應是AI記憶體用量減少了,還需要如此多RAM嗎?但事實非如此簡單。

技術核心:6 倍壓縮,8 倍加速
大型語言模型喺對話過程中需要保存過往內容(即 KV Cache),這部分會嚴重消耗 GPU 記憶體資源。TurboQuant 正正針對此瓶頸,用3至4 bits就可以儲存原本要16 bits資訊,相當於壓縮六分之一空間、同時令模型推理速度提升最多八倍。
最關鍵是Google 指出此技術「零精準度損失」,即模型表現同原本完全一致。更重要的是毋須重新訓練、毋須微調,可以即時套用在現有 Transformer 架構上。









