2026年3月尾,Google Research發表咗新一代AI記憶體壓縮技術TurboQuant,呢項技術被視為大型語言模型(LLM)推理階段的一次重大突破,主打「極致壓縮、零精準度損失」,並帶來高達8倍的效能提升。然而,消息傳出後,美股記憶體類股份應聲大跌,市場第一反應是AI記憶體用量減少了,還需要如此多RAM嗎?但事實非如此簡單。

技術核心:6 倍壓縮,8 倍加速
大型語言模型喺對話過程中需要保存過往內容(即 KV Cache),這部分會嚴重消耗 GPU 記憶體資源。TurboQuant 正正針對此瓶頸,用3至4 bits就可以儲存原本要16 bits資訊,相當於壓縮六分之一空間、同時令模型推理速度提升最多八倍。
最關鍵是Google 指出此技術「零精準度損失」,即模型表現同原本完全一致。更重要的是毋須重新訓練、毋須微調,可以即時套用在現有 Transformer 架構上。
短期市場反應:重估而非衰退
在市場眼中,這意味著原本需要6張頂級記憶體晶片才能完成的工作,現在只需1張。這種將硬體需求「打一折」的技術,自然引發投資者對記憶體訂單銳減的擔憂,導致前期因AI題材而飆漲的同類股率先「跪低」,進行估值修正。
過去,用戶要在筆電或手機上跑長文本模型經常Out of Memory。TurboQuant 出現後,普通 GPU 都能處理超長上下文。換句話講,這並非「需求減少」,而是「使用門檻消失」。當門檻消失,需求反而更有機會爆發。
歷史鏡像:DeepSeek 效率革命的前車之鑑
類似嘅場景,2024年末至2025年初已經出現過。當時DeepSeek憑藉高效模型壓縮方案顛覆市場,被認為「算力需求將放緩」,但半年後GPU需求不但未有減少,反而因「AI 成本下降導致滲透率暴增」而推高整體用量。
經濟學早有解釋──這是 Jevons Paradox(傑文斯悖論)。當效率提升令單位成本下降,最終會誘發更大規模使用量,令總消耗量上升。AI亦如此,當推理成本再降幾倍,AI會從雲端走入PC、走入個人Agent,甚至嵌入IoT裝置。









