星期二, 13 1 月

DeepSeek 或引入新記憶架構 梁文鋒:當前主流大型模型效率差

據大陸科技網站《DoNews》報導,DeepSeek今日凌晨開源全新架構模組「Engram」,並同步發表技術論文,DeepSeek創辦人梁文鋒也列名作者名單。據稱,Engram模組透過引入可擴充的查找式記憶結構,為大型語言模型提供有別於傳統Transformer與MoE架構的全新設計方向。

《科創板日報》指出,DeepSeek發布的新論文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》(基於可擴展查找的條件記憶:大型語言模型稀疏性的新維度),為北京大學與DeepSeek共同完成。

論文提出條件記憶(conditional memory),通過引入可擴展的查找記憶結構,在等參數、等算力條件下顯著提升模型在知識調用、推理、代碼、數學等任務上的表現。同時,DeepSeek開源相關記憶模組Engram。

《DoNews》報導,該論文指出,當前主流大模型在處理兩類任務時存在結構性低效:一類是依賴固定知識的「查表式」記憶,另一類是複雜推理與組合計算。傳統Transformer(無論Dense或MoE)均需通過多層注意力與MLP重建這些靜態模式,導致計算資源被大量消耗在「重複構造已知模式」上。

報導稱,Engram的核心機制是基於現代化哈希N-Gram嵌入的O(1)查找式記憶。模組會對輸入Token序列進行N-Gram切片,並通過多頭哈希映射到一個規模可擴展的靜態記憶表中,實現常數時間的檢索。

論文強調,這種查找與模型規模無關,即便記憶表擴展至百億級參數,檢索成本仍保持穩定。與MoE的條件計算不同,Engram提供的是「條件記憶」。模組會根據當前上下文隱向量決定是否啟用查找結果,並通過門控機制與主幹網路融合。

論文顯示,Engram通常被放置在模型早期層,用於承擔「模式重建」職責,從而釋放後續層的計算深度用於複雜推理。DeepSeek在27B參數規模的實驗中,將部分MoE專家參數重新分配給Engram記憶表,在等參數、等算力條件下,模型在知識、推理、代碼與數學任務上均取得顯著提升。

報導指出,在X平台上,相關技術討論認為Engram的機制有效減少模型早期層對靜態模式的重建需求,使模型在推理部分表現得更「深」。

部分開發者指出,這種架構讓大規模靜態記憶得以脫離GPU存儲限制,通過確定性定址實現主機內存預取,從而在推理階段保持低開銷。多位觀察者推測,Engram很可能成為DeepSeek下一代模型「V4」的核心技術基礎。

DeepSeek一年前橫空出世,在美區蘋果App Store下載榜一度超越Cha...
DeepSeek一年前橫空出世,在美區蘋果App Store下載榜一度超越ChatGPT。DeepSeek今日凌晨開源全新架構模組「Engram」,並同步發表技術論文再度引發關注。(新華社)

$(document).ready(function () {nstockStoryStockInfo();});

發表回復

您的郵箱地址不會被公開。 必填項已用 * 標註