精品人妻夜夜爽一区二区_日韩精品中文字幕一区二区三区_亚洲中文字幕精品无人区高潮_亚洲国产AV玩弄放荡女妇系列_精品无人妻一区二区三区

您的位置:首頁(yè) >要聞 > 正文

梁文鋒帶隊(duì)DeepSeek,重置深度神經(jīng)網(wǎng)絡(luò)最底層的「定海神針」_速訊

來(lái)源:市場(chǎng)資訊2026-01-03 08:28:04

來(lái)源:騰訊科技 

新年第一天,DeepSeek在arXiv放出一篇相當(dāng)“硬核”的論文:mHC: Manifold-Constrained Hyper-Connections,時(shí)間戳是2025 年 12 月 31 日(v1)。


(相關(guān)資料圖)

作者列表里,除了三位一作(Zhenda Xie、Yixuan Wei、Huanqi Cao),還出現(xiàn)了神龍見首不見尾的傳奇人物 Wenfeng Liang(梁文鋒)。

這篇論文要解決的,其實(shí)是一個(gè)“基礎(chǔ)設(shè)施級(jí)”的老問(wèn)題:當(dāng)網(wǎng)絡(luò)深度與通道層層加碼,系統(tǒng)如何不走向崩塌?

01 從殘差的“定海神針”說(shuō)起:為什么 x + F(x) 讓深度網(wǎng)絡(luò)能 work

熟悉神經(jīng)網(wǎng)絡(luò)里程碑歷史的都知道,殘差(Residual / Skip Connection)的發(fā)明,是深度神經(jīng)網(wǎng)絡(luò)能 work 的關(guān)鍵,從而為深度學(xué)習(xí)革命打穩(wěn)了基礎(chǔ)。何凱明/張祥雨也因此成名;那篇?dú)埐钫撐牡囊脭?shù),據(jù)說(shuō)在 AI 歷史上是絕對(duì)的首屈一指。

這是一項(xiàng)發(fā)生在十多年前、深度學(xué)習(xí)革命剛剛開啟時(shí),他們?cè)谖④涀龀龅睦锍瘫ぷ鳌:髞?lái),它成了深度神經(jīng)網(wǎng)絡(luò)的標(biāo)準(zhǔn) practice:用x+f(x) 代替f(x)。這條看似樸素的改動(dòng),恰恰是為了保證多達(dá)幾百、上千層的網(wǎng)絡(luò),在不斷加深的(函數(shù))轉(zhuǎn)換中不至于“差之毫厘,失之千里”,從結(jié)構(gòu)上兜住訓(xùn)練的穩(wěn)定性(那條x 的直通路徑,本質(zhì)上就是恒等映射的安全繩)。

我們知道,大模型本質(zhì)上就是個(gè)圖靈機(jī):在足夠的容量與數(shù)據(jù)驅(qū)動(dòng)下,它可以規(guī)律性地把任何信號(hào)輸入x 變成任何其他信號(hào)輸出y,也就是實(shí)現(xiàn)某個(gè)f(x)。這就是所謂的萬(wàn)能函數(shù)近似——老母雞變鴨的魔術(shù):文生圖、機(jī)器翻譯之類,看上去神奇,背后都是“把x 變成y”的系統(tǒng)性變換。正是在這個(gè)意義上,殘差網(wǎng)絡(luò)(ResNet)里x 這條直通連接線,成了大模型的定海神針。

因此,ResNet 的核心不是某個(gè)更復(fù)雜的卷積,而是那條看似樸素的“直通線”——讓每一層學(xué)習(xí) F(x),但輸出是 y = x + F(x)。原論文把這種 直通車道(shortcut) 設(shè)計(jì)解釋為“identity mapping”,它讓信息可以跨層穩(wěn)定傳遞。

你可以把它當(dāng)作在深度網(wǎng)絡(luò)這個(gè)“層層加工的工廠”里,額外修了一條不加工作業(yè)、直達(dá)下一站的傳送帶。于是深度從幾十層堆到幾百層、上千層時(shí),也不至于在復(fù)合變換里越走越偏,最終訓(xùn)練崩盤。

ResNet 把每一層從“直接學(xué)一個(gè)函數(shù)”改成“學(xué)一個(gè)增量”。這就好比雕塑大師把人物雕塑工作,轉(zhuǎn)變?yōu)椤叭コ嘤嗟牟糠帧薄R粔K大理石,多余的“殘差”去除殆盡,人物自然就成型了。

這件事的關(guān)鍵在于它把恒等映射(identity mapping)塞進(jìn)了網(wǎng)絡(luò):哪怕F 學(xué)得一塌糊涂,x這條直通路徑也能把信號(hào)和梯度比較完整地送到更深處,從而讓幾百上千層不至于“越算越跑偏”。mHC 論文在引言里也把這點(diǎn)講得很直白:殘差的穩(wěn)定性,來(lái)自恒等映射跨層累積時(shí)的結(jié)構(gòu)性保障。

作為研究背景,一句話總結(jié)殘差的精神內(nèi)核:

讓網(wǎng)絡(luò)“可以很深”,靠的不是每層轉(zhuǎn)換多聰明,而是“永遠(yuǎn)留一條‘不作妖’的直達(dá)通路”。

02 單車道不夠了:HC 把殘差流“擴(kuò)建成多車道”

傳統(tǒng)殘差是一條殘差流(hidden state 的那條“主干通道”)。但當(dāng)模型越來(lái)越大,研究者會(huì)自然產(chǎn)生一個(gè)念頭:

既然殘差流像高速公路的主干,那我能不能把它從 1 條車道擴(kuò)成 n 條車道,讓信息在不同車道之間更自由地交換、混合,表達(dá)力更強(qiáng)?

這就是 Hyper-Connections(HC)這類工作的出發(fā)點(diǎn):把殘差流的寬度從 C 擴(kuò)到 n×C,并引入一個(gè)可學(xué)習(xí)的混合矩陣,把“各條車道”的信息在每層重新路由。在 HC 原論文里,核心機(jī)制就是這種“復(fù)制 n 份 residual path、再在它們之間做連接”的宏觀結(jié)構(gòu)。

路修寬了,車更多了,理論上吞吐更大、信息更豐富。

但問(wèn)題是:你把高速路擴(kuò)建成多車道,最怕的不是車多,而是沒有交規(guī)。

03 HC 為什么會(huì)炸:無(wú)約束矩陣跨層復(fù)合變成“放大器”

殘差之所以穩(wěn),關(guān)鍵是 identity mapping 這條線天然具備一種“守恒”味道:

你至少能保證有一部分信號(hào),不被層內(nèi)變換“瞎折騰”(帶偏)。但 HC 的混合矩陣完全自由學(xué)習(xí)、沒有任何約束,跨多層之后,實(shí)際上是在做一串矩陣連乘。

mHC 論文直說(shuō)了:HC 的這種無(wú)約束設(shè)計(jì)在大規(guī)模訓(xùn)練時(shí)會(huì)破壞 identity mapping 作為“conservation mechanism(守恒機(jī)制)”的角色,導(dǎo)致平均信號(hào)強(qiáng)度無(wú)法保持,從而出現(xiàn)無(wú)界放大或衰減。

更直觀地講這種“放大器效應(yīng)”就是:

●如果某幾層學(xué)到的“殘差”在某些方向上“略大于 1”,

●經(jīng)過(guò)幾十層、上百層復(fù)合后,增長(zhǎng)會(huì)呈指數(shù)積累,

●最終就是大家熟悉的兩種災(zāi)難:信號(hào)爆炸 / 梯度爆炸,或者相反:梯度消失。都是模型訓(xùn)練的災(zāi)難。

不是 HC 多車道思路不對(duì),而是它把原殘差網(wǎng)絡(luò)自帶的這根“定海神針”,拆成了“自由的放大鏈路”。

04 DeepSeek 的一招:把混合矩陣關(guān)進(jìn)“雙隨機(jī)”的籠子里

mHC 的核心思想可以一句話概括:

你可以修立交橋、修多車道;但負(fù)責(zé)“指揮交通”的矩陣,必須服從一套嚴(yán)格的守恒規(guī)則。他們選擇的規(guī)則是:把殘差約束到所謂 雙隨機(jī)(doubly stochastic / bistochastic)矩陣集合上——元素非負(fù)、每一行和每一列都等于 1(歸一化)。

這樣做帶來(lái)三層非?!肮こ逃押谩钡姆€(wěn)定性保證:

凸組合(convex combination)解釋

  • 因?yàn)樾辛泻蜑?1,殘差等價(jià)于對(duì)輸入特征做“加權(quán)混合”,但權(quán)重總量守恒,所以整體更像“攪拌”而不是“放大器”。均值守恒 + 范數(shù)被嚴(yán)格規(guī)整

  • 論文明確說(shuō):這種約束讓特征均值保持、信號(hào)范數(shù)被嚴(yán)格 regularize,從而緩解 信號(hào)爆炸/消失(vanishing/exploding)??鐚訌?fù)合仍然穩(wěn)定(乘法封閉性)

雙隨機(jī)矩陣相乘仍是雙隨機(jī)矩陣(非負(fù)性與行列和約束都能傳遞),因此“多層連乘”不會(huì)越乘越野,守恒性可以貫穿整個(gè)深度。翻譯成咱老百姓的話就是:

每一層的混合矩陣,本質(zhì)上像是在“若干種換道方案(置換)”之間做概率意義上的加權(quán)選擇。這就特別像一個(gè)“帶守恒約束的交通路由系統(tǒng)”:怎么換道都行,但總車流不能憑空變多或變少。另外,mHC 還對(duì)前后殘差引入非負(fù)約束(論文用 sigmoid 形式實(shí)現(xiàn)),避免正負(fù)系數(shù)復(fù)合導(dǎo)致的數(shù)值抵消行為。

05 把“野矩陣”投影成“雙隨機(jī)矩陣”

“利用 Sinkhorn-Knopp 算法將連接矩陣約束在雙擬隨機(jī)矩陣流形上”,這里的核心是這一步:

  • 先讓矩陣元素變成嚴(yán)格正數(shù)

■然后反復(fù)做兩件事:

  • 歸一化每一行(讓行和=1)

  • 歸一化每一列(讓列和=1)

行列交替迭代,最終收斂到雙隨機(jī)結(jié)構(gòu)。你可以把所謂 Sinkhorn-Knopp 過(guò)程想象成一個(gè)“交警訓(xùn)練營(yíng)”:

不管你原來(lái)學(xué)出來(lái)的“交警”矩陣多么放飛自我,進(jìn)訓(xùn)練營(yíng)一套隊(duì)列動(dòng)作做完,它就必須滿足“行列守恒”的硬紀(jì)律,才能上崗指揮交通。關(guān)于“流形”(manifold)這個(gè)術(shù)語(yǔ),可以這樣理解:

嚴(yán)格說(shuō)雙隨機(jī)矩陣集合整體是個(gè)凸多胞形(邊界有棱角),但在其內(nèi)部(所有元素嚴(yán)格正)可以視為一個(gè)受約束的光滑空間;論文在工程語(yǔ)境里用“manifold”來(lái)表達(dá)“我們不讓參數(shù)在整個(gè)歐氏空間亂跑,而是限制在一個(gè)有幾何結(jié)構(gòu)的可行集合里”。

06 它不僅是數(shù)學(xué),更是工程:6.7% 的代價(jià)換穩(wěn)定與收益

把殘差流擴(kuò)成 n 倍,直覺上顯存與通信都會(huì)爆炸。mHC 論文非常明確地把“系統(tǒng)開銷”當(dāng)作同等重要目標(biāo):它不僅提出數(shù)學(xué)約束,也在配套工程上做了 kernel fusion、選擇性重計(jì)算、以及在 DualPipe 調(diào)度里更激進(jìn)的通信-計(jì)算重疊。

最后他們給出的系統(tǒng)級(jí)結(jié)論是:當(dāng)n = 4時(shí),mHC只帶來(lái)約 6.7% 的額外訓(xùn)練時(shí)間開銷。

這點(diǎn)很關(guān)鍵:

如果只講“理論上更穩(wěn)”,我們會(huì)問(wèn)“那是不是貴得用不起?”

而這篇論文顯然在回答:“我們把它做成了大訓(xùn)練里可落地的結(jié)構(gòu)升級(jí)?!?/p>

07 一句話總結(jié):mHC 的創(chuàng)新意義在哪?

HC 想把殘差從單車道升級(jí)成立交橋;mHC 做的,是給立交橋加上守恒型交通規(guī)則——用雙隨機(jī)約束恢復(fù) identity mapping 的穩(wěn)定性,同時(shí)把工程開銷壓到可接受范圍。

這也解釋了下列對(duì)應(yīng)關(guān)系:

  • 殘差的多流并行架構(gòu):殘差流從 C 變成 n×C,讓“通道”更多;

  • 連接矩陣受約束:核心是殘差不再自由,而是雙隨機(jī);

  • Sinkhorn-Knopp:實(shí)現(xiàn)“投影/歸一化”的具體算法;

  • 解決數(shù)值不穩(wěn)定與信號(hào)爆炸:把跨層連乘的放大鏈條關(guān)進(jìn)“守恒籠子”

殘差之所以穩(wěn),不是因?yàn)椤凹臃ㄉ衿妗?,而是因?yàn)樗[含了某種守恒結(jié)構(gòu);

當(dāng)我們?cè)噲D把殘差升級(jí)成更復(fù)雜的拓?fù)鋾r(shí),真正需要被繼承的,是這份守恒,而不是加號(hào)本身。

關(guān)鍵詞:

最近更新