發(fā)布時(shí)間:2025-12-08
2025年12月5日, Neurocomputing期刊在線發(fā)表了題為《Towards Biologically Plausible DNN Optimization: Replacing Backpropagation and Loss Functions with a Top-Down Credit Assignment Network》的研究論文。該研究由中國(guó)科學(xué)院腦科學(xué)與智能技術(shù)卓越中心、腦認(rèn)知與類腦智能全國(guó)重點(diǎn)實(shí)驗(yàn)室王佐仁研究組王佐仁研究組聯(lián)合中國(guó)科學(xué)院自動(dòng)化研究所劉成林研究組共同完成。團(tuán)隊(duì)提出了一種全新的類腦學(xué)習(xí)框架:自頂向下信用分配網(wǎng)絡(luò)框架(TDCA,Top-Down Credit Assignment Network),首次利用腦啟發(fā)的自頂向下調(diào)控網(wǎng)絡(luò),同時(shí)替代傳統(tǒng)人工智能中的損失函數(shù)與反向傳播算法,在多種任務(wù)中實(shí)現(xiàn)了更快收斂、更強(qiáng)穩(wěn)定性和更低計(jì)算成本的學(xué)習(xí)性能。

圖1:不同的學(xué)習(xí)方式比較:傳統(tǒng)人工智能優(yōu)化,生物大腦以及TDCA網(wǎng)絡(luò)方法
長(zhǎng)期以來(lái),人工智能的成功依賴“損失函數(shù)+ 反向傳播”這一經(jīng)典訓(xùn)練范式。然而,一個(gè)根本性問(wèn)題始終存在:人腦并不是通過(guò)反向傳播學(xué)習(xí)的,那么大腦究竟是如何實(shí)現(xiàn)高效學(xué)習(xí)的?如果人工智能也不使用反向傳播,它還能否學(xué)會(huì)復(fù)雜任務(wù)?在傳統(tǒng)人工智能中,損失函數(shù)由人類顯式設(shè)計(jì),誤差信號(hào)通過(guò)反向傳播逐層精確計(jì)算。然而,神經(jīng)科學(xué)研究表明:大腦中并不存在顯式的數(shù)值損失函數(shù);也不存在類似反向傳播那樣的精確梯度回傳機(jī)制;真正起關(guān)鍵作用的,很可能是來(lái)自前額葉、扣帶回等高級(jí)認(rèn)知腦區(qū)的自頂向下調(diào)控信號(hào)。這提示,除了傳統(tǒng)“誤差回傳”機(jī)制之外,大腦中可能還存在一種內(nèi)源性的學(xué)習(xí)調(diào)控方式。

圖2.TDCA網(wǎng)絡(luò)整體訓(xùn)練框架
基于上述神經(jīng)生物學(xué)證據(jù),研究團(tuán)隊(duì)提出了TDCA 自頂向下信用分配網(wǎng)絡(luò)框架。該框架由兩個(gè)網(wǎng)絡(luò)構(gòu)成:一個(gè)負(fù)責(zé)執(zhí)行任務(wù)的底層任務(wù)網(wǎng)絡(luò),以及一個(gè)負(fù)責(zé)生成學(xué)習(xí)信號(hào)的自頂向下調(diào)控網(wǎng)絡(luò)。不同于傳統(tǒng)方法中“先定義損失函數(shù)、再進(jìn)行反向傳播”,TDCA 框架中:自頂向下網(wǎng)絡(luò)直接生成用于更新參數(shù)的學(xué)習(xí)信號(hào),從而整體替代了損失函數(shù)和反向傳播。該框架在機(jī)制上模擬了大腦中高級(jí)腦區(qū)對(duì)低級(jí)腦區(qū)的調(diào)控作用,使人工神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方式在整體結(jié)構(gòu)上更接近生物大腦。
研究團(tuán)隊(duì)在多個(gè)代表性任務(wù)中對(duì)TDCA 框架進(jìn)行了系統(tǒng)驗(yàn)證,包括:非凸函數(shù)優(yōu)化任務(wù)(傳統(tǒng)算法易陷入局部最優(yōu))、圖像分類任務(wù)(MNIST、Fashion-MNIST)、和強(qiáng)化學(xué)習(xí)任務(wù)(CartPole、Pendulum、BipedalWalker、MetaWorld 機(jī)械臂控制)。實(shí)驗(yàn)結(jié)果表明,TDCA 框架具有以下顯著優(yōu)勢(shì):收斂更快,更容易跳出局部最優(yōu);對(duì)初始參數(shù)不敏感,穩(wěn)定性更強(qiáng);可遷移到新任務(wù),具備良好泛化能力;在多項(xiàng)任務(wù)中整體性能優(yōu)于傳統(tǒng)反向傳播算法及多種生物可實(shí)現(xiàn)學(xué)習(xí)方法。尤其在強(qiáng)化學(xué)習(xí)和機(jī)器人控制任務(wù)中,同一個(gè)自頂向下網(wǎng)絡(luò)可以同時(shí)指導(dǎo)多個(gè)不同任務(wù)的學(xué)習(xí),展現(xiàn)出類似大腦“通用學(xué)習(xí)策略”的特征。
該研究不僅在算法層面實(shí)現(xiàn)重要突破,也在類腦人工智能與計(jì)算神經(jīng)科學(xué)領(lǐng)域具有深遠(yuǎn)意義:為下一代類腦人工智能系統(tǒng)提供全新訓(xùn)練范式;為低功耗智能芯片提供適配型學(xué)習(xí)機(jī)制;為真實(shí)大腦學(xué)習(xí)機(jī)制建模提供新的計(jì)算框架;并且為機(jī)器人與強(qiáng)化學(xué)習(xí)系統(tǒng)提供更高效的學(xué)習(xí)策略。從長(zhǎng)遠(yuǎn)來(lái)看,該工作為構(gòu)建真正“像大腦一樣學(xué)習(xí)”的人工智能系統(tǒng)提供了一條全新的技術(shù)路徑。
腦智卓越中心特聘研究助理陳建輝博士為該論文的第一作者,王佐仁、劉成林研究員為該論文的共同通訊作者,楊天明研究員對(duì)論文做出重要貢獻(xiàn)。該工作得到中國(guó)科學(xué)院戰(zhàn)略先導(dǎo)專項(xiàng)、科技創(chuàng)新2030重大項(xiàng)目的支持。
附件下載: