線性整流函式

整流線性單位函式（Rectified Linear Unit, ReLU）,又稱修正線性單元, 是一種類神經網路中常用的激勵函式（activation function），通常指代以斜坡函式及其變種為代表的非線性函式。

比較常用的線性整流函式有斜坡函式 $f(x)=\max(0,x)$ ，以及帶洩露整流函式（Leaky ReLU），其中 $x$ 為神經元（Neuron）的輸入。線性整流被認為有一定的生物學原理^[1]，並且由於在實踐中通常有著比其他常用激勵函式（譬如邏輯函式）更好的效果，而被如今的深度神經網路廣泛使用於諸如圖像辨識等電腦視覺人工智慧領域^[1]。

定義

通常意義下，線性整流函式指代數學中的斜坡函式，即

f(x)=\max(0,x)

而在神經網路中，線性整流作為神經元的啟用功能，定義了該神經元線上性變換 $\mathbf {w} ^{T}\mathbf {x} +b$ 之後的非線性輸出結果。換言之，對於進入神經元的來自上一層神經網路的輸入向量 $x$ ，使用線性整流啟用功能的神經元會輸出

\max(0,\mathbf {w} ^{T}\mathbf {x} +b)

至下一層神經元或作為整個神經網路的輸出（取決現神經元在網路結構中所處位置）。

變種

線性整流函式在基於斜坡函式的基礎上有其他同樣被廣泛應用於深度學習的變種，譬如帶洩露線性整流(Leaky ReLU)^[2]，帶洩露隨機線性整流(Randomized Leaky ReLU)^[3]，以及噪聲線性整流(Noisy ReLU)^[4].

帶洩露線性整流

在輸入值 $x$ 為負的時候，帶洩露線性整流函式（Leaky ReLU）的梯度為一個常數 $\lambda \in (0,1)$ ，而不是0。在輸入值為正的時候，帶洩露線性整流函式和普通斜坡函式保持一致。換言之，

f(x)={\begin{cases}x&{\mbox{if }}x>0\\\lambda x&{\mbox{if }}x\leq 0\end{cases}}

在深度學習中，如果設定 $\lambda$ 為一個可通過反向傳播演算法（Backpropagation）學習的變數，那麼帶洩露線性整流又被稱為參數線性整流（Parametric ReLU）^[5]。

帶洩露隨機線性整流

帶洩露隨機線性整流（Randomized Leaky ReLU, RReLU）最早是在Kaggle全美資料科學大賽（NDSB）中被首先提出並使用的。相比於普通帶洩露線性整流函式，帶洩露隨機線性整流在負輸入值段的函式梯度 $\lambda$ 是一個取自連續性均勻分布 $U(l,u)$ 概率模型的隨機變數，即

f(x)={\begin{cases}x&{\mbox{if }}x>0\\\lambda x&{\mbox{if }}x\leq 0\end{cases}}

其中 $\lambda \sim U(l,u),l<u$ 且 $l,u\in [0,1)$ 。

噪聲線性整流

噪聲線性整流（Noisy ReLU）是修正線性單元在考慮高斯噪聲的基礎上進行改進的變種啟用功能。對於神經元的輸入值 $x$ ，噪聲線性整流加上了一定程度的常態分布的不確定性，即

f(x)=\max(0,x+Y)

其中隨機變數 $Y\sim {\mathcal {N}}(0,\sigma (x))$ 。目前，噪聲線性整流函式在受限玻爾茲曼機（Restricted Boltzmann Machine）在電腦圖學的應用中取得了比較好的成果^[4]。

優勢

相比於傳統的神經網路啟用功能，諸如邏輯函式（Logistic sigmoid）和tanh等雙曲函式，線性整流函式有著以下幾方面的優勢：

仿生物學原理：相關大腦方面的研究表明生物神經元的訊息編碼通常是比較分散及稀疏的^[6]。通常情況下，大腦中在同一時間大概只有1%-4%的神經元處於活躍狀態。使用線性修正以及正規化（regularization）可以對機器神經網路中神經元的活躍度（即輸出為正值）進行除錯；相比之下，邏輯函式在輸入為0時達到 ${\frac {1}{2}}$ ，即已經是半飽和的穩定狀態，不夠符合實際生物學對類比神經網路的期望^[1]。不過需要指出的是，一般情況下，在一個使用修正線性單元（即線性整流）的神經網路中大概有50%的神經元處於啟用態^[1]。

更加有效率的梯度下降以及反向傳播：避免了梯度爆炸和梯度消失問題

簡化計算過程：沒有了其他複雜啟用功能中諸如指數函式的影響；同時活躍度的分散性使得神經網路整體計算成本下降

參考資料

^ ^1.0 ^1.1 ^1.2 ^1.3 Xavier Glorot, Antoine Bordes and Yoshua Bengio. Deep sparse rectifier neural networks (PDF). AISTATS. 2011.
^ Andrew L. Maas, Awni Y. Hannum and Andrew Y. Ng. Rectified Nonlinearities Improve Neural Network Acoustic Models (PDF). ICML. 2013.
^ Xu, Bing; Wang, Naiyan; Chen, Tianqi; Li, Mu. Empirical Evaluation of Rectified Activations in Convolution Network. 2015. arXiv:1505.00853v2 . cite arXiv模板填寫了不支援的參數 (幫助)
^ ^4.0 ^4.1 Vinod Nair and Geoffrey Hinton. Rectified linear units improve restricted Boltzmann machines (PDF). ICML. 2010. （原始內容 (PDF)存檔於2014-03-24）.
^ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian. Delving Deep into Rectifiers:Surpassing Human-Level Performance on ImageNet Classification. 2015. arXiv:1502.01852v1 . cite arXiv模板填寫了不支援的參數 (幫助)
^ David Attwell and Simon B. Laughlin. An energy budget for signaling in the grey matter of the brain. JCBFM. 2001. ^{[永久失效連結]}

外部連結

Quora: What is special about rectifier neural units used in NN learning?

[glorot2011-1] 1.0 ^1.1 ^1.2 ^1.3 Xavier Glorot, Antoine Bordes and Yoshua Bengio. Deep sparse rectifier neural networks (PDF). AISTATS. 2011.

[leakyrelu-2] Andrew L. Maas, Awni Y. Hannum and Andrew Y. Ng. Rectified Nonlinearities Improve Neural Network Acoustic Models (PDF). ICML. 2013.

[randomizedleakyrelu-3] Xu, Bing; Wang, Naiyan; Chen, Tianqi; Li, Mu. Empirical Evaluation of Rectified Activations in Convolution Network. 2015. arXiv:1505.00853v2 . cite arXiv模板填寫了不支援的參數 (幫助)

[nair2010-4] 4.0 ^4.1 Vinod Nair and Geoffrey Hinton. Rectified linear units improve restricted Boltzmann machines (PDF). ICML. 2010. （原始內容 (PDF)存檔於2014-03-24）.

[parametricrelu-5] He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian. Delving Deep into Rectifiers:Surpassing Human-Level Performance on ImageNet Classification. 2015. arXiv:1502.01852v1 . cite arXiv模板填寫了不支援的參數 (幫助)

[brainresearch-6] David Attwell and Simon B. Laughlin. An energy budget for signaling in the grey matter of the brain. JCBFM. 2001. ^{[永久失效連結]}

[1]

[2]

[3]

[4]

[5]

[6]