Last updated
Last updated
Dilated convolution (dilated 卷積),也稱為 Atrous convolution (空洞卷積),是深度學習模型中用於處理輸入數據的一種卷積運算,特別是在計算機視覺領域。 它通過在 kernel 元素之間引入間隙或孔洞來擴充標準卷積運算,從而在不顯著增加參數數量的情況下增加 receptive field。
藍色代表輸入、綠色為輸出、白色代表 padding。
標準卷積 在標準卷積中,kernel 或 filter 應用於輸入的局部鄰域,在輸入數據上滑動以計算輸出 activation (output)。 receptive field 表示在單位的輸入空間中,影響輸出的區域,由 kernel 大小決定。 然而,標準卷積在處理大 receptive field 時可能會受到限制,因為它需要使用更大的 kernel 或堆疊多個卷積層,從而導致計算複雜性和 memory 需求增加。
dilated 卷積 dilated 卷積透過在 kernel 元素之間引入擴張或間距來解決這個問題。 擴張率決定了 kernel 元素之間的間距,它控制著卷積運算的 receptive field。 透過增加擴張率,在不增加參數數量或計算成本的情況下擴大 receptive field。在 dilated 卷積期間,kernel 元素之間的間隙用零填充。由擴張率確定,對輸入數據進行取樣,這種方式能捕獲更大的 context 訊息。
引入 dilated 卷積是為了解決捕獲大量 context 訊息的挑戰 (receptive field),同時保持計算複雜性可控。dilated 卷積已廣泛應用,特別是在需要在大空間範圍內捕獲 context 的任務中。 例如:image segmentation、object detection和semantic image等。
標準卷積 通過2層 3×3 kernel 的卷積之後,receptive field of a unit 的大小將會增加到5×5。 通過3層 3×3 kernel 的卷積之後,receptive field of a unit 的大小將會增加到7×7。
紅色代表 receptive field of a unit,綠色代表 3×3 kernel,藍色代表 receptive field。
Dilated 卷積: 通過2層 3×3 kernel 的卷積之後,receptive field of a unit 的大小將會增加到9×9。 通過3層 3×3 kernel 的卷積之後,receptive field of a unit 的大小將會增加到13×13。
紅色代表 receptive field of a unit,綠色代表 3×3 kernel,藍色代表 receptive field。
Dilated 卷積運算的輸出大小取決於擴張率、kernel 大小和輸入大小,因為 kernel 元素之間的間隙會降低有效取樣率。
有限的 receptive field:kernel 大小決定了 receptive field,它們只能從局部鄰域捕獲訊息。 這限制了他們捕獲遠處的依賴和全域 context 的能力。
計算複雜度:要增加 receptive field,一種選擇是使用更大的 kernel 大小。 然而,更大的 kernel 需要更多的參數並導致計算複雜性增加。 此外,堆疊多個卷積層以捕獲更大的 context 也會增加參數數量和 memory 需求。
增加 receptive field:透過在 kernel 中引入間隙或孔洞,dilated 卷積允許在不增加 kernel 大小的情況下,擁有更大的 receptive field。 這使網絡能夠從更廣泛的區域捕獲 context 訊息,包括遠程依賴性和全域 context。
高效率計算:dilated 卷積提供了一種有效的方法來增加 receptive field,而不會顯著增加參數數量或計算成本。
Downsampled feature map:作為擴張的結果,dilated 卷積的輸出 feature map 與輸入大小相比被downsampled。 這種 downsampled 在某些應用程序中可能是有益的,例如影像分割,因為它在保持context訊息的同時降低了空間解析度。
dilated 卷積已被證明在捕獲大量 context 的任務中是有效的,例如:semantic segmentation、scene understanding 和 image generation。 它們提供了一種強大的機制,可以有效地結合局部和全域 context,使模型能夠從輸入數據中提取有意義的 context。
Limited local information:雖然 dilated 卷積在捕獲全域 context 方面表現出色,但它們在捕獲fine-grained局部訊息方面的效率相對較低。 擴張引入的間隙會阻礙模型捕獲詳細局部的能力。 在捕獲精確局部特徵至關重要的場景中,標準卷積或其他專門的卷積運算可能更合適。
Spatial resolution:一個顯著缺點是輸出的 feature map 的空間解析度較低。以空間解析度為代價,提升 receptive field。 在保留細粒度空間細節至關重要的任務中,downsampled 可能是不可取的。例如:image reconstruction 或 fine-grained object detection。
Uneven sampling: dilated 卷積以由擴張率確定的規則間隔對輸入數據進行取樣。 這可能導致輸入取樣不均勻,這可能導致訊息 loss或在某些情況下引入 artifacts (偽影)。
memory 消耗:儘管 dilated 卷積在參數計數方面是高效的,但與標準卷積相比,它們仍然會消耗更多 memory。 這是因為 receptive field 擴大了,需要更大的中間 feature map 來適應增加的 context。 因此,使用 dilated 卷積的模型可能具有更高的 memory 要求,這可能是資源受限環境中的一個限制因素。
有限的擴張率:雖然較大的擴張率可以捕獲更大的 context,但在損失太多空間解析度之前,增加的擴張是有限的。可能會限制捕獲極長範圍的依賴或全域 context 的能力。
gridding (網格化)問題是指在 dilated 卷積中使用高擴張率時可能出現的問題。 它的特點是在輸出 feature map 中出現類似網格的模式或 artifacts,這會降低模型的性能。
當使用高擴張率時,receptive field 會顯著擴大,覆蓋更大的輸入區域。 然而,這種擴展會導致輸入數據的取樣不均勻。 kernel 以固定間隔對輸入進行取樣,,從而創建與擴張率對齊的類似網格的結構。某些區域無法進行有效的取樣或 activating,導致輸出形成網格狀的圖案。
為了緩解dilated 卷積網格化問題,已經提出了幾種方法。 包括:
組合多個擴張率:與其使用單一的高擴張率,並行使用多個擴張率有助於減輕網格 artifacts。 這種多尺度擴張策略允許捕獲不同尺度的 context 並減少網格的突出性。
紅色代表 receptive field of a unit,綠色代表 3×3 kernel,藍色代表 receptive field。
hybrid dilated 卷積:指將 dilated 卷積與其他類型的卷積相結合。例如:標準卷積或 grouped 卷積。 這種組合有助於平衡 context 和局部細節之間的權衡,減少網格問題,同時仍然捕獲相關context。
Contextual feature 融合、non-local means filtering。
解決 dilated 卷積 gridding 問題是一個研究領域,探索各種技術來減輕其影響,並提高使用高擴張率的性能。
"Rethinking atrous convolution for semantic image segmentation.", arXiv, 2017
"Understanding convolution for semantic segmentation.", IEEE winter conference on applications of computer vision (WACV), 2018
"Concentrated-comprehensive convolutions for lightweight semantic segmentation.", arXiv, 2018
"Espnet: Efficient spatial pyramid of dilated convolutions for semantic segmentation." Proceedings of the european conference on computer vision (ECCV). 2018
"Tree-structured kronecker convolutional network for semantic segmentation.", IEEE International Conference on Multimedia and Expo (ICME), 2019
"Efficient smoothing of dilated convolutions for image segmentation.", arXiv, 2019
評論:DilatedNet — dilated 卷積(語義分割)| by Sik-Ho Tsang | 邁向數據科學
(56条消息) 空洞卷积(扩张卷积,带孔卷积,atrous convolution)的一些总结与理解_interesting233333的博客-CSDN博客
总结-空洞卷积(Dilated/Atrous Convolution) - 知乎
Hybrid Dilated and Recursive Recurrent Convolution Network for Time-Domain Speech Enhancement
MC-DCNN: Dilated Convolutional Neural Network for Computing Stereo Matching Cost