September 23, 2023

Deep

source GitHub 我們提出了一種用於圖像分類的簡單且高度模組化的網絡架構。我們的網絡通過重複一個構建塊來構造,該塊匯聚了一組具有相同拓撲的變換。我們的簡單設計產生了一個均質的、多分支的架構,只有很少的超參數需要設置。 這種策略引入了一個我們稱之為「基數」cardinality(變換集合的大小)的新維度,作為除深度(depth)和寬度(width)之外的一個重要因素。 在ImageNet-1K 數據集上,我們通過實驗證明,即使在保持複雜性的受限條件下,增加基數能夠提高分類準確性。此外,當增加容量時,增加基數比增加深度或寬度更加有效。我們的模型被稱為ResNeXt。 視覺識別(Visual Recognition)領域從「特徵工程」向「網絡工程」轉變。傳統的手工設計特徵被深度學習網絡從大規模數據中自主學習得到的特徵所取代。為了設計更好的網絡架構學習表示, VGG-Nets 和 ResNets 採用堆疊相同形狀的構建塊的簡單有效策略,減少超參數選擇,深度成為關鍵維度。這種簡單規則可以降低過度調參的風險,並在各種視覺和非視覺任務中顯示出強大的泛化能力。 與 VGG-Nets 不同, Inception 模型家族展示了精心設計的拓撲結構在低計算複雜度下可以實現滿意的準確率。Inception...