畳み込みニューラルネットワーク

畳み込みニューラルネットワーク（CNN ）は、フィルタ（またはカーネル）最適化によって特徴を学習するフィードフォワードニューラルネットワークの一種です。このタイプの深層学習ネットワークは、テキスト、画像、音声など、さまざまな種類のデータの処理と予測に応用されてきました。 ^[¹^] CNNは、コンピュータービジョン^[²^]と画像処理における深層学習ベースのアプローチにおける事実上の標準であり、最近ではトランスフォーマーなどの新しい深層学習アーキテクチャに置き換えられました。

初期のニューラルネットワークにおけるバックプロパゲーションで見られる勾配消失や勾配爆発は、より少ない接続で重みを共有することによる正則化によって防止されます。 ^{[ 3 ]}^{[ 4 ]}例えば、全結合層の各ニューロンでは、100×100ピクセルの画像を処理するのに10,000個の重みが必要になります。しかし、カスケード畳み込み（または相互相関）カーネルを適用すると、^{[ 5 ]}^{[ 6 ]} 5×5サイズのタイルを処理するのに必要な畳み込み層ごとに25個の重みのみになります。^{[ 7 ]}^{[ 8 ]}上位層の特徴は、下位層の特徴と比較して、より広いコンテキストウィンドウから抽出されます。

CNN の用途には次のようなものがあります。

CNNはシフト不変または空間不変の人工ニューラルネットワークとも呼ばれ、入力特徴に沿ってスライドし、特徴マップと呼ばれる並進等変応答を提供する畳み込みカーネルまたはフィルタの共有重みアーキテクチャに基づいています。 ^[¹⁴^]^[¹⁵^]直感に反して、ほとんどの畳み込みニューラルネットワークは、入力に適用するダウンサンプリング操作のため、並進に対して不変ではありません。 ^[¹⁶^]

フィードフォワードニューラルネットワークは通常、完全接続ネットワークです。つまり、ある層の各ニューロンは次の層のすべてのニューロンに接続されています。これらのネットワークの「完全接続」は、データの過適合を引き起こしやすい傾向があります。正規化、つまり過適合を防ぐための一般的な方法としては、トレーニング中にパラメータにペナルティを課す（重み減衰など）か、接続性を調整する（接続のスキップ、ドロップアウトなど）ことが挙げられます。堅牢なデータセットは、CNNが、データの少ないデータセットのバイアスではなく、特定のデータセットを特徴付ける一般化された原理を学習する可能性を高めます。^{[ 17 ]}

畳み込みネットワークは、ニューロン間の接続パターンが動物の視覚皮質の構造に似ているという点で、生物学的プロセスにヒントを得たものです^[¹⁸^]^[¹⁹^]^[²⁰^]^[²¹^]。個々の皮質ニューロンは、受容野と呼ばれる視野の限られた領域内の刺激にのみ反応します。異なるニューロンの受容野は部分的に重なり合い、視野全体を覆うように配置されています。

CNNは、他の画像分類アルゴリズムと比較して、比較的少ない前処理を必要とします。これは、ネットワークが自動学習によってフィルター（またはカーネル）を最適化することを学習することを意味します。一方、従来のアルゴリズムでは、これらのフィルターは手動で設計されます。これにより、プロセスが簡素化および自動化され、効率性とスケーラビリティが向上し、人的介入によるボトルネックを克服できます。

建築

畳み込みニューラルネットワークは、入力層、隠れ層、出力層から構成される。畳み込みニューラルネットワークにおいて、隠れ層には畳み込みを実行する1つ以上の層が含まれる。典型的には、畳み込みカーネルとその層の入力行列とのドット積を計算する層が含まれる。この積は通常フロベニウスの内積であり、その活性化関数はReLUであるのが一般的である。畳み込みカーネルが層の入力行列に沿って移動すると、畳み込み演算によって特徴マップが生成され、それが次の層の入力となる。この後、プーリング層、全結合層、正規化層などの層が続く。ここで注目すべきは、畳み込みニューラルネットワークが整合フィルタにどれほど近いかということである。^{[ 22 ]}

畳み込み層

CNN では、入力は次の形状のテンソルです。

(入力数) × (入力高さ) × (入力幅) × (入力チャンネル数)

畳み込み層を通過すると、画像は次のような形状の特徴マップ（活性化マップとも呼ばれる）に抽象化されます。

(入力数) × (特徴マップの高さ) × (特徴マップの幅) × (特徴マップのチャンネル数)。

畳み込み層は入力を畳み込み、その結果を次の層に渡します。これは、視覚野のニューロンが特定の刺激に反応するのと似ています。^{[ 23 ]}各畳み込みニューロンは、自身の受容野のデータのみを処理します。

全結合フィードフォワードニューラルネットワークは特徴の学習やデータの分類に使用できますが、このアーキテクチャは一般に、各ピクセルが関連する入力特徴であるため、膨大な数のニューロンを必要とする大きな入力（例：高解像度画像）には実用的ではありません。100 × 100 サイズの画像の全結合層では、第 2 層の各ニューロンに 10,000 個の重みが設定されます。畳み込みによって自由パラメータの数が削減され、ネットワークをより深くすることができます。^{[ 7 ]}たとえば、5 × 5 のタイリング領域を使用し、それぞれに同じ共有重みを設定すると、必要なニューロンは 25 個だけです。共有重みを使用するとパラメータの数が大幅に少なくなるため、初期のニューラルネットワークでバックプロパゲーション中に見られた勾配消失や勾配爆発の問題を回避するのに役立ちます。^{[ 3 ]}^{[ 4 ]}

処理速度を向上させるために、標準的な畳み込み層を、深さ方向に分離可能な畳み込み層に置き換えることができます。 ^{[ 24 ]}これは、深さ方向の畳み込みとそれに続く点方向の畳み込みに基づいています。深さ方向の畳み込みは、入力テンソルの各チャネルに独立して適用される空間畳み込みであり、点方向の畳み込みはカーネルの使用に限定された標準的な畳み込みです。 $1\times 1$

プーリング層

畳み込みネットワークには、従来の畳み込み層に加えて、ローカルプーリング層やグローバルプーリング層が含まれる場合があります。プーリング層は、ある層のニューロンクラスターの出力を次の層の 1 つのニューロンに結合することで、データの次元を削減します。ローカルプーリングは小さなクラスターを結合し、2 × 2 などのタイリングサイズが一般的に使用されます。グローバルプーリングは、特徴マップのすべてのニューロンに作用します。^{[ 25 ]}^{[ 26 ]}よく使用されるプーリングの種類には、最大プーリングと平均プーリングの 2 つがあります。最大プーリングでは、特徴マップ内のニューロンの各ローカルクラスターの最大値が使用されます。^{[ 27 ]}^{[ 28 ]}平均プーリングでは、平均値が使用されます。

完全接続層

全結合層は、ある層のすべてのニューロンを別の層のすべてのニューロンに接続します。これは従来の多層パーセプトロンニューラルネットワーク（MLP）と同じです。平坦化された行列は全結合層を通過して画像を分類します。

受容野

ニューラルネットワークでは、各ニューロンは前の層のいくつかの場所から入力を受け取ります。畳み込み層では、各ニューロンは、ニューロンの受容野と呼ばれる前の層の限られた領域からのみ入力を受け取ります。通常、この領域は正方形です (たとえば、5 x 5 ニューロン)。一方、完全結合層では、受容野は前の層全体です。したがって、各畳み込み層では、各ニューロンは前の層よりも広い領域から入力を受け取ります。これは、ピクセルの値だけでなくその周囲のピクセルも考慮に入れて畳み込みを何度も適用するためです。膨張層を使用する場合、受容野内のピクセル数は一定のままですが、複数の層の効果を組み合わせることでその次元が大きくなるにつれて、フィールドはよりまばらになります。

受容野サイズを所望の大きさに操作するために、標準的な畳み込み層以外の手法もいくつか存在します。例えば、アトラス畳み込み層や膨張畳み込み層^{[ 29 ]}^{[ 30 ]}は、可視領域と不感領域を交互に配置することで、パラメータ数を増やすことなく受容野サイズを拡大します。さらに、単一の膨張畳み込み層は複数の膨張率を持つフィルターで構成することができ^{[ 31 ]} 、これにより受容野サイズを可変にすることができます。

重量

ニューラルネットワーク内の各ニューロンは、前層の受容野から受け取った入力値に特定の関数を適用することで出力値を計算します。入力値に適用される関数は、重みとバイアス（通常は実数）のベクトルによって決定されます。学習は、これらのバイアスと重みを反復的に調整することで行われます。

重みとバイアスのベクトルはフィルターと呼ばれ、入力の特定の特徴（例えば、特定の形状）を表します。CNNの特徴は、多くのニューロンが同じフィルターを共有できることです。これにより、各受容野が独自のバイアスとベクトルの重みを持つのとは異なり、フィルターを共有するすべての受容野で単一のバイアスと単一の重みベクトルが使用されるため、メモリ使用量が削減されます。 ^{[ 32 ]}

デコンボリューション

逆畳み込みニューラルネットワークは本質的にCNNの逆であり、逆畳み込み層と逆プーリング層で構成されています。^{[ 33 ]}

逆畳み込み層は畳み込み層の転置です。具体的には、畳み込み層は行列との乗算として表すことができ、逆畳み込み層はその行列の転置との乗算として表すことができます。^{[ 34 ]}

アンプーリング層は層を拡張します。最大アンプーリング層は最も単純で、各エントリを複数回コピーするだけです。例えば、2行2列の最大アンプーリング層はです。 $[x]\mapsto {\begin{bmatrix}x&x\\x&x\end{bmatrix}}$

デコンボリューション層は画像生成に使用されます。デフォルトでは周期的なチェッカーボード状のアーティファクトが生成されますが、これはアップスケールしてから畳み込むことで修正できます。^{[ 35 ]}

歴史

CNNは、生物の脳が視覚処理を行う方法とよく比較されます。^{[ 36 ]}

視覚皮質の受容野

1950年代と1960年代のヒューベルとヴィーゼルの研究は、ネコの視覚皮質には視野の小さな領域に個別に反応するニューロンが含まれていることを示しました。眼球が動いていない場合、視覚刺激が単一のニューロンの発火に影響を与える視覚空間の領域は、そのニューロンの受容野として知られています。^{[ 37 ]}隣接する細胞は、類似した、あるいは重なり合う受容野を持っています。受容野の大きさと位置は皮質全体で系統的に変化し、視覚空間の完全な地図を形成します。各半球の皮質は、対側の視野を表しています。

1968年の論文では、脳内に2つの基本的な視覚細胞の種類が特定されました。^{[ 19 ]}

単純細胞は、受容野内で特定の方向を持つ直線エッジによって出力が最大化される。
複雑細胞はより大きな受容野を持ち、その出力は受容野内のエッジの正確な位置に影響を受けない。

フーベルとヴィーゼルはまた、パターン認識タスクに使用するために、これら2種類の細胞のカスケードモデルを提案した。^{[ 38 ]}^{[ 37 ]}

福島の視覚モデルにおけるアナログ閾値要素

1969年、福島邦彦は、前述のヒューベルとヴィーゼルの研究に着想を得た多層視覚特徴検出ネットワークを発表しました。このネットワークでは、「ある層内のすべての要素は同じ相互接続係数セットを持ち、要素の配置と相互接続は、ある層全体にわたって均一である」という特徴が見られます。これは畳み込みネットワークの本質的な核心ですが、重みは学習されていません。同論文で、福島はReLU（Rectified Linear Unit）活性化関数も発表しました。^{[ 39 ]}^{[ 40 ]}

学習可能なCNNアーキテクチャの起源であるネオコグニトロン

「ネオコグニトロン」^{[ 18 ]}は1980年に福島によって導入されました。^{[ 20 ]}^{[ 28 ]}^{[ 41 ]} ネオコグニトロンは2つの基本的なタイプの層を導入しました。

「S層」：共有重み受容野層（後に畳み込み層と呼ばれる）で、前層のパッチを覆う受容野を持つユニットを含む。共有重み受容野グループ（ネオコグニトロン用語では「平面」）はしばしばフィルターと呼ばれ、通常、1つの層には複数のフィルターが含まれる。
「C層」：ダウンサンプリング層であり、受容野が前の畳み込み層のパッチを覆うユニットを含む。このようなユニットは通常、パッチ内のユニットの活性化の加重平均を計算し、やや大きなパッチと層内の異なるフィルターからプールされた抑制（除算正規化）を適用し、飽和活性化関数を適用する。パッチの重みは非負であり、元のネオコグニトロンでは学習できない。ダウンサンプリングと競合抑制は、視覚シーン内の物体がずれている場合でも、特徴や物体を分類するのに役立つ。

ネオコグニトロンの重みを訓練するために、数十年にわたっていくつかの教師あり学習と教師なし学習のアルゴリズムが提案されてきました。 ^{[ 18 ]}しかし、今日ではCNNアーキテクチャは通常、バックプロパゲーションを通じて訓練されます。

福島のReLU活性化関数は、重みがすべて非負であったため、彼のネオコグニトロンでは使用されず、代わりに側方抑制が使用された。整流子は、CNNやディープニューラルネットワーク全般において非常に人気のある活性化関数となっている。^{[ 42 ]}

時間における畳み込み

ニューラルネットワークにおいて「畳み込み」という用語が初めて登場するのは、1987年の第1回神経情報処理システム会議における本間俊輝、レス・アトラス、ロバート・マークス2世の論文である。彼らの論文では、時間的に乗算を畳み込みに置き換えることでシフト不変性を実現し、信号処理概念であるフィルタに着想を得て、より直接的にフィルタと結びついた形で、音声認識タスクでその有効性を実証した。^{[ 8 ]}また、データ学習可能なシステムとして、畳み込みは重みの反転が最終的な学習関数に影響を与えないため、本質的に相関と等価であると指摘した（「便宜上、*を畳み込みではなく相関と表記する。a(t)とb(t)の畳み込みは、a(-t)とb(t)の相関と等価である点に注意されたい。」）。^{[ 8 ]}現代のCNN実装では通常、相関が行われ、便宜上、ここでも畳み込みと呼ばれている。

時間遅延ニューラルネットワーク

時間遅延ニューラルネットワーク（TDNN）は、1987年にアレックス・ワイベルらによって音素認識のために導入され、シフト不変性を示す初期の畳み込みネットワークであった。 ^{[ 43 ]} TDNNは1次元畳み込みニューラルネットワークであり、畳み込みはデータの時間軸に沿って行われる。これは、バックプロパゲーションを用いた勾配降下法による学習と重み共有を組み合わせた最初のCNNである。^{[ 44 ]}したがって、ネオコグニトロンと同様にピラミッド構造を採用しながらも、重みの局所的最適化ではなく、全体的最適化を実行した。^{[ 43 ]}

TDNNは、時間次元に沿って重みを共有する畳み込みネットワークである。^{[ 45 ]} TDNNは音声信号を時間不変に処理することを可能にする。1990年にハンプシャーとワイベルは、2次元畳み込みを実行する変種を発表した。^{[ 46 ]}これらのTDNNはスペクトログラム上で動作するため、結果として得られる音素認識システムは、ネオコグニトロンで処理された画像と同様に、時間と周波数の両方の変化に対して不変であった。

TDNNは遠距離音声認識の性能を向上させた。^{[ 47 ]}

勾配降下法で訓練されたCNNによる画像認識

デンカーら（1989）は、手書きの郵便番号を認識するための2次元CNNシステムを設計した。^{[ 48 ]}しかし、畳み込みのカーネル係数を決定するための効率的なトレーニング方法がなかったため、すべての係数を手間をかけて手作業で設計する必要があった。^{[ 49 ]}

Waibel ら (1987) による 1-D CNN のトレーニングの進歩を受けて、Yann LeCunら (1989) ^{[ 49 ]}はバックプロパゲーションを使用して手書きの数字の画像から直接畳み込みカーネル係数を学習しました。学習は完全に自動化され、手動での係数設計よりも優れたパフォーマンスを発揮し、より広範囲の画像認識問題と画像タイプに適していました。Wei Zhang ら (1988) ^{[ 14 ]}^{[ 15 ]}は、バックプロパゲーションを使用してアルファベット認識用の CNN の畳み込みカーネルを学習しました。このモデルは、1990 年代前半に CNN という名前が作られる前は、シフト不変パターン認識ニューラルネットワークと呼ばれていました。Wei Zhang らはまた、最後の完全結合層のない同じ CNN を医療用画像オブジェクトのセグメンテーション (1991) ^{[ 50 ]}とマンモグラムでの乳がん検出 (1994) に適用しました。^{[ 51 ]}

このアプローチは現代のコンピュータービジョンの基礎となりました。

最大プーリング

1990年、山口らは、与えられた領域の最大値を計算し伝播させる固定フィルタリング操作である最大プーリングの概念を導入した。彼らは、TDNNと最大プーリングを組み合わせることで、話者非依存の孤立単語認識システムを実現した。^{[ 27 ]}彼らのシステムでは、単語ごとに複数のTDNN（各音節に1つずつ）が使用されていた。入力信号に対する各TDNNの結果は最大プーリングを用いて結合され、プーリング層の出力は実際の単語分類を実行するネットワークに渡された。

ネオコグニトロンの変種であるクレセプトロンでは、福島の抑制と飽和を伴う空間平均化を使用する代わりに、J. Wengらは1993年に最大プーリングを使用し、ダウンサンプリングユニットがそのパッチ内のユニットの活性化の最大値を計算し、^{[ 52 ]}この方法を視覚野に導入しました。

マックスプーリングは現代のCNNでよく使われています。^{[ 53 ]}

LeNet-5

LeCunらが1995年に発表した7層畳み込みネットワークの先駆者であるLeNet-5 ^{[ 54 ]}は、32×32ピクセルの画像にデジタル化された小切手上の手書き数字を分類します。高解像度の画像を処理するには、より大規模でより多くの層の畳み込みニューラルネットワークが必要となるため、この手法は利用可能な計算資源によって制約を受けます。

このシステムは、他の市販の優遇額読み取りシステム（1995年時点）よりも優れていました。このシステムはNCRの小切手読み取りシステムに統合され、1996年6月からアメリカの複数の銀行に導入され、1日に数百万枚の小切手を読み取りました。^{[ 55 ]}

シフト不変ニューラルネットワーク

1988年、Wei Zhangらは画像文字認識用にシフト不変ニューラルネットワークを提案した。^{[ 14 ]}^{[ 15 ]}これは、画像特徴層と最後の完全結合層との間の畳み込み接続のみを維持した改良型ネオコグニトロンである。このモデルはバックプロパゲーションを用いて学習された。学習アルゴリズムは1991年にさらに改良され^{[ 56 ]}、一般化能力が向上した。このモデルアーキテクチャは最後の完全結合層を削除することで改良され、医療画像セグメンテーション（1991年）^{[ 50 ]}やマンモグラムにおける乳がんの自動検出（1994年）に応用された。^{[ 51 ]}

1988年には、畳み込みに基づく異なる設計が提案され^{[ 57 ]、} 1次元筋電図畳み込み信号の逆畳み込みによる分解に適用されました。この設計は1989年に、別の逆畳み込みに基づく設計に改良されました^{[ 58 ]}^{[ 59 ] 。}

GPU実装

CNN は 1980 年代に発明されましたが、2000 年代のブレークスルーには、グラフィックスプロセッシングユニット(GPU) での高速実装が必要でした。

2004年、KS OhとK. Jungは、標準的なニューラルネットワークがGPU上で大幅に高速化できることを示しました。その実装は、CPU上で同等の実装と比較して20倍高速でした。^{[ 60 ]} 2005年には、別の論文でも機械学習におけるGPGPUの価値が強調されました。^[⁶¹^]

CNNの最初のGPU実装は、2006年にK. Chellapillaらによって発表されました。彼らの実装はCPUでの同等の実装よりも4倍高速でした。^{[ 62 ]}同時期に、GPUはディープビリーフネットワークの教師なし学習にも使用されました。^{[ 63 ]}^{[ 64 ]}^{[ 65 ]}^{[ 66 ]}

2010年、 IDSIAのDan Ciresanらは、GPU上でディープフィードフォワードネットワークを訓練した。^{[ 67 ]} 2011年には、これをCNNに拡張し、CPUの訓練と比較して60倍の高速化を実現した。^{[ 25 ]} 2011年、このネットワークは画像認識コンテストで優勝し、初めて超人的なパフォーマンスを達成した。^{[ 68 ]}その後、さらに多くのコンテストで優勝し、いくつかのベンチマークで最先端技術を達成した。^{[ 69 ]}^{[ 53 ]}^{[ 28 ]}

その後、アレックス・クリジェフスキーらによる同様のGPUベースのCNNであるAlexNetが、 ImageNet Large Scale Visual Recognition Challenge 2012で優勝した。 ^{[ 70 ]}これはAIブームの初期の触媒的な出来事であった。

GPUを使ったCNNの訓練に比べ、CPUにはあまり注目が集まっていない。(Viebke et al 2019)は、Intel Xeon Phiで利用可能なスレッドレベルおよびSIMDレベルの並列処理によってCNNを並列化する。^[⁷¹^]^[⁷²^]

特徴的な特徴

かつては、画像認識には従来の多層パーセプトロン（MLP）モデルが使用されていました。しかし、ノード間の完全な接続性は次元の呪いを引き起こし、高解像度の画像では計算的に扱いにくくなっていました。RGB カラーチャンネルを持つ1000×1000ピクセルの画像では、完全接続ニューロンあたり300万個の重みがあり、これは大規模に効率的に処理するには多すぎます。

例えば、CIFAR-10では、画像のサイズは32×32×3（幅32、高さ32、色チャンネル3）に限られているため、通常のニューラルネットワークの最初の隠れ層にある1つの全結合ニューロンは、32×32×3 = 3,072個の重みを持つことになります。しかし、200×200の画像では、ニューロンは200×200×3 = 120,000個の重みを持つことになります。

また、このようなネットワークアーキテクチャはデータの空間構造を考慮せず、離れた入力ピクセルを近接したピクセルと同様に扱います。これは、グリッドトポロジーを持つデータ（画像など）における参照の局所性を、計算的にも意味的にも無視します。したがって、ニューロンの完全な接続は、空間的に局所的な入力パターンが支配的な画像認識などの用途では無駄です。

畳み込みニューラルネットワークは、視覚野の行動を模倣するように設計された多層パーセプトロンの一種です。これらのモデルは、自然画像に存在する強い空間的局所相関を利用することで、MLPアーキテクチャがもたらす課題を軽減します。MLPとは対照的に、CNNには以下の際立った特徴があります。

ニューロンの3次元ボリューム。CNNの層は、幅、高さ、奥行きの3次元に配置されたニューロンで構成されています。 ^{[ 73 ]}畳み込み層内の各ニューロンは、受容野と呼ばれる前の層の小さな領域にのみ接続されています。局所的に接続された層と完全に接続された層の両方を含む、異なる種類の層が積み重ねられ、CNNアーキテクチャを形成します。
局所的接続性：受容野の概念に従い、CNNは隣接する層のニューロン間に局所的な接続パターンを強制することで空間的局所性を活用します。このアーキテクチャにより、学習された「フィルタ」が空間的に局所的な入力パターンに対して最も強い応答を生成することが保証されます。このような層を多数積み重ねることで、非線形フィルタは次第にグローバル（つまり、より広いピクセル空間領域に応答する）になり、ネットワークはまず入力の小さな部分の表現を作成し、それらからより広い領域の表現を組み立てます。
共有重み：CNNでは、各フィルターは視野全体に複製されます。これらの複製されたユニットは同じパラメータ（重みベクトルとバイアス）を共有し、特徴マップを形成します。これは、特定の畳み込み層内のすべてのニューロンが、それぞれの応答フィールド内で同じ特徴に反応することを意味します。このようにユニットを複製することで、結果として得られる活性化マップは、視野内の入力特徴の位置がシフトしても等変になり、つまり並進等変となります（層のストライドが1である場合）。^{[ 74 ]}
プーリング：CNNのプーリング層では、特徴マップが長方形のサブ領域に分割され、各長方形内の特徴は独立して単一の値にダウンサンプリングされます。ダウンサンプリングは通常、平均値または最大値を用いて行われます。プーリング処理は、特徴マップのサイズを縮小するだけでなく、そこに含まれる特徴にある程度局所的な並進不変性を与え、CNNが特徴の位置の変化に対してより堅牢であることを可能にします。^{[ 16 ]}

これらの特性を組み合わせることで、CNNは視覚問題におけるより優れた一般化を実現します。重み共有により学習する自由パラメータの数が大幅に削減されるため、ネットワーク実行に必要なメモリが削減され、より大規模で強力なネットワークのトレーニングが可能になります。