Atsushi's AI &Data Science Hub

はじめに

近年の画像認識技術の発展に大きく貢献している CNN（Convolutional Neural Network）。このネットワークは、私たちが日常的に目にする画像を、機械が識別しやすい形へと変換する仕組みを持っています。しかし、その内部ではどのような処理が行われているのでしょうか？

本記事では、CNNの基本的な仕組みを直感的に理解できるように、畳み込み層とプーリング層の役割を中心に解説します。また、具体例として手書き数字認識（MNIST）を用いて、どのように特徴が抽出され、最終的な分類が行われるのかを説明します。

CNNは、大きく分けて以下のような層で構成されています。

この流れを通じて、画像の特徴を抽出し、それをもとに分類を行います。

畳み込み層は、画像から特徴を抽出する役割を持ちます。例えば、人間が手書きの「8」を見るとき、

といった特徴を直感的に捉えます。同じように、CNNの畳み込み層は「エッジ（線）」「模様」などの基本的なパターンを検出し、それらを組み合わせてより複雑な特徴を認識していきます。

畳み込み層ではフィルタ（カーネル）と呼ばれる小さな行列を使って画像の各部分をスキャンします。例えば、白黒画像に対して3×3のフィルタを適用すると、9ピクセルごとに計算を行い、新しい特徴マップを作成します。

MNISTの例 MNISTの「8」の画像に畳み込みを適用すると、最初は単純なエッジ（輪郭）の検出が行われます。次に層を重ねるごとに、丸みを帯びた形状が強調され、最終的には「8」の特徴が抽出されるのです。

このように、畳み込み層を重ねることで、人間にとっての「見やすい画像」から、機械が認識しやすい「特徴の抽出されたデータ」へと変換されていきます。

プーリング層は、畳み込み層で得られた特徴マップを圧縮し、計算量を減らすとともに、位置のズレに対するロバスト性 (頑健性) を向上させます。一般的な手法として、最大プーリング (Max Pooling) があり、これは小さな領域ごとに最も強い特徴を選択する方法です。

MNISTの例例えば、「8」の特徴マップに対して2x2の最大プーリングを適用すると、

といった処理が行われます。このおかげで、手書きの「8」が少しずれていたとしても、判別に影響を受けにくくなります。

畳み込み層とプーリング層を通じて特徴が抽出された後、それらの情報は全結合層 (Fully Connected Layer) に送られます。この層では、各特徴が「どの数字に最も近いか」を判断し、最終的にソフトマックス関数 (Softmax) によって、各ラベル (0-9) の確率を出力します。

MNISTの例「8」の画像を入力した場合、最終的な出力は以下のような確率分布になります。

この場合、「8」の確率が最も高いため、「8」として分類されます。

本記事では、CNNの基本的な仕組みを直感的に解説しました。

これにより、手書き数字のような画像データを高精度で認識することが可能になります。 CNNの内部処理は一見複雑でブラックボックスとして扱いたくなってしまいますが、基本的な流れを理解することで、その役割や動作をイメージしやすくなります。