クラス分類モデルを用いたサッカーボール検出

classificationのCNNモデルを使用してボール検出を試しました。
320x240の入力画像を40x40に切り取りそれぞれのクラスを推論しボールが写っている画像の箇所をボールの位置をするようになっています。

入力画像:

切り取った画像:
学習結果:

ネットワークの各層の出力を可視化した結果:
Input -> Convolution1 (36x36 8 channels)

Convolution1 -> ReLU1 (36x36 8 channels

ReLU1 -> MaxPooling1 (17x17 8 channels)

MaxPooling1 -> Convolution2 (13x13 14 channels)

Convolution2 -> ReLU2 (13x13 14 channels)

ReLU2 -> MaxPooling2 (6x6 14 channels)