classificationのCNNモデルを使用してボール検出を試しました。
320x240の入力画像を40x40に切り取りそれぞれのクラスを推論しボールが写っている画像の箇所をボールの位置をするようになっています。
入力画像:
ネットワークの各層の出力を可視化した結果:
Input -> Convolution1 (36x36 8 channels)
Convolution1 -> ReLU1 (36x36 8 channels
ReLU1 -> MaxPooling1 (17x17 8 channels)
MaxPooling1 -> Convolution2 (13x13 14 channels)
Convolution2 -> ReLU2 (13x13 14 channels)
ReLU2 -> MaxPooling2 (6x6 14 channels)