Rate of Convergence of Image Classifiers Based on Convolutional Neural Networks
Benjamin Walter
In der vorliegenden Arbeit wird das Konvergenzverhalten von Bildklassifikatoren untersucht, die auf faltenden neuronalen Netzen basieren. Es wird gezeigt, dass die Klassifikatoren, welche durch Kleinste-Quadrate?Schätzer als Plug-In Klassifikatoren definiert werden, dimensionsfreie Konvergenzraten für die Differenz des Missklassifikationsrisikos der Schätzung und dem optimalen Missklassifikationsrisiko erzielen und somit den Fluch der hohen Dimension umgehen. Diese Analyse liefert eine theoretische Erklärung für die Nützlichkeit der Komponenten von faltenden neuronalen Netzen in der Bildklassifikation, gibt theoretische Anhaltspunkte für eine geeignete Wahl der Netzwerkparameter und liefert einen theoretischen Hinweis für den Vorteil dieser Architekturen gegenüber anderen Klassifizierungsmethoden.
In vorhergehenden Arbeiten konnte im Rahmen der Regressionsschätzung gezeigt werden, dass Neuronale?Netze-Schätzer unter kompositionellen Annahmen an die zu schätzende Regressionsfunktion eine dimensi?onsfreie Konvergenzrate erreichen. Die so erzielten Ergebnisse lieferten bisher allerdings keine theoretische Begründung für die Überlegenheit von faltenden neuronalen Netzen gegenüber anderen Netzwerkarchi?tekturen in Anwendungen der Bildklassifikation. Um dies zu ermöglichen, wird der obige Ansatz auf die Bildklassifikation übertragen, indem Struktur- und Glattheitsannahmen an die a-posteriori Wahrscheinlichkeit formuliert werden. Auf diese Weise werden drei statistische Modelle zur Bildklassifikation eingeführt, in denen das Konvergenzverhalten geeigneter Klassifikatoren untersucht wird.
Das erste Modell beinhaltet die folgenden grundlegenden Beobachtungen zur Bildklassifikation: Zum einen hängt die Klasse eines Bildes von der Existenz von bestimmten Objekten ab, die möglicherweise deutlich kleiner als der gesamte Bildbereich sind, und zum anderen lassen sich Teilbereiche eines Bildes hierarchisch aus benachbarten kleineren Bereichen zusammensetzen. Das zweite Modell wird um den Aspekt ergänzt, dass es nur auf den ungefähren relativen Abstand von Merkmalen der Objekte zueinander ankommt. Die für das zweite Modell eingeführten Netzwerkarchitekturen von faltenden neuronalen Netzen enthalten insbesondere lokale Pooling Schichten. Für das dritte Modell wird ein allgemeinerer Rahmen eingeführt, in dem Bilder als Zufallsvariablen mit Werten in einem Funktionenraum betrachtet werden, wobei die beobachtete Stichprobe durch Diskretisierung solcher Zufallsvariablen gebildet wird. Es wird dann ein Modell für die funktionale a-posteriori Wahrscheinlichkeit eingeführt, welches Klassifikationsprobleme beinhaltet, bei denen die Rotation von Objekten um beliebige Winkel irrelevant für eine korrekte Klassifizierung ist. Für dieses Modell wird eine dimensionsfreie Konvergenzrate erzielt, wenn ein von der Auflösung der diskretisierten Bilder abhängiger Fehlerterm vernachlässigt wird.
Für die Verifizierung der entsprechenden Resultate werden Approximationseigenschaften für faltende neu?ronale Netze hergeleitet und die Komplexität der Funktionsklassen dieser Netzwerkarchitekturen beschränkt.
Abschließend wird das Verhalten der eingeführten Bildklassifikatoren bei endlichem Stichprobenumfang ana?lysiert. Hierfür werden die Klassifikatoren sowohl auf simulierte als auch auf reale Bilddatensätze angewendet und die Ergebnisse mit verschiedenen alternativen Klassifikationsmethoden verglichen.