Casa Audio In che modo il max pooling aiuta a rendere alexnet un'ottima tecnologia per l'elaborazione delle immagini?

In che modo il max pooling aiuta a rendere alexnet un'ottima tecnologia per l'elaborazione delle immagini?

Anonim

D:

In che modo il max pooling aiuta a rendere AlexNet un'ottima tecnologia per l'elaborazione delle immagini?

UN:

In AlexNet, un'innovativa rete neurale convoluzionale, il concetto di max pooling è inserito in un modello complesso con più livelli convoluzionali, in parte per aiutare con l'adattamento e semplificare il lavoro che la rete neurale svolge nel lavorare con le immagini con ciò che gli esperti chiamano una "strategia di downsampling non lineare".

AlexNet è ampiamente considerata come una CNN piuttosto grande, dopo aver vinto l'ILSVRC 2012 (ImageNet su larga scala del riconoscimento visivo), che è visto come un evento spartiacque per l'apprendimento automatico e il progresso della rete neurale (alcuni lo chiamano le "Olimpiadi" della visione artificiale ).

Nel quadro della rete, in cui la formazione è suddivisa in due GPU, ci sono cinque livelli convoluzionali, tre livelli completamente collegati e un'implementazione di pooling massima.

In sostanza, il pooling massimo prende il "pool" di output da una raccolta di neuroni e li applica ai valori di un livello successivo. Un altro modo per comprenderlo è che un approccio di pooling massimo può consolidare e semplificare i valori al fine di adattare il modello in modo più appropriato.

Il pooling massimo può aiutare a calcolare i gradienti. Si potrebbe dire che "riduce l'onere del calcolo" o "si riduce il sovradimensionamento" - attraverso il downsampling, il pooling massimo coinvolge ciò che viene chiamato "riduzione della dimensionalità".

La riduzione della dimensionalità affronta il problema di avere un modello complicato che è difficile da gestire attraverso una rete neurale. Immagina una forma complessa, con molti piccoli contorni frastagliati e ogni piccola parte di questa linea rappresentata da un punto dati. Con la riduzione della dimensionalità, gli ingegneri stanno aiutando il programma di apprendimento automatico a "ridurre" o campionare meno punti dati, per rendere il modello nel suo insieme più semplice. Ecco perché se guardi un livello di pooling massimo e il suo output, a volte puoi vedere una pixelizzazione più semplice corrispondente a una strategia di riduzione della dimensionalità.

AlexNet utilizza anche una funzione chiamata unità lineari rettificate (ReLU) e il pooling massimo può essere complementare a questa tecnica nell'elaborazione delle immagini attraverso la CNN.

Gli esperti e coloro che sono coinvolti nel progetto hanno fornito numerosi modelli visivi, equazioni e altri dettagli per mostrare la build specifica di AlexNet, ma in senso generale, puoi pensare al max pooling come coalescenza o consolidamento dell'output di più neuroni artificiali. Questa strategia fa parte della struttura generale della CNN, che è diventata sinonimo di visione artificiale e classificazione delle immagini all'avanguardia.

In che modo il max pooling aiuta a rendere alexnet un'ottima tecnologia per l'elaborazione delle immagini?