D:
Perché l'inserimento nel machine learning riduce la varianza?
UN:L'aggregazione Bootstrap, o "insaccamento", nell'apprendimento automatico riduce la varianza attraverso la costruzione di modelli più avanzati di insiemi di dati complessi. In particolare, l'approccio di insaccamento crea sottoinsiemi che spesso si sovrappongono per modellare i dati in modo più coinvolto.
Una nozione interessante e diretta di come applicare il bagging è quella di prendere una serie di campioni casuali ed estrarre la media semplice. Quindi, utilizzando lo stesso set di campioni, creare dozzine di sottoinsiemi creati come alberi decisionali per manipolare i risultati finali. La seconda media dovrebbe mostrare un quadro più vero di come quei singoli campioni si relazionano tra loro in termini di valore. La stessa idea può essere applicata a qualsiasi proprietà di qualsiasi set di punti dati.
Download gratuito: Machine Learning e perché è importante |
Poiché questo approccio consolida la scoperta in confini più definiti, diminuisce la varianza e aiuta con il sovradimensionamento. Pensa a un diagramma a dispersione con punti dati piuttosto distribuiti; usando un metodo di insaccamento, gli ingegneri "riducono" la complessità e orientano le linee di scoperta verso parametri più fluidi.
Alcuni parlano del valore del insaccamento come "dividi e conquista" o un tipo di "euristica assistita". L'idea è che attraverso la modellazione di ensemble, come l'uso di foreste casuali, coloro che usano il bagging come tecnica possono ottenere risultati di dati con varianza inferiore. In termini di riduzione della complessità, l'insacco può anche aiutare con un eccesso di adattamento. Pensa a un modello con troppi punti dati: diciamo, collega i punti con 100 punti non allineati. La linea di dati visivi risultante sarà frastagliata, dinamica, volatile. Quindi "appianare" la varianza mettendo insieme serie di valutazioni. Nell'apprendimento d'insieme, questo è spesso pensato come unirsi a diversi "discenti deboli" per fornire un risultato collaborativo di "forte apprendimento". Il risultato è una linea dati più fluida, più sagomata e meno variegata nel modello.
È facile vedere come l'idea del bagging possa essere applicata ai sistemi IT aziendali. I leader aziendali spesso vogliono una "visione a volo d'uccello" di ciò che sta accadendo con prodotti, clienti, ecc. Un modello sovradimensionato può restituire meno dati digeribili e risultati più "dispersi", in cui l'insaccamento può "stabilizzare" un modello e renderlo più utile agli utenti finali.