Sommario:
Definizione: cosa significa rilevamento anomalo?
Il rilevamento anomalo è il processo di rilevazione e successiva esclusione di valori anomali da un determinato insieme di dati.
Un valore anomalo può essere definito come un dato o osservazione che si discosta drasticamente dalla norma o dalla media del set di dati. Un valore anomalo può essere causato semplicemente per caso, ma può anche indicare un errore di misurazione o che il set di dati specificato ha una distribuzione pesante.
Ecco uno scenario semplice nel rilevamento anomalo, un processo di misurazione produce costantemente letture tra 1 e 10, ma in alcuni rari casi otteniamo misurazioni superiori a 20.
Queste rare misurazioni oltre la norma sono chiamate valori anomali poiché "si trovano all'esterno" della normale curva di distribuzione.
Techopedia spiega il rilevamento anomalo
In realtà non esiste un metodo matematico standardizzato e rigido per determinare un valore anomalo perché varia davvero a seconda dell'insieme o della popolazione di dati, quindi la sua determinazione e rilevazione alla fine diventa soggettiva. Attraverso il campionamento continuo in un dato campo di dati, è possibile stabilire le caratteristiche di un valore anomalo per facilitare il rilevamento.
Esistono metodi basati su modelli per il rilevamento di valori anomali e presuppongono che i dati siano tutti presi da una distribuzione normale e identificheranno osservazioni o punti, ritenuti improbabili in base alla media o alla deviazione standard, come valori anomali. Esistono diversi metodi per il rilevamento anomalo:
- Test di Grubb per i valori anomali: si basa sul presupposto che i dati siano di una distribuzione normale e rimuove un valore anomalo alla volta con il test ripetuto fino a quando non è possibile trovare altri valori anomali.
- Test Q di Dixon - Basato anche sulla normalità del set di dati, questo metodo verifica la presenza di dati errati. È stato notato che questo dovrebbe essere usato con parsimonia e mai più di una volta in un set di dati.
- Criterio di Chauvenet: viene utilizzato per analizzare se il valore anomalo è falso o è ancora all'interno dei confini e deve essere considerato come parte dell'insieme. Vengono prese la deviazione media e standard e viene calcolata la probabilità che si verifichi il valore anomalo. I risultati determineranno se deve essere incluso o meno.
- Pierce's Criterion - È stato fissato un limite di errore per una serie di osservazioni, oltre le quali tutte le osservazioni verranno scartate poiché comportano già un errore così grande.