Sommario:
Definizione - Cosa significano dati sporchi?
I dati sporchi si riferiscono a dati che contengono informazioni errate. Può anche essere usato quando si fa riferimento a dati che sono in memoria e non ancora caricati in un database. La completa rimozione di dati sporchi da una fonte è impraticabile o praticamente impossibile.
I seguenti dati possono essere considerati come dati sporchi:
- Dati fuorvianti
- Dati duplicati
- Dati errati
- Dati imprecisi
- Dati non integrati
- Dati che violano le regole aziendali
- Dati senza una formattazione generalizzata
- Dati punteggiati o digitati in modo errato
Techopedia spiega Dirty Data
Oltre all'immissione errata dei dati, è possibile generare dati sporchi a causa di metodi impropri nella gestione e nella memorizzazione dei dati. Alcuni tipi di dati sporchi sono spiegati di seguito:
- Dati errati: per garantire che i dati siano validi o corretti, il valore inserito deve essere conforme ai valori validi del campo. Ad esempio, il valore immesso nel campo del mese deve essere compreso tra 1 e 12 o l'età di un individuo deve essere inferiore a 130. La correttezza del valore dei dati può essere imposta a livello di programmazione mediante tabelle di ricerca o con controlli di modifica.
- Dati imprecisi: è possibile che un valore di dati possa essere corretto, ma non accurato. A volte, è pratico esaminare altri file o campi per scoprire se il valore dei dati è accurato in base al contesto in cui viene utilizzato. Tuttavia, l'accuratezza può spesso essere convalidata solo mediante verifica manuale.
- Violazioni delle regole aziendali: i dati che violano le regole aziendali sono un altro tipo di dati sporchi. Ad esempio, una data di validità deve sempre precedere una data di scadenza. Un altro esempio di violazione delle regole aziendali può essere il reclamo di assicurazione Medicare di un paziente in cui il paziente potrebbe essere ancora al di sotto dell'età pensionabile e non avere diritto a Medicare.
- Dati incoerenti: la ridondanza dei dati non selezionata porta a incoerenze dei dati. Ogni organizzazione è interessata da dati incoerenti e ripetitivi. Ciò è particolarmente tipico con i dati dei clienti.
- Dati incompleti: i dati con valori mancanti sono il tipo principale di dati incompleti.
- Dati duplicati: possono verificarsi dati duplicati a causa di invii ripetuti, unione non corretta dei dati o errore dell'utente.
Al fine di aumentare la qualità dei dati e prevenire dati sporchi, le organizzazioni dovrebbero incorporare metodologie per garantire la completezza, la validità, la coerenza e la correttezza dei dati.




