Sommario:
Definizione - Cosa significa perturbazione dei dati?
La perturbazione dei dati è una forma di data mining che preserva la privacy per le cartelle cliniche elettroniche (EHR). Esistono due tipi principali di perturbazione dei dati appropriati per la protezione dei dati EHR. Il primo tipo è noto come approccio di distribuzione di probabilità e il secondo tipo è chiamato approccio di distorsione del valore. La pertubazione dei dati è considerata una tecnica relativamente semplice ed efficace per proteggere i dati elettronici sensibili dall'uso non autorizzato.
Techopedia spiega la perturbazione dei dati
La perturbazione dei dati è stata salutata come un'applicazione più efficace della protezione dei dati nell'assistenza sanitaria rispetto alla deindentificazione / nuova identificazione a causa della maggiore probabilità che possano verificarsi attacchi che collegano insiemi di dati pubblici a identificatori o soggetti originali. Proprio per questo motivo, la perturbazione dei dati è salutata come un'applicazione più solida quando si tratta di sicurezza EHR.
L'approccio di distribuzione di probabilità prende i dati e li sostituisce dallo stesso campione di distribuzione o dalla distribuzione stessa. L'approccio alla distorsione del valore disturba i dati mediante rumore multiplo o aggiuntivo, o altri processi randomizzati. È considerato più efficace del precedente tipo di perturbazione. Questo approccio crea classificatori dell'albero decisionale in cui ad ogni elemento viene assegnato un rumore casuale dalla distribuzione gaussiana, per esempio. Tramite il data mining, la distribuzione originale dei dati viene ricostruita dalla sua versione perturbata. Tuttavia, i critici sottolineano che è possibile filtrare il rumore additivo casuale che può comportare compromessi sulla privacy dell'EHR.