Sommario:
- Dati da diverse fonti difficili da connettere e mappare
- Gli esperti Hadoop tentano di unire i dati insieme
Hadoop è il luogo ideale per scaricare dati per l'elaborazione di analisi o per modellare volumi maggiori di una singola origine dati che non sono possibili con i sistemi esistenti. Tuttavia, poiché le aziende trasferiscono dati da molte fonti in Hadoop, vi è una crescente domanda per l'analisi dei dati attraverso fonti diverse, che può essere estremamente difficile da raggiungere. Questo post è il primo di una serie in tre parti che spiega i problemi che le organizzazioni affrontano, mentre tentano di analizzare diverse fonti e tipi di dati all'interno di Hadoop e come risolvere queste sfide. Il post di oggi si concentra sui problemi che si verificano quando si combinano più fonti interne. I prossimi due post spiegano perché questi problemi aumentano in complessità, con l'aggiunta di fonti di dati esterne e in che modo nuovi approcci aiutano a risolverli.
Dati da diverse fonti difficili da connettere e mappare
I dati provenienti da diverse fonti hanno strutture diverse che rendono difficile connettere e mappare i tipi di dati insieme, anche i dati provenienti da fonti interne. La combinazione di dati può essere particolarmente difficile se i clienti hanno più numeri di conto o un'organizzazione ha acquisito o unito con altre società. Negli ultimi anni, alcune organizzazioni hanno tentato di utilizzare le applicazioni di data discovery o data science per analizzare i dati provenienti da più fonti archiviate in Hadoop. Questo approccio è problematico perché implica molte congetture: gli utenti devono decidere quali chiavi esterne utilizzare per connettere varie origini dati e fare ipotesi durante la creazione di sovrapposizioni di modelli di dati. Queste ipotesi sono difficili da testare e spesso errate se applicate su larga scala, il che porta a un'analisi errata dei dati e alla sfiducia nelle fonti.
Gli esperti Hadoop tentano di unire i dati insieme
Pertanto, le organizzazioni che desiderano analizzare i dati attraverso le origini dei dati hanno fatto ricorso all'assunzione di esperti Hadoop per creare script personalizzati e specifici per l'origine per unire i set di dati. Questi esperti di Hadoop di solito non sono esperti di integrazione dei dati o di risoluzione delle entità, ma fanno del loro meglio per soddisfare le esigenze immediate dell'organizzazione. Questi esperti in genere usano Pig o Java per scrivere regole rigide e veloci che determinano come combinare dati strutturati da fonti specifiche, ad esempio la corrispondenza di record basati su un numero di account. Una volta che uno script per due fonti è stato scritto, se è necessario aggiungere una terza fonte, il primo script deve essere gettato via e un nuovo script progettato per combinare tre fonti specifiche. La stessa cosa accade se viene aggiunta un'altra fonte e così via. Questo approccio non solo è inefficiente, ma fallisce anche se applicato su larga scala, gestisce i casi limite in modo inadeguato, può provocare un gran numero di record duplicati e spesso unisce molti record che non devono essere combinati.