Analisi Hadoop: non così facile su più origini dati

2025

Sommario:

Dati da diverse fonti difficili da connettere e mappare
Gli esperti Hadoop tentano di unire i dati insieme

Hadoop è il luogo ideale per scaricare dati per l'elaborazione di analisi o per modellare volumi maggiori di una singola origine dati che non sono possibili con i sistemi esistenti. Tuttavia, poiché le aziende trasferiscono dati da molte fonti in Hadoop, vi è una crescente domanda per l'analisi dei dati attraverso fonti diverse, che può essere estremamente difficile da raggiungere. Questo post è il primo di una serie in tre parti che spiega i problemi che le organizzazioni affrontano, mentre tentano di analizzare diverse fonti e tipi di dati all'interno di Hadoop e come risolvere queste sfide. Il post di oggi si concentra sui problemi che si verificano quando si combinano più fonti interne. I prossimi due post spiegano perché questi problemi aumentano in complessità, con l'aggiunta di fonti di dati esterne e in che modo nuovi approcci aiutano a risolverli.

Dati da diverse fonti difficili da connettere e mappare

I dati provenienti da diverse fonti hanno strutture diverse che rendono difficile connettere e mappare i tipi di dati insieme, anche i dati provenienti da fonti interne. La combinazione di dati può essere particolarmente difficile se i clienti hanno più numeri di conto o un'organizzazione ha acquisito o unito con altre società. Negli ultimi anni, alcune organizzazioni hanno tentato di utilizzare le applicazioni di data discovery o data science per analizzare i dati provenienti da più fonti archiviate in Hadoop. Questo approccio è problematico perché implica molte congetture: gli utenti devono decidere quali chiavi esterne utilizzare per connettere varie origini dati e fare ipotesi durante la creazione di sovrapposizioni di modelli di dati. Queste ipotesi sono difficili da testare e spesso errate se applicate su larga scala, il che porta a un'analisi errata dei dati e alla sfiducia nelle fonti.

Gli esperti Hadoop tentano di unire i dati insieme

Pertanto, le organizzazioni che desiderano analizzare i dati attraverso le origini dei dati hanno fatto ricorso all'assunzione di esperti Hadoop per creare script personalizzati e specifici per l'origine per unire i set di dati. Questi esperti di Hadoop di solito non sono esperti di integrazione dei dati o di risoluzione delle entità, ma fanno del loro meglio per soddisfare le esigenze immediate dell'organizzazione. Questi esperti in genere usano Pig o Java per scrivere regole rigide e veloci che determinano come combinare dati strutturati da fonti specifiche, ad esempio la corrispondenza di record basati su un numero di account. Una volta che uno script per due fonti è stato scritto, se è necessario aggiungere una terza fonte, il primo script deve essere gettato via e un nuovo script progettato per combinare tre fonti specifiche. La stessa cosa accade se viene aggiunta un'altra fonte e così via. Questo approccio non solo è inefficiente, ma fallisce anche se applicato su larga scala, gestisce i casi limite in modo inadeguato, può provocare un gran numero di record duplicati e spesso unisce molti record che non devono essere combinati.

Analisi Hadoop: non così facile su più origini dati

Sommario:

Dati da diverse fonti difficili da connettere e mappare

Gli esperti Hadoop tentano di unire i dati insieme

In che modo l'analisi dei dati iot e i dispositivi di fitness personale possono mantenerti più sano

Di più non è sempre meglio. come possono le organizzazioni ridurre il rumore nei loro dati per ottenere analisi mirate e accurate?

In che modo l'analisi dei dati può aiutare le aziende più piccole a competere con concorrenti più grandi?

Scelta dell'editore

Cos'è la pena di morte usenet (udp)? - definizione da techopedia

Che cos'è il codice gonfio? - definizione da techopedia

Cos'è l'installazione? - definizione da techopedia

Cos'è un nome schermo? - definizione da techopedia

Scelta dell'editore

Che cos'è un linguaggio di scripting? - definizione da techopedia

Che cos'è un semaforo? - definizione da techopedia

Che cos'è un kit di sviluppo software (sdk)? - definizione da techopedia

Che cos'è il gestore del codice sorgente (scm)? - definizione da techopedia

Scelta dell'editore

Cos'è un punto di pareggio? - definizione da techopedia

Cos'è un breakpoint in c? - definizione da techopedia

Che cos'è un oggetto helper del browser (bho)? - definizione da techopedia

Cos'è il Bubble sort? - definizione da techopedia

Scelta dell'editore

Che cos'è la sap hana? - definizione da techopedia

Che cos'è un architetto di rete? - definizione da techopedia

Che cos'è opensuse? - definizione da techopedia

Cos'è l'unità? - definizione da techopedia

Scelta dell'editore

Che cos'è un percorso adattivo? - definizione da techopedia

Cosa sono i microdati? - definizione da techopedia

Che cos'è un servizio Web? - definizione da techopedia

Che cos'è una struttura di dati di array? - definizione da techopedia

Categorie popolari