Sommario:
- Come ha iniziato Hadoop?
- Cosa c'è di così importante in Hadoop?
- Che cosa è lo schema letto?
- Che cos'è l'alveare?
- Che tipo di dati analizza Hadoop?
- Puoi fare un esempio reale di Hadoop?
- Hadoop è già obsoleto o si sta semplicemente trasformando?
Che cos'è Hadoop? È un elefante giocattolo giallo. Non è quello che ti aspettavi? Che ne dici di questo: Doug Cutting - co-creatore di questo progetto di software open source - ha preso in prestito il nome da suo figlio, che per caso ha chiamato il suo elefante giocattolo Hadoop. In breve, Hadoop è un framework software sviluppato da Apache Software Foundation che viene utilizzato per sviluppare elaborazione distribuita ad alta intensità di dati. Ed è un componente chiave in un'altra parola d'ordine che i lettori non sembrano mai averne abbastanza: i big data. Ecco sette cose che dovresti sapere su questo esclusivo software con licenza gratuita.
Come ha iniziato Hadoop?
Dodici anni fa, Google ha creato una piattaforma per manipolare le enormi quantità di dati che stava raccogliendo. Come spesso fa l'azienda, Google ha reso il suo design disponibile al pubblico sotto forma di due documenti: Google File System e MapReduce.
Allo stesso tempo, Doug Cutting e Mike Cafarella stavano lavorando su Nutch, un nuovo motore di ricerca. I due erano anche alle prese con come gestire grandi quantità di dati. Quindi i due ricercatori hanno avuto notizia dei documenti di Google. Quel fortunato incrocio ha cambiato tutto introducendo Cutting e Cafarella in un file system migliore e un modo per tenere traccia dei dati, portando infine alla creazione di Hadoop.
Cosa c'è di così importante in Hadoop?
Oggi, raccogliere dati è più semplice che mai. Avere tutti questi dati presenta molte opportunità, ma ci sono anche sfide:- Enormi quantità di dati richiedono nuovi metodi di elaborazione.
- I dati acquisiti sono in un formato non strutturato.
Successivamente, hanno dovuto affrontare dati non strutturati o dati in formati che i sistemi di database relazionali standard non erano in grado di gestire. Cutting e Cafarella hanno progettato Hadoop per funzionare con qualsiasi tipo di dato: strutturato, non strutturato, immagini, file audio, persino testo. Questo white paper di Cloudera (integratore di Hadoop) spiega perché questo è importante:
-
"Rendendo utilizzabili tutti i tuoi dati, non solo ciò che è nei tuoi database, Hadoop ti consente di scoprire relazioni nascoste e rivela risposte che sono sempre state fuori dalla portata. Puoi iniziare a prendere più decisioni sulla base di dati concreti, invece di intuizioni e guardare a set di dati completi, non solo campioni e riepiloghi ".
Che cosa è lo schema letto?
Come accennato in precedenza, uno dei vantaggi di Hadoop è la sua capacità di gestire dati non strutturati. In un certo senso, questo significa "calciare la lattina lungo la strada". Alla fine i dati hanno bisogno di una sorta di struttura per analizzarli.
È qui che entra in gioco lo schema in lettura. Lo schema a lettura è la fusione del formato in cui si trovano i dati, dove trovare i dati (ricordare che i dati sono sparsi tra più server) e cosa si deve fare ai dati - non è un compito semplice. È stato detto che la manipolazione dei dati in un sistema Hadoop richiede le competenze di un analista aziendale, uno statistico e un programmatore Java. Sfortunatamente, non ci sono molte persone con quelle qualifiche.
Che cos'è l'alveare?
Se Hadoop avrebbe avuto successo, lavorare con i dati doveva essere semplificato. Quindi, la folla open-source si è messa al lavoro e ha creato Hive:-
"Hive fornisce un meccanismo per proiettare la struttura su questi dati e interrogarli utilizzando un linguaggio simile a SQL chiamato HiveQL. Allo stesso tempo, questo linguaggio consente anche ai programmatori di mappe / riduzioni tradizionali di collegare i loro mappatori e riduttori personalizzati quando è scomodo o inefficiente per esprimere questa logica in HiveQL. "
Hive offre il meglio di entrambi i mondi: il personale del database che ha familiarità con i comandi SQL può manipolare i dati e gli sviluppatori che hanno familiarità con lo schema nel processo di lettura sono ancora in grado di creare query personalizzate.
Che tipo di dati analizza Hadoop?
L'analisi dei dati Web è la prima cosa che viene in mente, analizzando i registri Web e il traffico Web al fine di ottimizzare i siti Web. Facebook, ad esempio, è decisamente interessato all'analisi del Web, utilizzando Hadoop per ordinare i terabyte di dati che l'azienda accumula.
Le aziende utilizzano i cluster Hadoop per eseguire analisi dei rischi, rilevamento delle frodi e segmentazione dei clienti. Le società di servizi pubblici utilizzano Hadoop per analizzare i dati dei sensori dalla loro rete elettrica, consentendo loro di ottimizzare la produzione di elettricità. Importanti aziende come Target, 3M e Medtronics utilizzano Hadoop per ottimizzare la distribuzione dei prodotti, le valutazioni del rischio aziendale e la segmentazione della base clienti.
Anche le università sono investite in Hadoop. Brad Rubin, professore associato presso l'Università di St. Thomas in Graduate Programme in Software, ha affermato che la sua esperienza con Hadoop sta aiutando a smistare le abbondanti quantità di dati raccolti dai gruppi di ricerca dell'università.
Puoi fare un esempio reale di Hadoop?
Uno degli esempi più noti è il TimesMachine. Il New York Times ha una raccolta di immagini TIFF di giornali a pagina intera, metadati associati e testi di articoli dal 1851 al 1922 per un totale di terabyte di dati. Derek Gottfrid di New York, utilizzando un sistema EC2 / S3 / Hadoop e un codice specializzato:-
"Ingestione di 405.000 immagini TIFF di grandi dimensioni, 3, 3 milioni di articoli in SGML e 405.000 file XML che mappano articoli in regioni rettangolari nei TIFF. Questi dati sono stati convertiti in 810.000 immagini PNG più intuitive (miniature e immagini complete) e 405.000 file JavaScript. "
Utilizzando server nel cloud dei servizi Web di Amazon, Gottfrid ha affermato di essere in grado di elaborare tutti i dati richiesti per TimesMachine in meno di 36 ore.
Hadoop è già obsoleto o si sta semplicemente trasformando?
Hadoop è in circolazione da oltre un decennio ormai. Ciò ha molti da dire che è obsoleto. Un esperto, il dottor David Rico, ha affermato che "i prodotti IT hanno vita breve. Negli anni dei cani, i prodotti di Google sono circa 70, mentre Hadoop ne ha 56".
Potrebbe esserci del vero in ciò che dice Rico. Sembra che Hadoop stia attraversando una profonda revisione. Per saperne di più, Rubin mi ha invitato a una riunione del gruppo di utenti Hadoop di Twin Cities e l'argomento di discussione è stato Introduzione a YARN:
-
"Apache Hadoop 2 include un nuovo motore MapReduce, che presenta numerosi vantaggi rispetto all'implementazione precedente, tra cui una migliore scalabilità e utilizzo delle risorse. La nuova implementazione si basa su un sistema generale di gestione delle risorse per l'esecuzione di applicazioni distribuite chiamato YARN."