Casa tendenze In che modo hadoop aiuta a risolvere il problema dei big data

In che modo hadoop aiuta a risolvere il problema dei big data

Sommario:

Anonim

I big data sono … beh … di grandi dimensioni! La quantità esatta di dati che possono essere classificati come big data non è molto chiara, quindi non impantaniamoci in quel dibattito. Per una piccola azienda abituata a gestire i dati in gigabyte, 10 TB di dati sarebbero GRANDI. Tuttavia, per aziende come Facebook e Yahoo, i petabyte sono grandi.


La dimensione dei big data rende impossibile (o almeno proibitivo) archiviarlo in un archivio tradizionale come database o filer convenzionali. Stiamo parlando dei costi per l'archiviazione di gigabyte di dati. L'uso di filer di archiviazione tradizionali può costare un sacco di soldi per archiviare i big data.


Qui daremo uno sguardo ai big data, alle sue sfide e a come Hadoop può aiutare a risolverli. Innanzitutto, le maggiori sfide dei big data.


I big data non sono strutturati o semi-strutturati

Molti big data non sono strutturati. Ad esempio, i dati del registro del flusso di clic potrebbero apparire come:


timestamp, user_id, page, referrer_page


La mancanza di struttura rende i database relazionali non adatti per l'archiviazione di big data. Inoltre, non molti database sono in grado di gestire la memorizzazione di miliardi di righe di dati.

Non ha senso archiviare i big data se non possiamo elaborarli

La memorizzazione di big data fa parte del gioco. Dobbiamo elaborarlo per estrarne l'intelligenza. I sistemi di archiviazione tradizionali sono piuttosto "stupidi", nel senso che memorizzano solo bit. Non offrono alcuna potenza di elaborazione.


Il modello di elaborazione dati tradizionale ha i dati archiviati in un cluster di archiviazione, che viene copiato in un cluster di elaborazione per l'elaborazione. I risultati vengono riscritti nel cluster di archiviazione.


Questo modello, tuttavia, non funziona abbastanza per i big data perché copiare così tanti dati in un cluster di calcolo potrebbe richiedere troppo tempo o impossibile. Quindi qual è la risposta?


Una soluzione consiste nell'elaborare i big data in atto, ad esempio in un cluster di archiviazione che raddoppia come un cluster di calcolo.


Come abbiamo visto sopra, i big data sfidano l'archiviazione tradizionale. Quindi come gestiamo i big data?

Come Hadoop risolve il problema dei big data

Hadoop è progettato per funzionare su un cluster di macchine

Cominciamo con un esempio. Diciamo che dobbiamo archiviare molte foto. Inizieremo con un singolo disco. Quando superiamo un singolo disco, possiamo usare alcuni dischi impilati su una macchina. Quando massimizziamo tutti i dischi su una singola macchina, dobbiamo ottenere un gruppo di macchine, ognuna con un gruppo di dischi.


Questo è esattamente il modo in cui Hadoop è costruito. Hadoop è progettato per funzionare su un cluster di macchine fin dall'inizio.



I cluster Hadoop si ridimensionano orizzontalmente

È possibile ottenere più spazio di archiviazione e potenza di calcolo aggiungendo più nodi a un cluster Hadoop. Ciò elimina la necessità di acquistare hardware sempre più potente e costoso.


Hadoop può gestire dati non strutturati / semi-strutturati

Hadoop non applica uno schema sui dati memorizzati. Può gestire testo e dati binari arbitrari. Quindi Hadoop può facilmente digerire qualsiasi dato non strutturato.


I cluster Hadoop forniscono archiviazione e elaborazione

Abbiamo visto come disporre di cluster di archiviazione ed elaborazione separati non sia la soluzione migliore per i big data. I cluster Hadoop, tuttavia, forniscono storage e elaborazione distribuita tutto in uno.

Il caso aziendale di Hadoop

Hadoop fornisce archiviazione per big data a costi ragionevoli

La memorizzazione di big data utilizzando l'archiviazione tradizionale può essere costosa. Hadoop è costruito attorno all'hardware delle materie prime, quindi può fornire spazio di archiviazione abbastanza grande a un costo ragionevole. Hadoop è stato utilizzato sul campo su scala petabyte.


Uno studio di Cloudera ha suggerito che le aziende di solito spendono da $ 25.000 a $ 50.000 per terabyte all'anno. Con Hadoop, questo costo scende a qualche migliaio di dollari per terabyte all'anno. Man mano che l'hardware diventa sempre più economico, questo costo continua a diminuire.


Hadoop consente l'acquisizione di nuovi o più dati

A volte le organizzazioni non acquisiscono un tipo di dati perché era troppo costoso per memorizzarli. Poiché Hadoop fornisce archiviazione a costi ragionevoli, questo tipo di dati può essere acquisito e archiviato.


Un esempio potrebbe essere rappresentato dai registri dei clic del sito Web. Poiché il volume di questi registri può essere molto elevato, non molte organizzazioni li hanno acquisiti. Ora con Hadoop è possibile acquisire e archiviare i registri.


Con Hadoop, puoi archiviare i dati più a lungo

Per gestire il volume di dati archiviati, le aziende eliminano periodicamente i dati più vecchi. Ad esempio, è possibile archiviare solo i registri degli ultimi tre mesi, mentre i registri più vecchi sono stati eliminati. Con Hadoop è possibile memorizzare i dati storici più a lungo. Ciò consente di eseguire nuove analisi su dati storici meno recenti.


Ad esempio, prendere i registri dei clic da un sito Web. Alcuni anni fa, questi registri sono stati archiviati per un breve periodo di tempo per calcolare statistiche come pagine popolari. Ora con Hadoop è possibile archiviare questi registri di clic per un periodo di tempo più lungo.


Hadoop fornisce analisi scalabili

Non ha senso conservare tutti questi dati se non possiamo analizzarli. Hadoop non solo fornisce storage distribuito, ma anche elaborazione distribuita, il che significa che possiamo eseguire il crunch di un grande volume di dati in parallelo. Il framework di calcolo di Hadoop si chiama MapReduce. MapReduce ha dimostrato la scala dei petabyte.


Hadoop offre analisi dettagliate

Native MapReduce supporta Java come linguaggio di programmazione principale. Anche altre lingue come Ruby, Python e R possono essere utilizzate.


Naturalmente, scrivere codice MapReduce personalizzato non è l'unico modo per analizzare i dati in Hadoop. Disponibile Riduzione mappe di livello superiore. Ad esempio, uno strumento chiamato Pig prende l'inglese come lingua del flusso di dati e li traduce in MapReduce. Un altro strumento, Hive, accetta query SQL e le esegue utilizzando MapReduce.


Gli strumenti di Business Intelligence (BI) possono fornire un livello di analisi ancora più elevato. Esistono strumenti anche per questo tipo di analisi.


Questo contenuto è tratto da "Hadoop Illuminated" di Mark Kerzner e Sujee Maniyam. È stato reso disponibile tramite Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Unported License.

In che modo hadoop aiuta a risolvere il problema dei big data