Casa tendenze Che $ @! è hadoop?

Che $ @! è hadoop?

Sommario:

Anonim

Tutti parlano di Hadoop, la nuova tecnologia calda che è molto apprezzata dagli sviluppatori e potrebbe cambiare il mondo (di nuovo). Ma che cos'è, comunque? È un linguaggio di programmazione? Un database? Un sistema di elaborazione? Un tè indiano accogliente?


La risposta ampia: Hadoop è tutto questo (tranne il tè accogliente) e altro ancora. È una libreria software che fornisce un framework di programmazione per l'elaborazione economica e utile di un'altra parola d'ordine moderna: big data.

Da dove viene Hadoop?

Apache Hadoop fa parte del Progetto Foundation della Apache Software Foundation, un'organizzazione senza fini di lucro la cui missione è "fornire software per il bene pubblico". Pertanto, la libreria Hadoop è un software open source gratuito disponibile per tutti gli sviluppatori.


La tecnologia di base che alimenta Hadoop è stata in realtà inventata da Google. All'inizio, il motore di ricerca non abbastanza gigante aveva bisogno di un modo per indicizzare le enormi quantità di dati che stavano raccogliendo da Internet e trasformarle in risultati significativi e pertinenti per i suoi utenti. Con nulla disponibile sul mercato in grado di soddisfare le loro esigenze, Google ha creato la propria piattaforma.


Queste innovazioni sono state rilasciate in un progetto open source chiamato Nutch, che Hadoop ha successivamente utilizzato come base. In sostanza, Hadoop applica la potenza di Google ai big data in un modo accessibile per aziende di tutte le dimensioni.

Come funziona Hadoop?

Come accennato in precedenza, Hadoop non è una cosa, sono molte cose. La libreria software che è Hadoop è composta da quattro parti primarie (moduli) e una serie di soluzioni aggiuntive (come database e linguaggi di programmazione) che ne migliorano l'uso nel mondo reale. I quattro moduli sono:

  • Hadoop Common: questa è la raccolta di utilità comuni (la libreria comune) che supporta i moduli Hadoop.
  • Hadoop Distributed File System (HDFS): un robusto file system distribuito senza restrizioni sui dati archiviati (il che significa che i dati possono essere strutturati o non strutturati e schematici, in cui molti DFS memorizzeranno solo dati strutturati) che fornisce un accesso ad alta velocità con ridondanza ( HDFS consente di archiviare i dati su più macchine, quindi se una macchina si guasta, la disponibilità viene mantenuta attraverso le altre macchine).
  • Hadoop YARN: questo framework è responsabile della pianificazione dei lavori e della gestione delle risorse del cluster; assicura che i dati siano sufficientemente distribuiti su più macchine per mantenere la ridondanza. YARN è il modulo che rende Hadoop un modo conveniente ed economico per elaborare i big data.
  • Hadoop MapReduce: questo sistema basato su YARN, basato sulla tecnologia di Google, esegue l'elaborazione parallela di grandi set di dati (strutturati e non strutturati). MapReduce può essere trovato anche nella maggior parte dei framework di elaborazione dei big data di oggi, inclusi i database MPP e NoSQL.
Tutti questi moduli che lavorano insieme generano elaborazioni distribuite per grandi set di dati. Il framework Hadoop utilizza semplici modelli di programmazione replicati su cluster di computer, il che significa che il sistema può scalare da singoli server a migliaia di macchine per una maggiore potenza di elaborazione, anziché affidarsi esclusivamente all'hardware.


L'hardware in grado di gestire la quantità di potenza di elaborazione richiesta per lavorare con i big data è costoso, per dirla in parole povere. Questa è la vera innovazione di Hadoop: la capacità di suddividere enormi quantità di potenza di elaborazione su più macchine più piccole, ognuna con il proprio calcolo e archiviazione localizzati, insieme alla ridondanza integrata a livello di applicazione per prevenire guasti.

Cosa fa Hadoop?

Detto semplicemente, Hadoop rende i big data accessibili e utilizzabili da tutti.


Prima di Hadoop, le aziende che utilizzavano i big data lo facevano principalmente con database relazionali e data warehouse aziendali (che utilizzano enormi quantità di hardware costoso). Mentre questi strumenti sono ottimi per l'elaborazione di dati strutturati - ovvero dati già ordinati e organizzati in modo gestibile - la capacità di elaborare dati non strutturati era estremamente limitata, al punto da essere praticamente inesistente. Per essere utilizzabili, i dati dovevano prima essere strutturati in modo da adattarsi perfettamente alle tabelle.


Il framework Hadoop modifica tale requisito e lo fa a buon mercato. Con Hadoop, enormi quantità di dati da 10 a 100 gigabyte e oltre, sia strutturate che non strutturate, possono essere elaborate utilizzando server ordinari (di base).


Hadoop offre potenziali applicazioni per big data per aziende di tutte le dimensioni, in ogni settore. Il framework open source consente alle società finanziarie di creare modelli sofisticati per la valutazione del portafoglio e l'analisi dei rischi, oppure i rivenditori online per ottimizzare le risposte alla ricerca e indirizzare i clienti verso i prodotti che hanno maggiori probabilità di acquistare.


Con Hadoop, le possibilità sono davvero illimitate.

Che $ @! è hadoop?