Sommario:
SQL su Hadoop è un gruppo di strumenti applicativi analitici che combinano query ed elaborazione di dati in stile SQL con i più recenti elementi del framework di dati Hadoop. L'emergere di SQL su Hadoop è uno sviluppo importante per l'elaborazione dei big data perché consente a gruppi più ampi di persone di lavorare con successo con il framework di elaborazione dei dati Hadoop eseguendo query SQL sugli enormi volumi di big data elaborati da Hadoop. Ovviamente, il framework Hadoop in precedenza non era così accessibile alle persone, soprattutto in termini di capacità di interrogazione. Sulla base dello sviluppo, sono stati messi a punto diversi strumenti che promettono di migliorare la produttività delle imprese quando si tratta di elaborare e analizzare i big data con qualità e velocità. Non è inoltre necessario investire molto nell'apprendimento dello strumento, come dovrebbero fare le conoscenze tradizionali di SQL.
Definizione di SQL su Hadoop
SQL su Hadoop è un gruppo di applicazioni che consente di eseguire query in stile SQL su big data ospitati dal framework di elaborazione dati Hadoop. Ovviamente, l'interrogazione, il recupero e l'analisi dei dati sono diventati più facili con l'aggiunta di SQL su Hadoop. Poiché SQL era stato originariamente progettato per database relazionali, doveva essere modificato in base al modello Hadoop 1 che comprende MapReduce e Hadoop Distributed File System (HDFS) e al modello Hadoop 2 che non ha MapReduce e HDFS.
Uno dei primi sforzi per combinare SQL con Hadoop ha portato alla creazione del data warehouse Hive con il software HiveQL in grado di tradurre query in stile SQL in lavori MapReduce. Successivamente, sono state sviluppate diverse applicazioni che potrebbero svolgere lavori simili. Tra gli strumenti successivi spiccano Drill, BigSQL, HAWQ, Impala, Hadapt, Stinger, H-SQL, Splice Machine, Presto, PolyBase, Spark, JethroData, Shark (Hive on Spark) e Tez (Hive on Tez).