Sommario:
- Come vengono utilizzati i Big Data
- Dov'è il valore reale?
- A volte i piccoli dati hanno un impatto più grande (e meno costoso)
Big data è una parola generica utilizzata per indicare la gestione di grandi volumi di dati. Comprendiamo tutti che maggiore è il volume di dati, più diventa complesso. Le soluzioni di database tradizionali spesso non riescono a gestire correttamente grandi volumi di dati a causa della loro complessità e dimensione. Pertanto, gestire grandi volumi di dati ed estrarre informazioni reali è un compito impegnativo. Lo stesso concetto di "valore" si applica anche ai dati di piccole dimensioni.
Come vengono utilizzati i Big Data
Le soluzioni di database convenzionali basate sul concetto RDBMS possono gestire molto bene i dati transazionali e sono ampiamente utilizzati in diverse applicazioni. Ma quando si tratta di gestire un ampio set di dati (dati archiviati ed è in terabyte o petabyte), queste soluzioni di database spesso falliscono. Questi set di dati sono troppo grandi e il più delle volte non si adattano all'architettura dei database tradizionali. In questi giorni, i big data sono diventati un approccio economico alla gestione di grandi quantità di dati. Da un punto di vista organizzativo, l'utilizzo dei big data può essere suddiviso nelle seguenti categorie, in cui risiede il valore reale dei big data:- Uso analitico
Gli analisti dei big data hanno rivelato molti importanti aspetti nascosti dei dati che sono troppo costosi per l'elaborazione. Ad esempio, se dobbiamo verificare l'interesse per gli studenti su un certo nuovo argomento, possiamo farlo analizzando i registri delle presenze giornaliere e altri fatti sociali e geografici. Questi fatti vengono acquisiti nel database. Se non possiamo accedere a questi dati in modo efficiente, non possiamo vedere i risultati.
- Abilita nuovi prodotti
Nel recente passato, molte nuove società Web, come Facebook, hanno iniziato a utilizzare i big data come soluzione per lanciare nuovi prodotti. Sappiamo tutti quanto sia popolare Facebook: ha preparato con successo un'esperienza utente ad alte prestazioni utilizzando i big data.
Dov'è il valore reale?
Diverse soluzioni di big data differiscono nell'approccio in cui archiviano i dati, ma alla fine memorizzano tutti i dati in una struttura di file piatta. In generale, Hadoop è costituito dal file system e da alcune astrazioni dei dati a livello di sistema operativo. Ciò include un motore MapReduce e il file system distribuito Hadoop (HDFS). Un semplice cluster Hadoop include un nodo master e diversi nodi di lavoro. Il nodo principale è costituito da:- Task Tracker
- Job Tracker
- Nome nodo
- Nodo dati
- Task Tracker
- Nodo dati
Alcune implementazioni hanno solo il nodo dati. Il nodo dati è l'area effettiva in cui si trovano i dati. HDFS memorizza file di grandi dimensioni (nell'intervallo da terabyte a petabyte) distribuiti su più macchine. L'affidabilità dei dati su ogni nodo si ottiene replicando i dati su tutti gli host. Pertanto, i dati sono disponibili anche quando uno dei nodi è inattivo. Questo aiuta a ottenere una risposta più rapida contro le query. Questo concetto è molto utile nel caso di applicazioni enormi come Facebook. Come utente, riceviamo una risposta alla nostra richiesta di chat, ad esempio, quasi immediatamente. Prendi in considerazione uno scenario in cui un utente deve attendere a lungo durante la chat. Se il messaggio e la risposta successiva non vengono recapitati immediatamente, quante persone useranno effettivamente questi strumenti di chat?
Tornando all'implementazione di Facebook, se i dati non vengono replicati tra i cluster, non sarà possibile avere un'implementazione accattivante. Hadoop distribuisce i dati su macchine in un cluster più grande e memorizza i file come una sequenza di blocchi. Questi blocchi hanno dimensioni identiche ad eccezione dell'ultimo blocco. La dimensione del blocco e il fattore di replica possono essere personalizzati in base alle esigenze. I file in HDFS seguono rigorosamente l'approccio write-once e quindi possono essere scritti o modificati da un solo utente alla volta. Le decisioni relative alla replica dei blocchi vengono prese dal nodo nome. Il nodo del nome riceve report e risposte a impulsi da ciascuno dei nodi di dati. Le risposte all'impulso garantiscono la disponibilità del nodo dati corrispondente. Il report contiene i dettagli dei blocchi sul nodo dati.
Un'altra implementazione di big data, Cassandra, utilizza anche un concetto di distribuzione simile. Cassandra distribuisce i dati in base alla posizione geografica. Quindi, in Cassandra, i dati sono separati in base alla posizione geografica dell'utilizzo dei dati.
A volte i piccoli dati hanno un impatto più grande (e meno costoso)
Secondo Rufus Pollock di Open Knowledge Foundation, non ha senso creare clamore sui big data mentre i piccoli dati sono ancora il luogo in cui si trova il valore reale.
Come suggerisce il nome, i piccoli dati sono un insieme di dati presi di mira da un insieme più ampio di dati. I piccoli dati intendono spostare l'attenzione dall'uso dei dati e mirano anche a contrastare la tendenza a spostarsi verso i big data. L'approccio per piccoli dati aiuta a raccogliere dati in base a requisiti specifici con meno sforzi. Di conseguenza, è la pratica aziendale più efficiente durante l'implementazione della business intelligence.
Alla base, il concetto di piccoli dati ruota attorno alle aziende che richiedono risultati che richiedono ulteriori azioni. Questi risultati devono essere recuperati rapidamente e anche l'azione successiva deve essere eseguita prontamente. Pertanto, possiamo eliminare i tipi di sistemi comunemente utilizzati nell'analisi dei big data.
In generale, se consideriamo alcuni dei sistemi specifici richiesti per l'acquisizione di big data, un'azienda potrebbe investire nell'impostazione di un sacco di spazio di archiviazione del server, utilizzare sofisticati server di fascia alta e le più recenti applicazioni di data mining per gestire diversi bit di dati, comprese date e orari delle azioni dell'utente, informazioni demografiche e altre informazioni. L'intero set di dati si sposta in un data warehouse centrale, in cui vengono utilizzati algoritmi complessi per ordinare ed elaborare i dati da visualizzare sotto forma di report dettagliati.
Sappiamo tutti che queste soluzioni hanno giovato a molte aziende in termini di scalabilità e disponibilità; ci sono organizzazioni che scoprono che l'adozione di questi approcci richiede uno sforzo sostanziale. È anche vero che in alcuni casi si ottengono risultati simili utilizzando una strategia di data mining meno solida.
I piccoli dati offrono alle organizzazioni un modo per ritirarsi dall'ossessione per le tecnologie più recenti e più recenti che supportano processi aziendali più sofisticati. Le aziende che stanno promuovendo piccoli dati sostengono che dal punto di vista aziendale è importante utilizzare le proprie risorse in modo efficiente, in modo da evitare in una certa misura un eccesso di spesa tecnologica.
Abbiamo discusso molto della realtà dei big data e dei piccoli dati, ma dobbiamo capire che la selezione della piattaforma corretta (big data o piccoli dati) per l'uso corretto è la parte più importante dell'intero esercizio. E la verità è che mentre i big data possono offrire molti vantaggi, non sono sempre i migliori.