D:
Come possono gli ambienti di data warehouse esistenti adattarsi al meglio per soddisfare le esigenze di analisi dei big data?
UN:I singoli progetti di data warehouse devono essere valutati caso per caso. In generale, nel tentativo di estendere la progettazione di un data warehouse esistente per gestire meglio l'analisi dei big data, esiste un processo fondamentale per capire cosa deve essere fatto. I professionisti IT possono chiamare questo "ridimensionamento" o "ridimensionamento".
Webinar: Big Iron, Meet Big Data: liberazione dei dati mainframe con Hadoop & Spark Registrati qui |
Il ridimensionamento in genere implica la ricerca di una potenza di elaborazione sufficiente, una quantità sufficiente di memoria e la possibilità di ospitare attività server più potenti per gestire tutti i set di dati più grandi che verranno elaborati dall'azienda. Al contrario, il ridimensionamento può significare raccogliere cluster di hardware del server e collegarli in rete per correggere i big data.
Alcuni esperti IT hanno suggerito che il metodo più comune con Apache Hadoop e altri popolari strumenti e piattaforme per big data è di ridimensionare e raggruppare l'hardware per ottenere gli effetti desiderati. Tuttavia, altri sottolineano che con la tecnologia odierna, un data warehouse può scalare utilizzando una strategia di acquisizione che aggiunge risorse a un server, ad esempio ottenendo un numero maggiore di core di elaborazione insieme a una maggiore quantità di RAM.
Indipendentemente dal fatto che si ingrandiscano o si ridimensionino, i data warehouse necessitano di risorse hardware fisiche aggiuntive per essere in grado di gestire carichi di lavoro di dati più grandi. Hanno anche bisogno di ulteriore amministrazione umana, il che significa una maggiore formazione per i team interni. Molta pianificazione deve andare nel progetto per determinare quale tipo di stress e pressione avranno i maggiori carichi di lavoro di dati su un sistema legacy esistente al fine di equipaggiarlo per un nuovo ecosistema di big data. Un grosso problema sono i colli di bottiglia dello storage, che richiedono aggiornamenti ai centri di archiviazione e altri tipi di colli di bottiglia delle prestazioni che possono ostacolare un sistema nascente se non vengono risolti.