Perché hadoop è una combinazione perfetta per il sequenziamento del genoma

2026

Sommario:

Il presente e il futuro della genomica
I bisogni dell'industria della mappatura del genoma

La genomica clinica è un argomento affascinante, in cui le persone stanno lavorando su tecnologie all'avanguardia per elaborare risultati rapidi e precisi. Ci sono molti sequencer del genoma disponibili sul mercato e stanno producendo petabyte di dati di sequenza, e la crescita nel sequenziamento produrrà exabyte di dati nel prossimo futuro. Qui, Hadoop è la piattaforma perfetta per l'elaborazione di flussi di lavoro di genomica complessi. Hadoop può archiviare e ordinare enormi quantità di informazioni e può anche fornire analisi significative. (Per avere un'idea della quantità di dati che ciò comporta veramente, leggi Comprensione di bit, byte e loro multipli.)

Il presente e il futuro della genomica

Oggi, la mappatura del genoma ha raggiunto il suo apice di sviluppo. Molte persone associate all'industria della genomica esplodono di curiosità e, poiché si stanno presentando nuove opportunità, una tecnologia migliore è il bisogno dell'ora. Il sequenziamento del genoma è un'attività molto ripetitiva e ad alta intensità di risorse. Solo nel 2013 sono stati prodotti circa 15 petabyte di dati e solo da 2.000 sequencer. Questa incredibile quantità includeva 300 KB di dati sequenziati sul genoma umano. A questo ritmo di produzione dei dati, si può stimare che entro il 2018 saranno prodotti circa un esabyte di dati. Ciò sarà dovuto alla crescita dei sequencer, che produrranno sempre più dati per serie. Un altro motivo è l'avvento di macchine per sequenziamento del genoma estremamente potenti ed economiche. Dal 2008, il prezzo di queste macchine è in costante calo. Ciò è dovuto alle potenti macchine di prossima generazione che sono entrate nel mercato.

I bisogni dell'industria della mappatura del genoma

Algoritmi complessi vengono utilizzati per elaborare i dati raccolti dal genoma umano. Quindi, queste informazioni devono essere archiviate. Potrebbe essere rivisto in futuro per il confronto con i dati originali. Il compito di elaborare e archiviare 100 GB di dati non è troppo difficile, specialmente quando lo si fa con le potenti macchine impiegate nei centri di sequenziamento. Gli studi dimostrano che questa quantità di dati può essere elaborata in circa 1.000 ore di CPU, quindi è molto semplice. A questo ritmo di avanzamento tecnico, è evidente che l'industria del genoma elaborerà presto migliaia di gigabyte in pochi secondi.