Di Techopedia Staff, 8 giugno 2016
Takeaway: l' host Eric Kavanaugh discute le innovazioni nella tecnologia dei database con gli esperti Dez Blanchfield, Robin Bloor e Bert Scalzo.
Al momento non sei collegato. Accedi o registrati per vedere il video.
Eric Kavanagh: onorevoli colleghi, è mercoledì, alle quattro orientali. Sono a New Orleans, l'estate sta arrivando, significa che fa caldo! È tempo di Hot Technologies, sì, sì davvero. Mi chiamo Eric Kavanagh, sarò il tuo ospite. Ho intenzione di calciare la palla qui per Hot Technologies. L'argomento di oggi è "Forward Momentum: Moving Relational Beyond Traditional." Gente, oggi abbiamo tre esperti di database al telefono, quindi qualsiasi domanda tu abbia, invia loro quelli difficili, non essere timido. Abbiamo un sacco di buoni contenuti in fila per te oggi. C'è davvero un posto per te, abbastanza per me. Certo, quest'anno è caldo. Stiamo parlando di tecnologie a caldo in questo spettacolo, che è una partnership con i nostri amici di Techopedia. E stiamo andando fino alla base della gestione delle informazioni oggi, che ovviamente è il database. Parleremo di come siamo arrivati qui, cosa sta succedendo oggi e cosa sta succedendo in futuro. Molte cose interessanti stanno succedendo.
Ovviamente abbiamo una seria innovazione nello spazio del database. È stato un po 'tranquillo per un po'; se parli con alcuni degli analisti del settore, direi probabilmente dall'anno 2005 al 2009 o '10, non sembrava che ci fosse troppo da fare in termini di innovazione. E all'improvviso è scoppiato, come un jailbreak o qualcosa del genere, e ora stanno accadendo tutti i tipi di cose interessanti. Molto di ciò è dovuto alle dimensioni del Web e a tutte le fantastiche proprietà Web che stanno facendo cose diverse e interessanti. Ecco da dove viene il concetto NoSQL. E questo significa due cose diverse: non significa SQL, poiché in esso non supporta SQL, significa anche non solo SQL. C'è un termine "NewSQL" che alcune persone hanno usato. Ma ovviamente, SQL - Structured Query Language - è davvero il fondamento, è la base del query.
Ed è interessante che tutti questi motori NoSQL, cosa sia successo? Bene, sono venuti fuori, c'era molta eccitazione al riguardo, e poi qualche anno dopo, cosa abbiamo iniziato a sentire? Oh, SQL su Hadoop. Bene, tutte queste aziende hanno iniziato a schiaffeggiare le interfacce SQL sui loro strumenti NoSQL, e chiunque si trovi nel mondo della programmazione sa che questo porterà ad alcune sfide e alcune difficoltà, ad alcuni fili incrociati e così via. Quindi scopriremo molte di queste cose oggi.
Ci sono tre nostri presentatori: abbiamo Dez Blanchfield che chiama da Sydney, il nostro Robin Bloor che è in Texas, e così anche Bert Scalzo, anche lui in Texas. Quindi, prima di tutto sentiremo da Dez Blanchfield. Gente, faremo tweet sull'hashtag di #HotTech, quindi sentitevi liberi di inviare i vostri commenti o inviare le vostre domande tramite il componente Domande e risposte della console di webcast o anche attraverso la finestra della chat. E con ciò, Dez Blanchfield, portalo via.
Dez Blanchfield: Grazie, Eric. Ciao a tutti. Quindi cercherò di impostare la scena da un punto di vista di 30.000 piedi del tipo di ciò che è accaduto nell'ultimo decennio e i cambiamenti significativi che abbiamo visto - o almeno un decennio e mezzo - del sistemi di gestione di database e alcuni degli impatti da un punto di vista commerciale o tecnico e alcune delle tendenze che abbiamo subito negli ultimi tempi e ci guidano nella conversazione che stiamo per avere oggi sull'argomento.
La mia immagine di copertina qui è una duna di sabbia, e c'è vento che soffia minuscoli pezzetti di sabbia dalla cima di esso. E di conseguenza, ciò che accade è che la duna di sabbia cammina lentamente da uno spazio all'altro. Ed è un fenomeno sorprendente, dove queste enormi montagne di sabbia alte 40 e 50 piedi, in effetti, si muovono effettivamente. E si muovono molto lentamente, ma si muovono sicuramente, e mentre si muovono, cambiano il paesaggio. Ed è qualcosa da guardare se passi del tempo in un'area in cui le dune di sabbia sono una cosa naturale. Perché un giorno puoi guardare fuori dalla finestra e capire che questa enorme montagna di sabbia, piccoli granelli si sono spostati da soli, in effetti, e che il vento la sposta lentamente da un posto all'altro.
E penso in molti modi, questo è il mondo dei sistemi di database da un po 'di tempo. Fino a molto, molto recentemente, quel piccolo spostamento sotto forma di granelli di sabbia che muoveva una gigantesca montagna di sabbia sotto forma di una duna di sabbia. Nel corso degli anni sono stati introdotti piccoli cambiamenti nelle piattaforme di database ed è stato un ambiente abbastanza stabile e solido attorno ai sistemi e alle piattaforme di database, attraverso il mainframe dell'era di fascia media. Ma di recente, sono successe alcune cose abbastanza significative per le nostre esigenze commerciali e i nostri driver tecnici. Ci guiderò attraverso quelli.
Ritengo che il concetto di base di un database, come lo sapevamo da molti, molti anni, e come avrete sentito nella battuta pre-show, i nostri due esperti che sono in contatto con me oggi hanno avuto una vita in questo spazio e hanno ragione nel condividere i diritti di vantarsi di essere lì quando tutto è iniziato nei primi anni '80. Ma abbiamo visto questo enorme cambiamento nell'ultimo decennio e un po ', e ho intenzione di guidarci rapidamente prima di consegnarlo al Dr. Robin Bloor.
Abbiamo vissuto questa esperienza che io chiamo "più grande, migliore, più veloce, più economica". Come ho detto, la definizione di un database è cambiata. Il panorama in cui le piattaforme di database hanno dovuto affrontare le prestazioni e anche i requisiti tecnici e commerciali è cambiato. Abbiamo assistito a questo aumento della domanda di soluzioni per far fronte a requisiti commerciali più complessi o più complessi. E quindi una rapida occhiata a ciò che in realtà significa, nella mia mente, è che siamo arrivati a una sorta di anni '90 e abbiamo visto la tecnologia del database influenzata dall'introduzione di Internet e dal tipo di ciò che abbiamo chiamato allora Internet scala. Non stavamo solo parlando di persone sedute davanti ai terminali, originariamente simili a terminali di teletype con stampanti fisiche incorporate e 132 colonne di testo che uscivano in carta. Quindi i primi terminali dello schermo verde, che colpiscono con le tastiere.
Ma sai, il nostro mondo era terminali e cavi seriali o cavi di rete che parlavano da molto tempo con i computer. Poi è arrivata Internet, e questa crescita esplosiva di connettività, che non dovevi più collegare al computer. Per accedere a un sistema di database era sufficiente un browser Web. Quindi la tecnologia del database ha dovuto cambiare radicalmente, per gestire la scala di tutto, dalle tecnologie di base del motore di ricerca che sono state utilizzate per indicizzare il mondo e memorizzare un indice di informazioni, nell'esempio della scala del formato del database. E persone come Google e altri hanno fornito una piattaforma per farlo. E sono stati prodotti tutti i nuovi tipi di archiviazione del database, query e indicizzazione. E poi abbiamo avuto siti di musica e siti di film in arrivo.
E poi negli anni 2000, abbiamo visto il boom delle dot-com, e questo ha prodotto un'esplosione ancora più drammatica nel numero di persone che usano sistemi che erano invariabilmente alimentati da un database di qualche forma. In questa fase, i database relazionali hanno ancora affrontato la maggior parte del carico, li abbiamo appena messi su una scatola più grande e siamo andati ai sistemi molto, molto, molto grandi di fascia media che eseguono piattaforme Unix da persone come IBM e Sun e così via . Il boom delle dot-com ha appena reso le cose più grandi e più veloci dal punto di vista dell'hardware, delle prestazioni e ci sono stati alcuni cambiamenti significativi nei motori di database, ma per la parte migliore, era ancora la stessa cosa che avevamo visto per un a lungo.
E poi abbiamo avuto questa era del web 2.0, a cui ci riferiamo. E questo è stato un cambiamento mostruoso, perché all'improvviso abbiamo avuto bisogno di piattaforme di database molto più semplici, e ci doveva essere una scala a forma orizzontale. E questo è stato un cambiamento così significativo nel modo in cui ci siamo avvicinati all'idea di cosa fosse un database. A mio avviso, stiamo ancora recuperando terreno. E ora abbiamo a che fare con tutto questo pantano, e lo dico con uno spin positivo, non una connotazione negativa, questo pantano di quelli che chiamiamo big data, e un'enorme esplosione, e intendo un'esplosione. Questo oltraggioso spostamento verticale sul grafico del numero di opzioni che abbiamo quando parliamo di un database e una qualche forma di capacità di interrogazione relazionale.
E abbastanza interessante, sono personalmente dell'idea che penso che i big data siano davvero solo la punta dell'iceberg. Tendiamo a eccitarci un po 'per quanto riguarda l'impatto dei big data e i tipi di scelte che abbiamo disponibili ora. Abbiamo tutto dai motori NoSQL, abbiamo motori grafici, abbiamo tutti questi diversi tipi di piattaforme su cui possiamo lanciare dati e fare cose con esso. Anche al punto in cui, in effetti, una delle primissime conversazioni che ho avuto con Eric Kavanagh, che è qui con noi oggi, era in corso una conversazione su una cosa chiamata Apache Drill, che è un progetto open source che ti consente di interrogare i dati all'interno di modelli diversi tipi di dati: tutto, dai file CSE non elaborati su un disco rigido, fino ai file system HDFS su scala petabyte. E sai, ti permette di fare queste query in stile SQL di dati strutturati e non strutturati di tutti i tipi di piante entusiasmanti.
Stiamo per vedere che “l'edificio intelligente” diventa una cosa, e vorremmo pensare di avere edifici intelligenti di sicurezza e gestione del calore, ma sto parlando di edifici intelligenti che sanno molto di più su chi sei e dove ti trovi quando entri e fai tutti i tipi di cose ordinate a quel livello, attraverso città intelligenti - interi ecosistemi a livello di città - che sanno come fare le cose in modo intelligente. E oltre a questo, abbiamo questa cosa incredibile che non credo che nessuno al mondo possa comprendere appieno, e questa è la forma dell'Internet of Things. Ci sono stati tutti questi diversi cambiamenti nell'ultimo decennio e un po ', forse due decenni all'incirca, se lo completiamo, che a mio avviso hanno appena influenzato il mondo di ciò che consideriamo i database.
Ci sono state un paio di cose significative che l'hanno reso possibile. Il costo dei dischi rigidi è diminuito drasticamente, e in molti modi è ciò che ha permesso di guidare alcune delle architetture di riferimento come il modello Hadoop, in quanto prendiamo molti dati e li distribuiamo su molti dischi rigidi, e fare cose intelligenti con esso. E in effetti, ciò che è diventato frammentario, a mio avviso, del database relazionale o del modello di unità DB tradizionale. E la RAM è diventata molto, molto economica, e questo ci ha dato una nuova opportunità di giocare con diverse architetture di riferimento come in memoria, e di fare cose come partizionare grosse quantità di dati.
E così questo ci ha dato questa piccola immagine che stiamo guardando ora, che è un diagramma che mostra i tipi di piattaforme disponibili se ti trovi nel panorama dei big data. Ed è molto, molto difficile da leggere, e la ragione di ciò, ci sono troppe informazioni al riguardo. Esistono così tante opzioni per creare, modellare e fabbricare modi per inserire dati in sistemi di database di qualsiasi forma, interrogarli e fare le tradizionali scritture di lettura. E non sono tutti conformi, in realtà pochissimi di essi si conformano persino a qualsiasi standard di stile di base, ma si considerano comunque un database. E ti mostrerò un paio di schermi in un secondo per darti un po 'di contesto su ciò che intendo per il passaggio dagli anni '90 e la scala di Internet, al web 2.0, e quindi l'intera crescita attraverso i big data. Se pensiamo che questo grafico del panorama della tecnologia dei big data sia entusiasmante perché ci sono molte opzioni, diamo un'occhiata a un tasto verticale.
Diamo un'occhiata alla tecnologia di marketing. Ecco le opzioni per i sistemi di gestione dei database o la gestione dei dati all'interno dello spazio mar-tech, quindi la tecnologia legata al marketing. Ora era nel 2011, quindi alcuni anni fa; cinque anni fa, ecco come appariva il paesaggio. Se torno indietro brevemente di una diapositiva, ecco come appare il panorama dei dati di oggi nei vari marchi e offerte che abbiamo nelle tecnologie di database. Ecco come appariva un verticale cinque anni fa, proprio nella tecnologia di marketing.
Ora, se vado alla visione di oggi, questo è come appare ed è completamente impenetrabile. È solo questo muro di marchi e opzioni, ed è migliaia e migliaia di combinazioni di software che si considera nella classe del database, che può catturare, creare o archiviare e recuperare dati in varie forme. E penso che stiamo entrando in un momento molto, molto interessante e coraggioso, dove una volta potevi conoscere i principali marchi, potevi conoscere le cinque o sei diverse piattaforme di Oracle e Informix, DB2 e così via, ed essere quasi un esperto di tutti i marchi disponibili circa 20 anni fa. Dieci anni fa, è diventato un po 'più facile perché alcuni marchi sono caduti, e non tutti i marchi sono stati in grado di far fronte alle dimensioni del boom delle dot-com, e alcune aziende sono appena fallite.
Oggi è assolutamente impossibile essere un esperto di tutta la tecnologia di database esistente, che si tratti di database relazionali o piattaforme standard di gestione di database che siamo venuti a conoscenza negli ultimi due decenni. O probabilmente il caso, i motori più moderni come Neo4j e quei tipi. E quindi penso che stiamo entrando in un mondo molto coraggioso in cui sono disponibili molte opzioni e abbiamo piattaforme in scala su base orizzontale, sia in memoria che su disco ora. Ma penso che sia un momento difficile per i responsabili delle tecnologie e delle decisioni aziendali, perché devono prendere alcune decisioni molto importanti sugli stack tecnologici, che in alcuni casi sono in circolazione da essenzialmente mesi. Diciotto mesi non sono un numero spaventoso ora per alcune delle piattaforme di database open source più interessanti e nuove. E iniziano a fondere le piattaforme e diventano ancora più nuove ed eccitanti.
Penso che avremo una grande conversazione oggi su come tutto ciò ha avuto un impatto sulle piattaforme di database tradizionali e su come stanno rispondendo ad esso, e sui tipi di tecnologie che vengono lanciate a questo. E con questo in mente, passerò ora al Dr. Robin Bloor, e otterrò le sue intuizioni. Robin, oltre a te.
Robin Bloor: Okay, grazie per quello. Sì, questo è un argomento troppo vasto. Voglio dire, se hai appena preso una scheggia di una delle illustrazioni che Dez ti ha appena mostrato, potresti avere una lunga conversazione su una delle schegge. Ma sai, puoi andare in un database - ho guardato database, non lo so, dagli anni '80, e puoi guardare il database in diversi modi. E una delle cose che immaginavo di fare, semplicemente buttare nella conversazione oggi, era parlare del motivo per cui sono avvenute cose dirompenti a livello di hardware. E devi tenere a mente che a livello software sono successe moltissime cose dirompenti, quindi non è il quadro completo di nulla, è solo una questione hardware.
Nemmeno io avrei parlato a lungo, volevo solo darti l'immagine dell'hardware. Un database era costituito da funzionalità di recupero dei dati che abbracciavano CPU, memoria e disco e che stavano cambiando radicalmente. E la ragione per cui lo dico, è che ho imparato a capire il database dal punto di vista di ciò che hai effettivamente fatto. Sai, c'è una differenza nella latenza tra i dati effettivamente nella CPU e i dati che vengono estratti nella CPU dalla memoria, e i dati che vengono estratti dal disco nella memoria e attraverso la CPU. E le vecchie architetture di database stavano solo cercando di bilanciarlo. Sai, stavano solo dicendo: “Bene, questo va molto lentamente, memorizzeremo i dati sul disco in modo che siano in memoria. Proveremo a farlo in un modo davvero accurato in modo che una buona parte dei dati richiesti sia già in memoria. E metteremo i dati sulla CPU il più velocemente possibile. "
E i database erano scritti ai vecchi tempi, le macchine sono scritte per piccoli gruppi. E ora, per gli ignoranti del parallelismo. Perché se hai intenzione di ottenere alcune prestazioni da un cluster, dovrai fare varie cose in parallelo. Il parallelismo fa parte del gioco, niente è come adesso. Camminerò per quello che è successo.
Prima di tutto, disco. Bene, il disco è finito, davvero. È praticamente finita per quanto riguarda i database. Penso che ci siano un certo numero di contesti per l'archiviazione dei dati, e anche data lake molto grandi che girano su Hadoop, il peggior disco rotante è probabilmente praticabile al giorno d'oggi. In realtà, il problema con il disco rotante era che le velocità di lettura non miglioravano particolarmente. E quando la CPU saliva, la velocità di Moore aumentava, una specie di ordine di grandezza, più veloce ogni sei anni. E la memoria stava seguendo la sua scia, quindi quei due stavano ragionevolmente al passo l'uno con l'altro, non era del tutto regolare, ma lo fecero.
Ma la lettura casuale su un disco in cui la testa vola attorno al disco, intendo, a parte qualsiasi altra cosa, è un movimento fisico. E se stai facendo letture casuali da un disco, è incredibilmente lento rispetto alla lettura dalla memoria, è come 100.000 volte più lento. E abbastanza recentemente, la maggior parte delle architetture di database che ho esaminato in modo approfondito in realtà ha appena letto in serie da dischi. Vuoi davvero, in un modo o nell'altro, semplicemente memorizzare nella cache il più possibile dal disco, estrarlo da quel dispositivo lento e inserirlo in un dispositivo veloce. E ci sono molte cose intelligenti che puoi fare con questo, ma è un po 'finita.
E i dischi a stato solido o le unità flash, in realtà, sono quello che sono, stanno sostituendo molto rapidamente il disco rotante. E questo cambia di nuovo completamente, perché il modo in cui i dati sono organizzati su un disco, è organizzato secondo il modo in cui il disco funziona. Si tratta in realtà di una testa che si muove su una superficie rotante, in realtà più teste che si muovono su più superfici di filatura e raccoglie i dati mentre procedono. Un'unità a stato solido è solo un blocco di cose che puoi leggere. Voglio dire, la prima cosa è che tutti i database tradizionali sono stati progettati per girare il disco e ora sono stati riprogettati per SSD. Probabilmente i nuovi database possono - chiunque stia scrivendo un nuovo database in questo momento può probabilmente ignorare il disco rotante, non pensarci affatto. Ma Samsung, il principale produttore di SSD, ci dice che gli SSD sono in realtà sulla curva della legge di Moore.
Erano già, credo, circa tre o quattro volte più veloci del disco rotante, ma ora diventeranno molto più veloci ogni 18 mesi, in pratica. Raddoppia la velocità e 10 volte la velocità fino a circa sei anni. Se fosse solo quello, comunque, non è così, come ti dirò tra un momento. Ovviamente il disco rotante sta diventando un mezzo di archiviazione.
A proposito di memoria. Per prima cosa, RAM. Il rapporto CPU tra RAM per CPU è in costante aumento. E questo ovviamente, in un certo senso, offre molta più velocità, perché gli acri di memoria che puoi avere ora possono immagazzinare molto di più. Ciò che effettivamente fa è che riduce la pressione sul tipo di applicazioni MLTP o applicazioni di lettura casuali, perché è più facile soddisfare quelle, perché ora hai molta memoria e, in questo modo, puoi memorizzare nella cache tutto ciò che è rischia di essere letto in memoria. Ma si verificano problemi con un heap di dati più grande, quindi i big data non sono in realtà così semplici, davvero.
E poi abbiamo Intel con 3D Xpoint e IBM con quello che chiamano PCM, che è memoria a cambiamento di fase, stanno offrendo qualcosa che credono sia - beh, è almeno 10 volte più veloce degli attuali SSD e credono che otterrà molto vicino alla stessa velocità della RAM. E ovviamente è meno costoso. Quindi, in precedenza, avevi questa struttura di database di CPU, memoria e disco, e ora ci stiamo muovendo verso una struttura che ha quattro livelli. Ha CPU, memoria o RAM e quindi questo tipo di memoria più veloce di SSD, che in realtà non è volatile, e quindi SSD. E queste nuove tecnologie sono non volatili.
E c'è il memristor di HP, che non è ancora, sai, perché è stato annunciato circa sette anni fa, ma non è ancora apparso. Ma le voci che sento sono che HP cambierà un po 'il gioco anche con un memristor, quindi hai solo una nuova situazione di memoria. Non è che abbiamo cose più veloci, è come se avessimo un livello completamente nuovo. E poi abbiamo il fatto che l'accesso SSD, puoi leggerlo in parallelo. Non puoi leggere il disco rotante in parallelo, se non con molti dischi rotanti diversi. Ma un blocco di SSD, puoi effettivamente leggere in parallelo. E poiché puoi leggerlo in parallelo, va molto più veloce delle sue semplici velocità di lettura, se in realtà hai impostato più processi tra i vari processi su una singola CPU, e hai a che fare con l'SSD.
Si stima che sia possibile raggiungere quasi la velocità della RAM. E tutto ciò che sta dicendo è che il futuro dell'architettura della memoria non è chiaro. Voglio dire, la realtà è che i vari venditori dominanti, chiunque si rivelino, probabilmente determineranno la direzione dell'hardware. Ma nessuno sa dove sta andando in questo momento. Ho parlato con alcuni ingegneri di database che hanno detto "Non ho paura di quello che sta succedendo", ma non sanno come ottimizzarlo sin dall'inizio. E l'hai sempre fatto, quindi è interessante.
E poi c'è la CPU. Bene, le CPU multicore non erano solo CPU multicore. Abbiamo anche volumi significativi di cache L1, L2 e L3, in particolare L3, che fino a, non so, decine di megabyte. Puoi mettere molto lì, lo sai. Pertanto, è possibile utilizzare effettivamente il chip come supporto di memorizzazione nella cache. Questo ha cambiato il gioco. E certamente, l'elaborazione vettoriale e la compressione dei dati, un certo numero di venditori lo hanno effettivamente fatto, hanno trascinato quella roba sulla CPU per rendere tutto molto più veloce nella CPU. Quindi capisci che, beh, le CPU con GPU sono davvero brave ad accelerare l'analisi. E sono davvero abbastanza bravi in determinati tipi di query, dipende solo da quale sia la tua query.
Puoi creare schede con CPU e GPU accese, o come stanno facendo AMD in questo momento, produci qualcosa chiamato APU, che è una specie di unione tra una CPU e una GPU; ha entrambi i tipi di capacità. Quindi questo è un diverso tipo di processore. E poi il recente annuncio di Intel che stanno per mettere un FPGA sul chip, quel tipo di testa mi ha fatto impazzire. Stavo pensando: "Come mai accadrà?" Perché se hai il possibilità di CPU, GPU e hai la possibilità di CPU, FPGA - e comunque, se vuoi davvero, sulla stessa scheda potresti mettere una CPU, una GPU e un FPGA. Non ho idea di come gestiresti qualsiasi cosa in quel modo, ma conosco aziende che stanno facendo cose del genere e stanno ricevendo risposte alle query molto, molto veloci. Questo non è qualcosa che verrà ignorato, questo è qualcosa che verrà utilizzato dai fornitori affermati e dai nuovi distributori in arrivo, forse. I DBMS erano sempre paralleli, ma ora le possibilità parallele sono appena esplose, perché questo ti consente di parallelizzare questo con quello, con quello, con quello in vari modi.
Infine, per ridimensionare o ridimensionare? Il ridimensionamento è davvero la soluzione migliore, ma per prima cosa. È possibile ottenere prestazioni del nodo molto migliori se è possibile ottimizzare in modo assoluto le prestazioni della CPU e della memoria sul disco su un nodo. E utilizzerai meno nodi, quindi sarà più economico, giusto? E sarà più facile da gestire. Sfortunatamente, è un progetto dipendente dall'hardware e, man mano che l'hardware cambia, diventa sempre meno possibile farlo, a meno che i tuoi ingegneri non saranno in grado di funzionare velocemente mentre l'hardware sta cambiando. E si verificano problemi di carico di lavoro, perché quando si ingrandisce, si fanno varie ipotesi su cosa farà il carico di lavoro.
Se ridimensioni, cioè se la tua architettura enfatizza il ridimensionamento prima di ridimensionarlo, in realtà devi eseguirli entrambi, è solo che ne enfatizzi uno. Quindi otterrai prestazioni di rete migliori, perché l'architettura se ne occuperà. Sarà più costoso in termini hardware perché ci saranno più nodi, ma ci saranno meno problemi di carico di lavoro e ci sarà una progettazione più flessibile.
E ho pensato di buttarlo via, perché se davvero pensi a tutte le modifiche hardware ho appena puntato il dito su, e poi hai pensato, come hai intenzione di scalare e ridimensionare su quella roba? Quindi ti rendi conto che gli ingegneri del database sono, almeno secondo me, ben pagati. Quindi, se si considera solo il livello hardware, le sfide del database sono chiare. Ora lo passo a Bert, che ci farà sentire educati.
Eric Kavanagh: Questo è tutto! Bert?
Bert Scalzo: Mille Grazie. Vorrei solo entrare direttamente in queste diapositive. Ho un sacco di diapositive da percorrere, quindi su alcune di esse posso andare piuttosto velocemente. Parleremo di questo "momento positivo: spostare la relazione oltre la tradizione". Non è più il database di tuo padre. Le cose sono cambiate e, come ha affermato un oratore precedente, negli ultimi 6-7 anni, il panorama è cambiato radicalmente.
Io stesso, ho creato database dalla metà degli anni '80. Ho scritto libri su Oracle, SQL Server, benchmarking e molte altre cose. “Il mondo sta cambiando molto velocemente. Il grande non batterà più piccolo. Sarà il veloce a battere il lento. ”Ho aggiunto il“ adattamento ”. Era di Rupert Murdoch. Credo davvero che questo sarà vero. Non sarai in grado di fare cose di database come hai fatto 10, 15, 20 anni fa. Dovrai farlo nel modo in cui l'azienda lo vuole ora.
Cercherò di rimanere un po 'generico in quello che sto presentando, ma la maggior parte delle funzionalità di cui sto parlando troverai in Oracle, troverai in SQL Server, MySQL, MariaDB e alcune delle altre grandi Giocatori. La rivoluzione del database relazionale, sono in qualche modo d'accordo con i precedenti oratori. Se guardi intorno al 2010, siamo passati dalla macchina da corsa rossa alla macchina da corsa gialla. C'è stato un cambiamento significativo, e nel 2020 credo che vedrete un altro cambiamento radicale. Siamo in un momento molto interessante.
Ora, questa diapositiva è la chiave, ecco perché ho messo una chiave lassù. C'è tutto questo cambiamento in corso, e sul lato sinistro ho la tecnologia, e sul lato destro ho degli affari. E la domanda è: quale sta causando quale e quale sostiene quale? Abbiamo tutti questi cambiamenti hardware: i dischi si abbassano, le dimensioni del disco aumentano, nuovi tipi di dischi, in modo che sono stati coperti dagli altoparlanti precedenti. Il prezzo della memoria che cade, tutte queste nuove versioni dei database. Ma sul lato destro, abbiamo protezione e conformità dei dati, archiviazione dei dati, business intelligence, analisi, conservazione obbligatoria dei dati. Entrambi i lati dell'equazione stanno guidando ed entrambi i lati dell'equazione useranno tutte queste nuove funzionalità.
Prima di tutto, abbiamo il nostro tipico disco di filatura SAS, ora sono fino a 10 terabyte. Se non hai visto, Western Digital, HGST ha quello che chiamano il loro disco di elio, che arriva a circa 10 terabyte in questo momento. I costi del disco rotante stanno diventando piuttosto bassi. Come accennato in precedenza, è possibile ottenere dischi a stato solido fino a circa due terabyte, ma Samsung avrà presto un'unità da 20 terabyte. I costi stanno diventando ragionevoli. Una cosa di cui parlerò delle altre no è il concetto di flash disk. PCIe, che è PCI Express, contro NVMe, potresti avere o non aver sentito parlare di questo express memoria non volatile. Fondamentalmente, NVMe sostituirà SAS e SATA, ed è davvero più un protocollo di comunicazione che altro. Ma quei dischi sono fino a circa tre terabyte ora.
Potresti anche aver visto che alcune unità SAS ora sono dotate di connettori U.2, che sono una sorta di connettore diverso rispetto a un SAS o SATA, che supporta NVMe con un disco standard - ovviamente anche il disco deve supportarlo. E poi SATA con connettori M.2 e quelli stanno iniziando a ottenere NVMe. In effetti, ora ci sono venditori di notebook che vendono notebook con un disco flash NVMe al suo interno e quelle cose urleranno rispetto alla tecnologia che hai usato prima.
Molte persone non sanno cosa siano tutti questi diversi flash. Se guardi nell'angolo in basso a destra, questo è un esempio di M.2. Potresti dire: "Bene, assomiglia molto all'unità mSATA alla sua sinistra." Ma come puoi vedere, ha due lacune nei pin rispetto a una, ed è un po 'più grande. Inoltre, M.2 può essere disponibile in tre diverse dimensioni.
E poi il flash PCI Express e il flash NVMe. Ora, anche il flash NVMe è PCI Express, ma il PCI Express è in genere ancora un algoritmo di controller di tipo SAS o SATA che è stato scritto per il disco rotante e NVMe sono gli algoritmi o le tecniche che sono stati scritti appositamente per il flash. E ancora, vedrai tutti questi.
NVMe offre alcune cose. Penso che i due maggiori miglioramenti siano, nell'angolo in alto a destra, la latenza ridotta del 70 percento. In realtà l'ho visto anche più in alto. Inoltre, se guardi nell'angolo in basso a destra, quando il tuo sistema operativo parla al disco NVMe, passa attraverso molti meno livelli di software. Fondamentalmente, si passa attraverso il driver NVMe che è ora incluso con il sistema operativo e parla direttamente al supporto. Ci sono molte ragioni per cui questa tecnologia cambierà radicalmente il mondo dei database.
E molte volte, la gente dirà: "Bene, quanto è veloce NVMe?" Sai, ai bei vecchi tempi, nel 2004 e prima, ci eccitavamo se avessimo Ultra-320 SCSI, 300 megabyte al secondo. Le velocità di oggi, molti di voi sono probabilmente su fibra o InfiniBand, e quel tipo di top out. NVMe laggiù a destra, inizia dove finiscono le tecnologie attuali. Quello che sto ottenendo è che PCI Express 3.0 con un collegamento a otto corsie inizia a quasi 8000, e salirà man mano che avremo nuove versioni di PCI Express, versioni quattro e così via. NVMe non ha nessun posto dove andare se non su.
Ora, quali sono alcune delle cose che cambiano nel database? Ora, negli angoli in alto a destra delle mie diapositive, metto le ragioni di business che ritengo sia stata presentata la tecnologia. In questo caso, a causa del data warehousing e dei motivi normativi per la conservazione obbligatoria dei dati, i database stanno iniziando a offrire la compressione in essi. Ora, alcuni database offrono la compressione come componente aggiuntivo, alcuni lo offrono come integrato allo standard, diciamo l'edizione enterprise del loro database, eppure alcuni database, come in Oracle, potrebbero persino avere una versione di compressione ancora migliore che è nella piattaforma Exadata, per esempio, hanno effettivamente creato hardware in grado di supportare una compressione molto specializzata e quella in Exadata, ad esempio, ottiene un tasso di compressione 40x, quindi è molto significativo. E penso che sia la conservazione obbligatoria dei dati, le persone vogliono solo dati più a lungo. Le aziende, per poter eseguire analisi e BI, necessitano dei dati degli ultimi 5, 10, 15 anni.
Ora un'altra caratteristica che ha iniziato a comparire proprio attorno a quel periodo del 2008, 2009 era il partizionamento. Ancora una volta, lo troverai in database come Oracle, SQL Server e in entrambi quelli che devi pagare. In Oracle devi acquistare l'opzione di partizionamento e in SQL Server devi essere nell'edizione del data center. È la tua tecnica tradizionale di divisione e conquista e quello che fai è che hai il concetto di un grande tavolo logico in alto lì e quando viene messo su disco, in realtà viene suddiviso in secchi. E puoi vedere che quei bucket sono organizzati in base ad alcuni criteri per la separazione, in genere referenziati o chiamati la tua funzione di partizionamento, e quindi puoi anche suddividere la partizione in alcune piattaforme di database e andare ancora oltre.
Ancora una volta, penso che sia il data warehousing sia la conservazione obbligatoria dei dati abbiano spinto questo, e in alcuni di questi database è possibile avere fino a 64.000 partizioni, e credo in alcuni altri database fino a 64.000 sub-partizioni. Ciò consente di suddividere i dati in parti gestibili. Inoltre partizionerai gli indici; è un'opzione, non è necessario, ma puoi anche partizionare i tuoi indici. Uno dei motivi per farlo potrebbe essere che hai una finestra scorrevole di dati. Si desidera conservare i dati per 10 anni, ma per eliminare gli indici per eseguire il caricamento batch di stasera, non è necessario eliminare gli indici su ogni singola riga, solo sulle righe che si trovano nel bucket corrente. Il partizionamento è in realtà un ottimo strumento amministrativo anche se la maggior parte delle persone pensa che il suo grande vantaggio sia rinunciare all'eliminazione della partizione nei tuoi piani e quindi accelerare le tue query. È davvero una specie di ciliegina sulla torta.
Ora probabilmente hai sentito parlare di sharding e probabilmente pensi: "Beh, perché hai messo questa diapositiva qui?" Questo è uno di quei NoSQL - questo è uno di quegli ambienti di tipo Hadoop. Oracle 12c ha rilasciato due, che non è ancora G8, ma che viene mostrato o visualizzato in anteprima ha effettivamente lo sharding. Avrai un sistema di database tradizionale come Oracle e sarai in grado di eseguire lo shard come fai nel modello Hadoop, quindi avrai un'altra tecnica di divisione e conquista che dividerà il tuo tabella in ordine di righe in raggruppamenti per nodo e questo sarà - proprio come quello che vedi in alcuni dei tuoi database NoSQL. E in realtà MySQL, puoi farlo praticamente usando una delle loro tecniche di clustering, ma sta arrivando a un database tradizionale e suppongo che Microsoft non vorrà rimanere indietro. Questi due giochi saltano rana l'uno con l'altro tutto il tempo, quindi mi aspetto di vedere lo sharding forse nella prossima versione di SQL Server.
Gestione del ciclo di vita dei dati, ancora una volta conservazione obbligatoria dei dati, ma anche per la business intelligence e l'analisi. In realtà, questa è una tecnica di divisione e conquista, e in genere i DBA lo fanno manualmente, e cioè: “Terrò i dati di quest'anno su dischi veloci, i dati dell'anno scorso su dischi leggermente più lenti, forse sto andando per mantenere gli ultimi due anni prima su dischi ancora più lenti, e poi avrò un metodo di archiviazione. ”In genere non è più registrato, è in genere - hai una sorta di memoria collegata alla rete o un dispositivo che ha un sacco di archiviazione ed è, sai, conveniente ma è ancora in rotazione su disco.
E così ora puoi effettivamente - sia su Oracle che su SQL Server - puoi acquistare un'opzione in cui definisci le regole e questo avviene automaticamente in background. Non devi più scrivere script, non devi fare nulla. E se hai visto SQL Server 2016, che è appena uscito il primo giugno, c'è una nuova funzionalità che si chiama "Database estesi" che in pratica ti consente di farlo - nell'angolo in basso a destra lì - puoi spostarti da più livelli direttamente nel cloud e di nuovo questa è una funzionalità integrata nel database, basta dire qualcosa del tipo: "Se i dati sono più vecchi di 365 giorni, ti preghiamo di spostarli nel cloud e, sai, fallo automaticamente per me".
Questa sarà una funzionalità davvero interessante, in effetti sto pensando che potrebbe essere quello che vedremo in futuro, che avrà database ibridi dove manterrai un po 'di locale e alcuni nel cloud. Prima di questo, la gente stava pensando: "Oh, o farò sul posto o lo farò sul cloud". Ora stiamo vedendo il matrimonio delle due tecnologie in questo modo ibrido. Penso che questo sarà piuttosto grande e Microsoft è arrivata prima.
Redazione, questo è dovuto alla protezione e alla conformità dei dati. Ora ai vecchi tempi avremmo potuto dire: "Ehi, sviluppatore di applicazioni, quando lo visualizzi nel rapporto, quando lo visualizzi sullo schermo qui ci sono alcune cose di sicurezza che dovresti controllare e, per favore, sai, mostra solo i dati dovrebbero vedere o mascherare o redarre i dati che non dovrebbero vedere. ”Bene, come al solito, quando lo spingi fuori all'applicazione non viene fatto in un posto, quindi viene fatto diversamente o no in alcuni posti. E così ora hai effettivamente questa capacità nei tuoi sistemi di database.
Ora in SQL Server 2016, questa funzionalità è integrata, quindi non credo sia ancora un elemento di costo opzionale da aggiungere al data center; e in Oracle 12 devi acquistare il componente aggiuntivo per la gestione del ciclo di vita, ma questa è una novità e ancora una volta è guidata dal business. E soprattutto perché stai conservando così tanti dati ora e stai facendo il data mining, quindi la BI e l'analisi, devi sapere chi sta accedendo a quali dati e assicurandoti che solo loro possano vedere cosa sono autorizzati a vedere.
Allo stesso modo, guarda ancora una volta, protezione dei dati e conformità. Scoprirai che molti dei sistemi di database ora stanno creando compressione, o mi dispiace, la crittografia direttamente nel database e ciò che è importante per questa crittografia, se guardi la freccia giù e la freccia su sul diagramma che la scrive su disco crittografato e quindi lo legge nuovamente in memoria e lo decodifica. Questo è in realtà un modello, c'è un altro modello che, in realtà, lo farebbe solo quando comunica quei dati attraverso la rete all'applicazione client effettiva.
In tal caso, sarebbe ancora sul server di database in memoria che potrebbe essere crittografato e decrittografato solo quando viene inviato all'applicazione client. Ci sono due modelli diversi qui e li troverai nei database, e infatti uno dei database che ha appena aggiunto questo recentemente era MariaDB nella loro versione 10.X; Credo che siano in 10.1 o 10.2 ora. E in realtà ho fatto alcuni benchmark su questa crittografia e, al fine di ottenere questa crittografia, ho sperimentato solo una diminuzione dell'8 percento della velocità effettiva o della velocità. In un test di benchmarking, la crittografia non ha causato molto e quindi è una funzione molto utile.
Ora, abbiamo accennato in precedenza sulla memoria flash e SSD e cose del genere. Una delle funzionalità che hai in Oracle e SQL Server che molte persone non capiscono è che puoi prendere un flash o un SSD sul tuo server di database e puoi dire al database: "Usa questo come se fosse memoria. Tratta la RAM come preferenziale, ma fai finta che sia una memoria lenta e usala come cache estesa. ”Ora in SQL Server 2014 questo è uscito e si chiamava“ Buffer Pool Extension ”, è gratuito. In Oracle, è uscito in 11g R2 e si chiamava "Database Flash Cache" ed era anche gratuito lì.
Il mio consiglio, tuttavia, è di testare attentamente questa funzione. Ogni volta che si ingrandisce la cache quando si esegue una ricerca, ci vuole più tempo. Se si inserisce una scheda flash da tre terabyte e si dice al database, "Aggiungilo alla memoria", potresti effettivamente scoprire che qualcosa ha rallentato a causa del tempo di guardare e vedere se è in flash, è sporco o pulito? C'è un punto di ritorno decrescente. Il mio consiglio è di nuovo testare questo, vedere cosa funziona per te, ma di nuovo, è nel tuo database e, nel caso di Oracle, sia in SQL Server che Oracle, è lì da un paio d'anni ormai.
E poi questo ci porta al nonno che era il database in memoria e questo perché i prezzi del database sono diminuiti. L'altra ragione per cui probabilmente penseresti che ciò si sia verificato è che molte delle analisi richiedono che i dati siano accessibili molto rapidamente e quindi devono essere in memoria. Si noti che gli algoritmi utilizzati dai database per accedere a questi dati, per comprimerli, crittografarli, archiviarli, in alcuni casi alcuni database potrebbero continuare ad archiviare in memoria come una riga.
In alcuni casi, alcuni database possono suddividere questo in una colonna orientata e la ragione per cui lo fanno è che ottengono un livello di compressione molto più alto, da qualche parte intorno all'11-12X memorizzandolo nell'ordine delle colonne rispetto all'ordine delle righe. Questo è apparso per la prima volta in SQL Server 2014, è stato chiamato "Hekaton". È stato radicalmente aumentato in SQL Server 2016, lo vedranno referenziato da nomi diversi ed è uscito in Oracle 12c; Dico qui la seconda versione, non R2. C'erano due diverse versioni di Oracle 12c, la 12.1.0.1 e la 12.1.0.2. È la seconda versione della versione R1 del database.
E il modo in cui lo definisci, l'oggetto in memoria è simile in entrambi i database. Qui puoi vedere nell'angolo in alto a destra, sto creando un SQL Server e puoi vedere che dice con memoria ottimizzata e la durata è solo schema. Non esaminerò tutti questi significati di sintassi, e in Oracle è addirittura ancora più semplice, basta modificare una tabella e dire in memoria oppure no e puoi cambiarla. Posso dire che oggi è in memoria e domani non lo è, quindi è molto flessibile.
Ho fatto alcuni test su Oracle con tabelle in memoria, ho avuto alcuni test che hanno impiegato quasi 40 minuti per essere eseguiti, lassù nella riga superiore. Ora ciò che è importante è che quando sono arrivato alle due righe inferiori, avevo aumentato il tempo di esecuzione o diminuito, dovrei dire, a cinque minuti circa, e quando ho guardato il fattore di compressione, i dati in memoria erano effettivamente 3, 6 a 4, 6 volte più piccolo. Questo è importante perché in questo caso stavo usando il formato orientato alla colonna e la sua compressione. E quindi indovina? In realtà stavo adattando quasi quattro o cinque volte più dati nella mia memoria. Non solo stavo ottenendo il vantaggio della memoria, il vantaggio della colonna, ma anche il vantaggio di molti più dati - fino a cinque volte più dati nella cache di memoria, quindi questa è una tecnica abbastanza potente. Ancora una volta Oracle e SQL Server, vuoi guardarli, sono davvero fantastiche funzionalità. E con quello, penso che lo aprirò alle domande.
Eric Kavanagh: Beh Bert, prima di tutto sei stato molto altruista in tutta questa meravigliosa educazione. Potresti parlare solo per un minuto di quello che fate? Perché hai una tecnologia abilitante che può facilitare ciò di cui stai parlando. Parla per un minuto di quello che fate e poi mettiamo giù Dez e Robin nell'equazione.
Bert Scalzo: Sì, lavoro per un'azienda chiamata IDERA. Siamo in Texas, abbiamo sede a Houston e in questo momento sono seduto ad Austin, ma ho base a Dallas. Realizziamo strumenti di database e creiamo strumenti di database per aiutarti a risolvere i problemi. Tale problema potrebbe essere qualcosa di semplice come la produttività, nel qual caso abbiamo uno strumento chiamato DBArtisan che ti consente di svolgere le attività amministrative del database ed è uno strumento che ti consente di gestire 12 piattaforme di database diverse. Posso gestire SQL Server, posso gestire Oracle, posso gestire MySQL, DB2, Postgres e sto usando uno strumento, un eseguibile, una progettazione della GUI e un insieme coerente di flussi di lavoro. Realizziamo anche strumenti per la conformità, abbiamo uno strumento chiamato SQL Compliance Manager per aiutarti a soddisfare le tue esigenze di conformità. Un altro strumento chiamato SQL Security, quindi cerchiamo di rendere gli strumenti che ti aiuteranno a essere efficace ed efficiente, e ciò che è veramente bello se vai sul nostro sito Web, abbiamo un sacco di freeware là fuori, quindi se non altro, vai a scaricare - Penso che abbiamo circa 20 o 25 freewares. Ci sono alcune cose davvero buone freeware là fuori come se ci fosse un SQL Server e un controllo della Guida di Windows che guarderanno semplicemente quello che hai e ti diranno se hai problemi o cose ed è totalmente gratuito.
Eric Kavanagh: E tu davvero …
Bert Scalzo: Sicuramente la prima cosa-
Eric Kavanagh: Stai parlando dell'eterogeneità sul mercato oggi, c'era una specie di equazione a misura unica che in effetti ricordo di aver intervistato il Dr. Michael Stonebraker nel lontano 2005, mentre continuava una grande spinta parlando del verdetto sul movimento del database orientato alle colonne e stava parlando di come il modello relazionale a misura unica ha dominato per molti anni, e prevedeva che tutto sarebbe cambiato, e ragazzo aveva ragione quello. Ora abbiamo questo ambiente davvero diversificato e interessante con molte opzioni e opportunità diverse, ma hai bisogno di qualcuno che gestisca tutto ciò e mi sembra che la tua azienda si concentri piuttosto acutamente sulla risoluzione dei problemi matematici, essendo quindi un fattore abilitante del intestazione di eterogeneità, giusto?
Bert Scalzo: Assolutamente. Voglio dire, ci saranno sempre DBA che dicono: "Non voglio usare uno strumento GUI, faccio tutto con gli script", sai? Pensano di essere il tipo superman di DBA e va bene, ma per la maggior parte di noi persone, vogliamo solo fare il lavoro e - sai, io uso Microsoft Word per scrivere i miei documenti. Uso Microsoft Outlook per fare la mia e-mail. Voglio dire, ho strumenti per svolgere compiti. Stiamo sviluppando lo stesso tipo di concetto, stiamo costruendo strumenti per amministratori e sviluppatori di database per aiutarli a concentrarsi su ciò che vogliono fare e non su come devono farlo.
Eric Kavanagh: Questo ha senso, ma lascia che ti consegni ai nostri esperti, e la gente si sente libera di immergersi. Abbiamo ricevuto un paio di commenti dal pubblico. Forse, Dez, un paio di domande e Robin un paio di domande?
Dez Blanchfield: Sicuro. Una delle prime domande che voglio porti, data l'enorme esperienza che hai avuto, vedi presto un momento in cui qualcosa di tutto questo rallenterà? O pensi che siamo davvero solo al punto di entrata di questa linea di cambiamento in continua crescita? Penso che uno dei maggiori problemi che le aziende stanno affrontando, e quindi invariabilmente le persone che cercano di supportare la tecnologia fornita a quelle aziende per gestire le loro attività, è che il tasso di cambiamento è così drammatico che non riescono a tenere il passo con tutti le diverse funzionalità, il software, i sistemi, i framework, le architetture e il nuovo codice in arrivo, e quindi l'hardware sottostante, vedono il ritmo attuale delle modifiche rallentare immediatamente? Voglio dire, hai a che fare con una così vasta gamma di piattaforme con l'intera suite IDERA, rallenteremo presto o siamo su questo pazzo treno merci in fuga da molto tempo ancora?
Bert Scalzo: Penso che siamo al primo 20 percento di quella curva di crescita e abbiamo ancora molta strada da fare e ci sono due cose che la spingono. La tecnologia continua ad evolversi. Hai menzionato alcuni dei nuovi tipi di memoria che usciranno, sarà fantastico. Samsung avrà presto un'unità flash da 20 terabyte. Questo cambierà le cose. Abbiamo tutti questi database NoSQL e cloud, questo andrà avanti. L'unica cosa che è piuttosto divertente, però, è quando guardo database come Oracle e SQL Server e alcuni degli altri, in realtà non sono più database relazionali. Posso inserire dati non strutturati in Oracle e tuttavia mantenere la conformità ACID. Se me lo avessi detto 20 anni fa, avrei appena detto che eri drogato.
Dez Blanchfield: Sì, sì, sono fantastici. Bene, anche adesso quei motori che hanno una verticale di nicchia piuttosto carina come il GIS, ora sono semplicemente migliori delle capacità native. Hai fatto grandi commenti sulle sfide che gli amministratori di database stanno affrontando e sui diversi tempi degli amministratori di database che speriamo di vedere in giro per il luogo, ma com'è il mondo con quel tipo di attività con cui ti stai occupando? Voglio dire, queste sono le persone che usano le diverse piattaforme dal tuo responsabile della diagnostica, agli strumenti di inventario e fino al muggito alla deframmentazione, come stanno affrontando gli amministratori di database di questa modifica e come si comportano?, cosa stanno facendo con i tuoi strumenti per affrontare questo significativo cambiamento nel loro paesaggio?
Bert Scalzo: Bene, tornerò indietro di quasi 20 anni fa, poi dirò che i DBA risolvono un ruolo molto specifico in un'organizzazione. In genere funzionano con una piattaforma di database, forse due, e hanno gestito un numero relativamente piccolo di database. Ora, oggi, e l'amministratore del database, conoscerà 10 piattaforme di database. Sta gestendo, e questo non è uno scherzo, in alcuni casi migliaia di database; questo è di più sul mondo SQL Server o MySQL. Ma ancora nel mondo Oracle potrebbero gestire centinaia di database. E così hanno tutte queste nuove funzionalità in uscita, hanno tutte queste nuove piattaforme e hanno tutti questi database di cui sono responsabili. Stanno cercando strumenti per consentire la loro produttività e anche per aiutarli a imparare alcune cose.
E ti faccio un esempio: se voglio partizionare una tabella è una sintassi piuttosto oscura, e se voglio sotto-partizionarla, la sintassi diventa ancora più difficile. So cosa voglio fare, voglio creare secchi. Se ho uno strumento come DBArtisan che dice: “Ehi, ecco una bella schermata che ti consente di concentrarti su ciò che stai cercando di fare piuttosto che su come stai cercando di farlo, e oh a proposito, spingi il Mostra il pulsante SQL quando hai finito e ti mostreremo qual è l'SQL in modo da poter iniziare a imparare davvero e padroneggiare questo. "
I DBA stanno scoprendo che gli strumenti che li aiutano a svolgere il lavoro, ma aiutano anche a insegnare loro tutte queste nuove cose che stanno usando e lo stesso sarebbe vero - diciamo che sono un ragazzo Oracle e vado su MySQL e diciamo, “Va bene, crea un database, DBArtisan. Ora mostrami l'SQL perché mi chiedo come sia creare un database su MySQL e ho appena imparato la sintassi. ”E quindi non li stiamo solo aiutando a lavorare su un database, ma li stiamo anche istruendo su tutto il database.
Dez Blanchfield: diventa ancora più interessante quando esci da alcuni dei più moderni - o non più moderni, non è una cosa giusta da dire - ma una volta un database è un database. In questi giorni vedo tutto ciò di cui stai parlando lì con l'ulteriore sfida che la tecnologia impila che tradizionalmente vediamo dai venditori e tu in un certo senso open source e anche che sono buoni. Non si occupa solo dei motori di database e dei linguaggi di query, ma si occupa anche dei tipi di dati, strutturati e non strutturati, sai, la sfida di dover affrontare qualsiasi cosa dall'estremità dello spettro di un HDFS multi-petabyte ambiente in piccoli contenitori e file di pacchetti e vari formati di file di registro.
E penso che sia qualcosa che ora stiamo vedendo dove proprio nessun essere umano, non importa quanto sia un superuomo, una superdonna, qualunque cosa possano pensare di essere, fisicamente, non riescono a gestire mentalmente quel tasso di cambiamento e la scala delle variazioni. Penso che la suite di strumenti che stai offrendo ora raggiungerà un punto in cui si troveranno quasi in un set predefinito in molti modi in modo che non possiamo eseguire gli ambienti di database che abbiamo senza di loro perché semplicemente fisicamente non posso lanciargli tanti corpi contro. Mi è davvero piaciuta la tua presentazione. Passerò al Dr. Robin Bloor, sono sicuro che ha anche molte domande da porre anche a te.
Robin Bloor: Ok. Bene, ho sicuramente delle domande. Bert, non so dove stai andando - ho avuto una conversazione davvero interessante un paio di giorni fa in cui qualcuno ha iniziato a parlarmi dell'ultima protezione dei dati DU, e mi è sembrato da quello che stavano dicendo che era incredibilmente draconiano in termini di cose su cui hanno insistito. Mi chiedevo se l'avessi davvero guardato; è qualcosa con cui hai familiarità?
Bert Scalzo: Assolutamente. Si.
Robin Bloor: 2016, va bene, raccontaci.
Bert Scalzo: E in realtà-
Robin Bloor: profondamente interessante.
Bert Scalzo: In realtà ho lavorato per un po 'per un fornitore di flash, nella loro area di database aiutandoli a costruire prodotti flash per database, e posso dirti che il draconiano va fino in fondo. Quello che voglio dire è che, se ricordi la mia unica diapositiva, ho detto che in alcuni database farà la crittografia ma la metterà nella memoria del server e in alcuni database la crittografia - è ancora crittografata nella memoria del server, viene decrittografata solo quando viene inviato al client. Bene, troverai anche alcuni di questi standard governativi, in particolare il Dipartimento della Difesa o le forze armate qui negli Stati Uniti, scendono fino al livello del flash e vogliono sapere non solo che supporti la crittografia e la decrittazione in il tuo hardware, ma che se qualcuno rubasse i chip che - sai, li estraeva dal tuo server, quello che c'è è crittografato e quindi anche se hanno l'archiviazione non può essere e lo farebbero fino all'effettivo - non alla parte flash stessa ma ai singoli chip. Volevano sapere che chip per chip, tutto era crittografato.
Robin Bloor: Wow. Voglio dire, ci sono molte cose che - sai, penso che siano state solo una o due diapositive a farti apparire su questo, ma era qualcosa, uno scenario che penso sia davvero interessante. La redazione delle informazioni, ad esempio, deve essere un po 'intelligente rispetto al mascherare vari campi perché soprattutto con l'apprendimento automatico al giorno d'oggi, puoi fare cose deduttive che ti consentono di mettere in superficie informazioni che non potevi prima emergere.
Se stai cercando di proteggere, diciamo informazioni sulla salute, allora questa è una regola molto draconiana negli Stati Uniti per quanto riguarda le informazioni sulla salute, ma puoi effettivamente, usando varie tecniche di apprendimento automatico, puoi spesso capire chi sono le informazioni mediche di qualcuno lo è davvero. Mi chiedevo solo se hai qualcosa da dire a riguardo perché tutti pensano che sia un'area interessante.
Bert Scalzo: Sì, assolutamente, e sto solo usando questo esempio, non sto cercando di dire che un database sia migliore di un altro, ma questo è un ottimo esempio per quello che hai appena chiesto. In Oracle, se non mi è permesso vedere una fila di dati per esempio, come se non mi fosse permesso vedere la cartella clinica di John Smith. In Oracle se dico "Seleziona quel record", sarò bloccato o mi sarà permesso di vedere ciò che mi è permesso vedere e verrà redatto. E se dico: "Seleziona la stella dell'account dalla tabella in cui è uguale a John Smith", otterrò zero.
In SQL Server, può eseguire la redazione ma presenta alcuni buchi. Se dico: "Seleziona la stella dell'account dalla tabella in cui è uguale a John Smith", in realtà ne restituirò uno, quindi so che c'è un John Smith. Uno è più sicuro dell'altro. Ora mi aspetto che lo risolvano, giocano sempre a saltare la rana l'uno con l'altro. E ancora, non sto provando a distinguere tra i database oltre a mostrare un esempio di - guarda di cosa stiamo parlando ora, qualcosa di semplice come l'account selezionato deve anche essere tagliato dalla redazione, anche se tecnicamente parlando, non c'è niente di redatto altro che l'esistenza della riga.
Robin Bloor: Sì, giusto. È abbastanza interessante. Voglio dire, un'altra domanda generale perché non ho molto tempo, riguarda davvero i miglioramenti. Voglio dire, sei stato in uno in cui so che ci hai mostrato esempi di vari risultati di test che hai eseguito - pensi che i database tradizionali, chiamiamoli i database dominanti, SQL Server e Oracle, vero? pensi che rimarranno davanti al completamento? O pensi che saranno effettivamente catturati da uno o l'altro di vari tipi di interruzioni nel mercato che corrono davvero per loro? Qual'è la tua opinione?
Bert Scalzo: Ho un'opinione ed è - sai, ancora una volta dirò che è la mia opinione - Microsoft per esempio, nell'era post-Ballmer mi sta solo impressionando. Intendo questo esteso database che ottiene SQL Server su Linux, .NET su Linux, PowerShell su Linux; Non penso che i tradizionali fornitori di database rimarranno indietro. Penso che abbiano deciso: “Ehi, lascia che i nuovi ragazzi, le startup definiscano qualcosa. Lasciateli capire che cos'è lo sharding e come dovrebbe essere perfezionato, e una volta che hanno fatto tutta la ricerca e lo sviluppo, sappiamo esattamente cosa vogliono gli utenti, ora aggiungiamo lo sharding a Oracle. ”Penso che stiano solo diventando intelligenti e dicendo: "Ehi, essere il secondo o il terzo non è male quando sei il giocatore dominante perché le persone non migreranno da te."
Robin Bloor: Sì, voglio dire, è una strategia che è stata utilizzata. Voglio dire, IBM lo faceva per tutto e per tutto - per l'intera gamma di prodotti e valuta ragionevolmente bene fino a quando qualcuno non esce con qualcosa che è completamente fuori dal comune a cui nessuno ha mai pensato, ma non puoi pianificare contro quello comunque.
Domande dal pubblico, Eric?
Eric Kavanagh: Sì, ma hai tempo penso solo per uno forse e so che Bert deve correre. C'era qualcosa qui dentro - okay, l'architettura di sharding su Oracle 12c è un'indicazione di - o cos'è un'indicazione secondo te, cosa pensi che stia succedendo lì?
Bert Scalzo: Beh, Oracle sta assorbendo o / e offrendo tutto ciò che tutti gli altri fornitori di database sono. Ad esempio, posso inserire dati non strutturati in Oracle. Non so come si possano mettere dati non strutturati e quindi chiamarli un database relazionale, quindi non ha alcun senso, ma è possibile. E ora Oracle sta aggiungendo lo sharding, quindi Oracle sta dicendo: “Sai cosa? Qualunque cosa il mercato desideri, faremo l'offerta del nostro database perché il mercato vuole ciò che il mercato vuole e vogliamo fornire la soluzione, vogliamo che rimangano con noi. "
Penso che vedrai elementi aggiuntivi. Non sarei sorpreso di vedere un clustering simile a Hadoop di nodi di database non in un rack Oracle o in un cluster di applicazioni reali, ma fondamentalmente in più di un clustering di tipo Hadoop tradizionale che fa quel sharding. E quindi penso che sarai in grado di distribuire un database come Oracle come faresti con un Hadoop, e questo tipo di tendenze continuerà. Questi grandi fornitori di database, guadagnano miliardi di dollari e non vogliono perdere il loro mercato, quindi sono disposti ad adattarsi a qualsiasi cosa o ad adottare qualsiasi cosa.
Eric Kavanagh: Beh, sai, è divertente perché ho seguito i venditori open source per un bel po 'di tempo e mi sono chiesto tutto questo mentre quanto grande impatto avrà sulla tradizionale tecnologia a porte chiuse, e per un po' di certo i venditori open source stavano facendo progressi seri, e ora mentre guardo il mercato vedo una specie di cosa stai dicendo, che i grandi hanno fatto i loro calcoli, hanno affilato le matite e hanno capito come possono tessere molte di queste cose nelle loro architetture. Che si tratti di IBM, Oracle o SAP, sono stato alla conferenza SapphireNow il mese scorso e Steve Lucas, a capo di metà di quella società, si è vantato che SAP ora incorpora nella propria piattaforma cloud HANA, più componenti open-source di qualsiasi altro concorrenti. Se fai i tuoi calcoli su questo, è una dichiarazione piuttosto impressionante e mi dice che i grandi ragazzi non andranno da nessuna parte presto.
Bert Scalzo: No, scommetterei i miei soldi su entrambi. Voglio dire, se guardi, le azioni di Microsoft di recente erano a circa $ 50 e, sai, solo pochi anni fa erano a 25. Non raddoppi il prezzo delle azioni in un breve periodo a meno che tu non stia facendo cose buone e tu sai, dal fare tutto da Windows 10 gratuito per il primo anno a tutte le altre cose intelligenti che stanno facendo, questa funzionalità di database estesa penso sia semplicemente fenomenale. Penso che ciò che accadrà è che molte persone finiranno in Azure, non direttamente, non come hanno detto, "Migriamo il mio database su Azure". Migrerà magicamente lì perché verrà archiviato laggiù usando questa nuova funzionalità di database esteso e quindi l'adozione di Azure salirà alle stelle.
Eric Kavanagh: Beh, questa è una delle tendenze del mercato che anche io posso vedere, anche sul tuo Mac. Mentre vai sul tuo Mac per salvare alcuni documenti, loro adesso - e i nuovi Mac seguono semplicemente il cloud, giusto? Voglio dire, ha molto senso in quella strategia e anche io la guardo e dico: “Ok ragazzi, state cercando di attirarmi pezzo per pezzo nel vostro ambiente cloud, e poi un giorno quando voglio guardare un film se la mia carta di credito è scaduta, avrò problemi. "
Bert Scalzo: Sì, ma lo fai su Facebook.
Eric Kavanagh: Sì. È vero.
Bert Scalzo: hai messo tutto su Facebook.
Eric Kavanagh: Beh, non proprio tutto.
Bert Scalzo: No, voglio dire …
Eric Kavanagh: Sì, vai avanti.
Bert Scalzo: Queste tendenze sociali stanno raggiungendo le imprese. Ora le aziende hanno ancora molte altre cose che devono fare, ma stanno vedendo queste tendenze e stanno facendo lo stesso tipo di cose. Non vedo né Oracle né Microsoft andare via. In effetti, comprerò azioni su entrambe le volte che c'è un calo.
Eric Kavanagh: Sì, davvero. Bene gente, vai su idera.com, IDERA dot com. Come ha detto Bert, hanno un sacco di roba gratis lassù ed è una delle nuove tendenze del mercato: darti alcune cose gratuite con cui giocare, farti agganciare e poi vai a comprare le cose vere.
Gente, questa è stata un'altra tecnologia calda. Grazie per il tuo tempo oggi, Bert, Dez ovviamente e Robin. Ci sentiamo la prossima settimana, gente, stanno succedendo molte cose. Se hai qualche idea, sentiti libero di inviarti una e-mail, . Ci sentiamo la prossima volta gente, statemi bene. Ciao ciao.