Casa Banche dati Il potere della suggestione: come un catalogo di dati dà potere agli analisti

Il potere della suggestione: come un catalogo di dati dà potere agli analisti

Anonim

Di Techopedia Staff, 22 giugno 2016

Takeaway: l' host Rebecca Jozwiak discute i vantaggi dei cataloghi di dati con Dez Blanchfield, Robin Bloor e David Crawford.

È necessario registrarsi per questo evento per visualizzare il video. Registrati per vedere il video.

Rebecca Jozwiak: Signore e signori, ciao e benvenuti a Hot Technologies del 2016. Oggi abbiamo "Il potere del suggerimento: come un catalogo di dati autorizza gli analisti". Kavanagh oggi, mentre viaggia per il mondo, quindi grazie per esserti unito a noi. Quest'anno è caldo, non è solo caldo in Texas dove sono io, ma è caldo ovunque. C'è un'esplosione di tutti i tipi di nuove tecnologie che escono. Abbiamo IoT, streaming di dati, adozione del cloud, Hadoop continua a maturare e ad essere adottato. Abbiamo automazione, apprendimento automatico e tutto ciò è ovviamente sottolineato dai dati. E le aziende stanno diventando sempre più dati guidati di giorno in giorno. E, naturalmente, il punto è quello di condurre alla conoscenza e alla scoperta e, sai, a prendere decisioni migliori. Ma per ottenere davvero il massimo valore dai dati, deve essere facile da raggiungere. Se lo tieni bloccato, sepolto o nel cervello di poche persone all'interno dell'impresa, non farà molto bene all'impresa nel suo insieme.

E stavo pensando alla catalogazione dei dati e ovviamente al corso delle biblioteche, dove molto tempo fa è dove sei andato se avessi bisogno di scoprire qualcosa, se avessi bisogno di cercare un argomento o cercare alcune informazioni, sei andato in biblioteca e, naturalmente, sei andato al catalogo delle carte, o alla signora crabby che lavorava lì. Ma è stato anche divertente girovagare, se volessi solo guardare, e sicuro che potresti scoprire qualcosa di pulito, potresti scoprire alcuni fatti interessanti che non sapevi, ma se davvero avessi bisogno di scoprire qualcosa e sapevi cosa stavi cercando, avevi bisogno del catalogo delle carte e ovviamente l'equivalente aziendale è un catalogo di dati, che può aiutare a far luce su tutti i dati che i nostri utenti possono arricchire, scoprire, condividere, consumare e aiutare davvero le persone arrivano ai dati più velocemente e più facilmente.

Quindi oggi abbiamo Dez Blanchfield, il nostro scienziato dei dati, e abbiamo il dottor Robin Bloor, il nostro analista principale, abbiamo David Crawford di Alation, che parlerà della storia della catalogazione dei dati della sua azienda, ma prima partiremo con Dez. Dez, ti sto passando la palla e il pavimento è tuo.

Dez Blanchfield: Grazie, grazie per avermi oggi. Questa è una questione di cui sono estremamente interessato, perché quasi tutte le organizzazioni che incontro nel mio lavoro quotidiano, trovo esattamente lo stesso problema di cui abbiamo parlato molto brevemente nella battuta pre-spettacolo, ed è che la maggior parte delle organizzazioni che sono in attività da più di qualche anno hanno una pletora di dati sepolti nell'organizzazione, in diversi formati, e in effetti ho clienti che hanno set di dati che risalgono a Lotus Notes, database che sono ancora in esecuzione in alcuni casi come i loro pseudo internet, e loro, tutti si trovano ad affrontare questa sfida di trovare effettivamente dove si trovano i loro dati e come accedervi, chi fornire loro accesso, quando fornire loro accesso e come catalogo e come ottenerlo in un posto dove tutti possono: A) essere consapevoli di cosa c'è e cosa c'è dentro e B), come accedervi e usarlo. E una delle maggiori sfide ovviamente è trovarla, l'altra grande sfida è sapere cosa c'è dentro e come accedervi.

Potrei ben sapere che ho dozzine di database, ma in realtà non so cosa c'è dentro o come scoprire cosa c'è dentro, e così invariabilmente come stiamo scoprendo ora nei dati pre-show, tendi andare in giro per l'ufficio e fare domande, urlare attraverso le pareti cubiche e cercare di capire, spesso la mia esperienza è, potresti persino scoprire che stai vagando alla reception, alla reception e chiedendo se qualcuno sa chi stai andando a parlare. Abbastanza spesso, non è sempre la gente dell'IT perché non sono a conoscenza del set di dati perché qualcuno l'ha appena creato, e potrebbe essere qualcosa di semplice come un - abbastanza spesso troveremo un progetto di qualche tipo che si regge nell'ambiente IT e il project manager ha utilizzato un foglio di calcolo di tutte le cose e ha ottenuto una quantità enorme di informazioni preziose su risorse, contesto e nomi e, a meno che non si conosca quel progetto e non si conosca quella persona, non è possibile trovare tali informazioni. Non è disponibile e devi procurarti il ​​file originale.

C'è una frase che è stata messa in discussione per quanto riguarda i dati e non sono necessariamente d'accordo con esso, ma penso che sia un piccolo lancio carino e cioè che una certa quantità di persone pensa che i dati siano il nuovo petrolio, e io sono sicuramente lo tratteremo anche in qualche aspetto, più tardi oggi. Ma quello che ho notato, facendo certamente parte di quella trasformazione, è che le organizzazioni di aziende che hanno imparato a valutare i propri dati hanno guadagnato un vantaggio significativo rispetto ai loro concorrenti.

C'era un articolo interessante di IBM, circa cinque o sei anni fa, che hanno intervistato circa 4.000 aziende qui in Australia e hanno raccolto tutte le informazioni, tutti i dati sulle prestazioni, tutti i dati finanziari e li hanno messi insieme in una pentola bollente e poi inviato alla Australian School of Economics, e qui hanno iniziato una tendenza comune, e cioè che le aziende che hanno sfruttato la tecnologia hanno invariabilmente ottenuto un vantaggio così competitivo rispetto ai loro coetanei e concorrenti di per sé che i loro concorrenti non hanno quasi mai recuperato, e penso che questo è molto vero ora con i dati che abbiamo visto ciò che le persone chiamano una trasformazione digitale in cui le organizzazioni che hanno chiaramente capito come trovare i dati che hanno, per renderli disponibili e renderli disponibili in alcuni consumabili molto facili moda per l'organizzazione, senza necessariamente sapere sempre perché l'organizzazione potrebbe averne bisogno e ottenere un vantaggio significativo rispetto alla concorrenza.

Ho un paio di esempi in questa diapositiva, che puoi vedere. La mia unica linea è che l'interruzione su larga scala in quasi tutti i settori industriali, a mio avviso, è guidata dai dati, e se le tendenze attuali sono qualcosa da seguire, la mia opinione è che abbiamo appena ottenuto è iniziato perché quando i marchi di vecchia data finalmente si svegliano su ciò che questo significa e accedono al gioco, entreranno nel gioco all'ingrosso. Quando una specie dei maggiori rivenditori che hanno montagne di dati iniziano ad applicare alcune analisi storiche sui dati, se sanno addirittura che esistono, allora alcuni giocatori online riceveranno un po 'di sveglia.

Ma con la maggior parte di questi marchi, intendo dire che abbiamo Uber che è la più grande compagnia di taxi al mondo. Non possiedono alcun taxi, quindi cosa li rende magici, quali sono i loro dati? Airbnb, il più grande fornitore di alloggi, abbiamo WeChat, la più grande compagnia telefonica del mondo, ma non hanno infrastrutture reali, né telefoni, né linee telefoniche. Alibaba, il più grande rivenditore al mondo, ma non possiede l'inventario. Facebook, la più grande azienda multimediale della parola. Penso che all'ultimo conteggio avessero ora 1, 4 miliardi di utenti di dati attivi, il che è un numero da capogiro. Non è da nessuna parte - penso che qualcuno abbia affermato che un quarto del pianeta è effettivamente lì ogni giorno, eppure ecco un fornitore di contenuti che in realtà non crea il contenuto, tutti i dati che servono non sono creati da loro, sono creati dai loro abbonati, e conosciamo tutti questo modello.

SocietyOne, di cui potresti o non hai sentito parlare, è un marchio locale, penso che in un paio di paesi sia una banca che in realtà fa prestiti peer-to-peer, quindi in altre parole, non ha soldi. Tutto ciò che fa è gestire le transazioni e i dati si trovano sotto di essa. Netflix, ne siamo tutti molto familiari. C'è un interessante one-liner qui. Quando Netflix è stato legalmente in grado di essere utilizzato in Australia, quando è stato annunciato ufficialmente, non è stato necessario utilizzare una VPN per accedervi, molte persone in tutto il mondo tendono a farlo - se non riesci a raggiungerlo nella tua zona locale - quando Netfix è stato lanciato in Australia, ha aumentato la larghezza di banda internazionale sui nostri collegamenti Internet del 40 percento, quindi ha quasi raddoppiato l'utilizzo di Internet in Australia durante la notte, con una sola applicazione, un'applicazione ospitata su cloud che non fa altro che giocare con i dati. È solo una statistica da capogiro.

E, naturalmente, conosciamo tutti Apple e Google, ma queste sono le più grandi aziende di software del pianeta, ma in realtà non scrivono app. Qual è la cosa coerente con tutte queste organizzazioni? Bene, sono dati e non sono arrivati ​​perché non sapevano dove fossero i loro dati e non sapevano come catalogarli.

Ciò che stiamo scoprendo ora è che c'è questa nuova classe di attività denominata dati e che le aziende si stanno svegliando. Ma non hanno sempre gli strumenti, il know-how e le ragioni per mappare tutti quei dati, catalogare tutti quei dati e renderli disponibili, ma abbiamo scoperto che le aziende che non hanno quasi risorse fisiche hanno guadagnato un alto valore di mercato in registrare il tempo tramite questa nuova classe di asset di dati. Come ho già detto, alcuni dei vecchi giocatori ora si stanno svegliando a questo e sicuramente lo stanno facendo emergere.

Sono un grande fan di prendere la gente in un piccolo viaggio, quindi nel diciottesimo secolo, alla fine del diciottesimo secolo, e avrai più che familiarità con questo nel mercato degli Stati Uniti, si è scoperto che per eseguire un censimento ogni anno circa, penso che li abbiano eseguiti ogni dieci anni a quel punto, ma se si esegue un censimento ogni anno, potrebbero essere necessari fino a otto o nove anni per eseguire effettivamente l'analisi dei dati. Si è scoperto che quel set di dati è stato lasciato in scatole in punti in carta e quasi nessuno riusciva a trovarlo. Continuavano a pompare questi rapporti, ma i dati reali erano molto difficili da raggiungere, abbiamo una situazione simile con un altro momento significativo del mondo, intorno agli anni '40, con la seconda guerra mondiale, e questa cosa è la Bletchley Park Bombe scritta BOMBE, ed era un enorme strumento analitico di scricchiolio dei numeri che passava attraverso piccoli set di dati e trovava segnali in esso, e veniva usato per aiutare a decifrare i codici attraverso l'Enigma.

Anche questa cosa era essenzialmente un dispositivo progettato, non molto da catalogare, ma per taggare e mappare i dati, e rendere possibile prendere schemi e trovarli all'interno dei set di dati, in questo caso, rompere i codici, trovare chiavi e frasi e trovare regolarmente nei set di dati, e quindi abbiamo intrapreso questo viaggio per trovare elementi nei dati e condurre alla catalogazione dei dati.

E poi sono successe queste cose, questi enormi rack di macchine a basso costo, solo macchine standard. E abbiamo fatto alcune cose molto interessanti, e una delle cose che abbiamo fatto con loro è che abbiamo creato cluster a basso costo che potrebbero iniziare a indicizzare il pianeta, e molto famosi questi grandi marchi che sono venuti e andati, ma probabilmente Google è la casa più comune marchio di cui tutti abbiamo sentito parlare - è diventato un verbo reale e sai che hai successo quando il tuo marchio diventa un verbo. Ma ciò che Google ci ha insegnato, senza rendercene conto, forse nel mondo degli affari, è che sono stati in grado di indicizzare l'intero pianeta a un certo livello e catalogare i dati che erano in tutto il mondo e renderli disponibili in modo molto semplice, forma conveniente in una piccola formula di una riga, una pagina web con quasi nulla su di essa e si digita la query, va e lo trova perché avevano già strisciato il pianeta, indicizzato e reso facilmente disponibile.

E quello che abbiamo notato è stato: "Bene, aspetta, non lo stiamo facendo nelle organizzazioni - perché? Perché abbiamo un'organizzazione che può mappare l'intero pianeta e indicizzarlo, scansionarlo e indicizzarlo e renderlo disponibile, possiamo cercarlo, quindi fare clic sull'oggetto per andare a trovarlo, come mai non l'hai fatto internamente? ”Quindi ora ci sono un sacco di questi piccoli rack di macchine in tutto il mondo che lo fanno per le intranet e trovano cose, ma stanno ancora davvero prendendo coscienza dell'idea di andare oltre la rete tradizionale pagina o un file server.

Invece di entrare in questa nuova generazione di cataloghi di dati in molti modi, scoprire l'accesso ai dati tramite post-it e conversazioni con il dispositivo di raffreddamento dell'acqua non è più un metodo appropriato per la rilevazione e la catalogazione dei dati, e in effetti non lo penso mai lo era davvero. Non possiamo più condurre l'intera sfida alle persone semplicemente passando appunti, postando appunti e chattando su di esso. Siamo davvero al di là dell'area in cui questo approccio di nuova generazione alla catalogazione dei dati è arrivato e scomparso. Dobbiamo abbracciarci. Se questo fosse un problema facile, lo avremmo già risolto in molti modi prima, ma penso che non sia un problema facile, solo indicizzare e chiamare i dati è solo una parte di esso, sapendo cosa c'è nei dati e costruire metadati attorno a ciò che scopriamo e quindi renderli disponibili in una forma semplice e consumabile, in particolare per il self-service e l'analisi. È ancora un problema da risolvere, ma molte parti del puzzle in cinque anni sono ben risolte e disponibili.

Come sappiamo, la catalogazione dei dati da parte degli umani è una ricetta per il fallimento perché l'errore umano è uno dei più grandi incubi di cui ci occupiamo nell'elaborazione dei dati, e parlo regolarmente di questo argomento in cui, a mio avviso, la compilazione di moduli cartacei è probabilmente il più grande incubo ci occupiamo di big data e analisi, di dover costantemente aggiustare le cose che fanno, anche fino a cose semplici come le date e i campi, le persone che lo mettono nel formato sbagliato.

Ma come ho detto, abbiamo visto i motori di ricerca di Internet indicizzare il mondo ogni giorno, quindi ora stiamo facendo l'idea che ciò possa essere fatto su set di dati aziendali nel processo di scoperta, e strumenti e sistemi sono ora prontamente disponibile come stai per imparare oggi. Quindi il trucco, davvero secondo me, sta selezionando gli strumenti giusti, i migliori strumenti per il lavoro. E più appropriatamente per di più, trovando la parte giusta per aiutarti a iniziare su questa strada. E credo che ne parleremo oggi, ma prima di farlo, passerò al mio college, Robin Bloor e ascolterò la sua opinione sull'argomento. Robin, posso passarti?

Robin Bloor: Sì, certo che puoi. Vediamo se funziona, oh sì, lo fa. Okay, vengo da una direzione diversa da quella di Dez, ma finirò nello stesso posto. Si tratta di connettersi ai dati, quindi ho pensato di esplorare la realtà della connessione ai dati, punto per punto davvero.

È un dato di fatto che i dati sono più frammentati di quanto non siano mai stati. Il volume di dati sta crescendo in modo fenomenale, ma in realtà anche le diverse fonti di dati stanno crescendo a un ritmo incredibile, e quindi i dati stanno diventando sempre più frammentati in ogni momento. Ma a causa delle applicazioni di analisi in particolare, ma queste non sono le uniche applicazioni, abbiamo un'ottima ragione per connetterci a tutti questi dati, quindi siamo bloccati in un posto difficile, siamo bloccati in un mondo di dati frammentati, e c'è un'opportunità nei dati come la chiamava Dez, il nuovo petrolio.

A proposito di dati, beh, viveva su un disco rotante, sia nei file system che nei database. Ora vive in un ambiente molto più vario, vive nei file system ma al giorno d'oggi vive anche nelle istanze di Hadoop o persino nelle istanze Spark. Vive in più specie di database. Non molto tempo fa, abbiamo standardizzato un po 'di database relazionale, ben sai che è uscito dalla finestra negli ultimi cinque anni, perché c'è bisogno di database di documenti e c'è bisogno di database di grafici, quindi sai, il gioco ha cambiato. Quindi ha vissuto su disco rotante, ma ora vive su SSD. L'ultima quantità di SSD - sicuramente l'ultima unità SSD sta uscendo da Samsung - venti gigabyte, il che è enorme. Ora vive nella memoria, nel senso che la prima copia dei dati può essere nella memoria, piuttosto che sul disco, non abbiamo usato per costruire sistemi del genere; lo facciamo ora. E vive nel cloud. Ciò significa che può vivere in una qualsiasi di queste cose, nel cloud, non saprai necessariamente dove si trova in un cloud, avrai solo il suo indirizzo.

Giusto per rammentare il punto, Hadoop ha finora fallito come archivio di dati estensibile. Avevamo sperato che sarebbe diventato un archivio dati estensibile e scalabile, e sarebbe diventato un unico file system per tutto, e sarebbe - gli arcobaleni sarebbero apparsi nel cielo, in sostanza, e gli unicorni avrebbero ballato intorno, e nulla di tutto ciò sarebbe accaduto. Ciò significa che si finisce con un problema di trasporto dei dati e, a volte, non è necessario per il trasporto dei dati, ma è anche una difficoltà. Al giorno d'oggi i dati hanno davvero gravità, una volta entrati nei multi-terabyte di dati, raccogliendoli e gettandoli in giro, in qualche modo fa apparire le latenze sulla tua rete o apparire in vari luoghi. Se si desidera trasportare dati in giro, il tempismo è un fattore. Ci sono quasi sempre, al giorno d'oggi, alcuni limiti su quanto tempo hai a disposizione per ottenere una cosa, un dato da un posto all'altro. C'era quella che un tempo pensavamo come finestre batch, quando la macchina era inattiva, e non importa quanti dati avessi, potresti semplicemente lanciarli e tutto funzionerebbe. Bene che è andato, viviamo in un mondo molto più in tempo reale. Pertanto il tempismo è un fattore. Non appena si desidera spostare i dati, quindi se i dati hanno gravità, probabilmente non è possibile spostarli.

La gestione dei dati è un fattore nel senso che devi effettivamente gestire tutti questi dati, non li ottieni gratuitamente e potrebbe essere necessaria la replica per ottenere effettivamente i dati per fare il lavoro che deve fare, perché potrebbe non essere ovunque tu l'abbia messo. Potrebbe non disporre di risorse sufficienti per eseguire il normale trattamento dei dati. Quindi i dati vengono replicati e i dati vengono replicati più di quanto si possa immaginare. Penso che qualcuno mi abbia detto molto tempo fa che il pezzo medio di dati viene replicato almeno due volte e mezzo. Gli ESB o Kafka presentano un'opzione per il flusso di dati, ma oggigiorno richiede un'architettura. Al giorno d'oggi devi davvero pensare, in un modo o nell'altro, a cosa significhi effettivamente lanciare i dati. Pertanto, per accedere ai dati dov'è, di solito è preferibile, purché, ovviamente, sia possibile ottenere le prestazioni necessarie quando si vanno effettivamente per i dati e ciò dipende dal contesto. Quindi è una situazione difficile, comunque. In termini di query di dati, eravamo abituati a pensare in termini di SQL, siamo arrivati ​​davvero ora, sai, diverse forme di query, SQL sì, ma adiacente, anche query di grafici, Spark è solo un esempio di facendo un grafico, perché anche noi dobbiamo fare una ricerca di testo, più di quanto abbiamo mai fatto, anche regex di ricerche di tipo, che è una ricerca davvero complicata di modelli e una vera corrispondenza di modelli, tutte queste cose sono in realtà gorgoglianti. E tutti sono utili perché ti danno quello che stai cercando o possono darti quello che stai cercando.

Le query ora coprono più dati, quindi non sempre lo fanno, e spesso le prestazioni sono spaventose se lo fai. Quindi, dipende dalle circostanze, ma le persone si aspettano di essere in grado di interrogare i dati da più origini dati, quindi la federazione dei dati di un tipo o dell'altro sta diventando sempre più attuale. Anche la virtualizzazione dei dati, che è un modo diverso di farlo, a seconda delle prestazioni, è molto comune. Le query di dati fanno effettivamente parte di un processo, non dell'intero processo. Vale la pena sottolineare che se stai effettivamente guardando le prestazioni di analisi, l'analitica effettiva può richiedere molto più tempo della raccolta dei dati, perché dipende dalle circostanze, ma le query di dati sono una necessità assoluta se vuoi fare qualsiasi tipo di analisi su più origini dati, e davvero, devi davvero avere capacità che si estendono.

Quindi sui cataloghi. I cataloghi esistono per una ragione, almeno stiamo dicendo che, sai, è, abbiamo directory, e abbiamo schemi nei database, e abbiamo ogni catalogo e abbiamo ovunque tu vada, troverai un posto e poi in realtà scoprire che esiste una sorta di catalogo e che il catalogo globale unificato sia una buona idea ovviamente. Ma pochissime aziende hanno una cosa del genere. Ricordo che nell'anno duemila - l'anno duemila panico - ricordo che i comunisti non potevano nemmeno definire quanti eseguibili avevano, non importa quanti archivi di dati avevano, ed è probabilmente il caso adesso, sai, che la maggior parte delle aziende non conosce attivamente a livello globale, quali dati hanno. Ma ovviamente sta diventando sempre più necessario avere effettivamente un catalogo globale, o almeno avere un quadro globale di ciò che sta accadendo a causa della crescita delle fonti di dati e della continua crescita delle applicazioni, ed è particolarmente necessario per l'analisi, perché anche tu in un modo, e ci sono altri problemi qui come lignaggio e problemi con i dati, ed è necessario per la sicurezza, molti aspetti della governance dei dati, se davvero non sai quali dati hai, l'idea che hai intenzione di governarlo è semplicemente assurdo. Quindi, in questo, tutti i dati sono catalogati in qualche modo è solo un dato di fatto. La domanda è se il catalogo è coerente e in realtà cosa si può fare con esso. Quindi tornerò a Rebecca.

Rebecca Jozwiak: Okay, grazie Robin. Successivamente abbiamo David Crawford da Alation, David, vado avanti e ti passo la palla, e puoi portartela via.

David Crawford: Grazie mille. Apprezzo davvero voi ragazzi che mi partecipate a questo spettacolo. Penso che inizierò questo, quindi penso che il mio ruolo qui sia quello di prendere un po 'di quella teoria e vedere come viene effettivamente applicata e i risultati che siamo in grado di guidare su clienti reali e così puoi vedere alcuni sulla diapositiva, voglio parlare di quali risultati saremo in grado di vedere in analitica possibilmente miglioramenti. Quindi, per motivare la discussione, parleremo di come sono arrivati ​​lì. Quindi sono fortunato a lavorare a stretto contatto con un sacco di persone davvero intelligenti, questi clienti, e voglio solo sottolineare alcuni che sono stati in grado di misurare effettivamente e parlare di come avere un catalogo di dati abbia avuto un impatto sul loro analista flusso di lavoro. E solo per rimanere brevemente in primo piano, penso che una delle cose che vediamo cambiare, con cataloghi di dati rispetto a soluzioni mediate precedenti e uno dei modi in cui le relazioni pensano davvero alle soluzioni che mettiamo insieme, è partire dagli analisti e lavorare all'indietro. Per dire, facciamo questo per consentire la produttività degli analisti. Al contrario della semplice conformità o al solo inventario, stiamo creando uno strumento che rende gli analisti più produttivi.

Quindi, quando parlo con uno scienziato di dati presso la società di servizi finanziari Square, c'è un ragazzo, Nick, che ci stava raccontando di come fosse suo, impiegava diverse ore a trovare il set di dati giusto per iniziare un rapporto, ora può fatelo in pochi secondi usando la ricerca alla quota di mercato, abbiamo parlato con il loro CTO che ha attirato i suoi analisti che stavano usando Square, mi scusavano, stava usando Alation, per scoprire quali erano, quali benefici vedevano e hanno riportato un 50 percentuale di aumento della produttività e che, uno dei principali rivenditori al mondo, eBay, hanno oltre un migliaio di persone che eseguono regolarmente analisi SQL, e io lavoro abbastanza a stretto contatto con Deb Says, che è il progetto manager nel loro team di strumenti di dati, e ha scoperto che quando i queryer adottano Alation, adottano un catalogo, vedono il doppio della velocità di scrittura di nuove query sul database.

Quindi questi sono risultati reali, queste sono persone che stanno effettivamente applicando il catalogo nella loro organizzazione, e voglio guidarti attraverso ciò che serve per impostare. Il modo in cui un catalogo viene creato in un'azienda, e forse la cosa più importante da dire, è che succede molto automaticamente, quindi Dez ha parlato di sistemi, ha imparato a conoscere i sistemi, ed è esattamente ciò che fa un moderno catalogo di dati. Quindi installano Alation nel loro data center e poi lo collegano a varie fonti di metadati nel loro ambiente dati. Mi concentrerò un po 'sui database e sugli strumenti di BI: da entrambi estrarremo metadati tecnici, praticamente su ciò che esiste. Giusto, quindi quali tavoli? Quali rapporti? Quali sono le definizioni dei rapporti? Quindi estraggono quei metadati tecnici e viene automaticamente creata una pagina di catalogo per ogni oggetto all'interno di quei sistemi, quindi estraggono e sovrappongono questi metadati tecnici, sovrappongono i dati di utilizzo. Ciò avviene principalmente leggendo i log delle query dal database e questa è una fonte di informazioni davvero interessante. Pertanto, ogni volta che un analista scrive una query, ogni volta che uno strumento di reportistica, sia esso cresciuto in casa o fuori dallo scaffale, se uno strumento di reporting esegue una query per aggiornare il dashboard, quando un'applicazione esegue una query per inserire dati su cui operare un set di dati: tutte queste cose vengono acquisite nei log delle query del database. Indipendentemente dal fatto che abbiate un catalogo o meno, vengono acquisiti nel registro delle query con il database. Cosa può fare un catalogo di dati, e soprattutto cosa può fare il catalogo di Alation, è leggere quei registri, porre le domande al loro interno e creare un grafico di utilizzo davvero interessante basato su quei registri e lo mettiamo in gioco per informare i futuri utenti dei dati su come gli utenti precedenti dei dati lo hanno utilizzato.

Quindi, riuniamo tutte queste conoscenze in un catalogo, e solo per renderlo reale, queste sono le integrazioni che sono già distribuite ai clienti, quindi abbiamo visto Oracle, Teradata, Redshift, Vertica e un sacco di altre database relazionali. Nel mondo Hadoop, c'è una gamma di SQL su Hadoop, una sorta di meta store relazionali in cima al file system Hadoop, Impala, Tez, Presto e Hive, abbiamo anche visto il successo con i fornitori privati ​​di cloud Hadoop come Altiscale, e noi sono anche stati in grado di connettersi a server Tableau, server MicroStrategy e indicizzare i dashboard lì, nonché integrazioni con strumenti di creazione di grafici per la scienza dei dati come Plotly.

Quindi, ci colleghiamo a tutti questi sistemi, abbiamo collegato questi sistemi ai clienti, abbiamo inserito i metadati tecnici, abbiamo inserito i dati di utilizzo e in qualche modo innescato automaticamente il catalogo di dati, ma in questo modo, abbiamo centralizzare la conoscenza, ma solo centralizzare le cose in un catalogo di dati, non fornisce di per sé quei meravigliosi incrementi di produttività di cui abbiamo parlato con eBay, Square e la quota di mercato. Per fare ciò, dobbiamo effettivamente cambiare il modo in cui pensiamo di fornire conoscenza agli analisti. Una delle domande che si stanno ponendo per prepararsi a questo, è stata "In che modo il catalogo influisce effettivamente sul flusso di lavoro di un analista?"

Questo è ciò a cui passiamo tutto il giorno a pensare, e per parlare di questo cambiamento nel modo di pensare, di un modello push verso un modello pull, volevo fare una rapida analogia con come era il mondo prima e dopo aver letto su un Kindle. Quindi è solo un'esperienza che alcuni di voi potrebbero avere, quando leggete un libro fisico, vi imbattete in una parola, non siete sicuri di conoscere la definizione di quella parola molto bene, forse potete indovinarla dal contesto, non è così probabile che si alzeranno dal divano, cammineranno verso la tua libreria, troveranno il tuo dizionario, rispolverarlo e capovolgeranno nel posto giusto nell'elenco alfabetico delle parole per assicurarti che, sì, hai avuto quella definizione giusta, e sai le sfumature di esso. Quindi non succede davvero. Quindi compri un'app Kindle e inizi a leggere libri lì, e vedi una parola di cui non sei totalmente sicuro e la tocchi. Tutto ad un tratto, proprio nella stessa schermata, è la definizione del dizionario della parola, con tutte le sue sfumature, diversi usi di esempio e scorri un po ', e ottieni un articolo di Wikipedia su quell'argomento, scorri di nuovo, ottieni uno strumento di traduzione che può tradurlo in altre lingue o da altre lingue, e all'improvviso la tua conoscenza della lingua è molto più ricca, e succede solo un numero sorprendente di volte, rispetto a quando dovevi andare e prendi quella risorsa per te stesso.

E quindi quello che ho intenzione di discutere è che il flusso di lavoro di un analista e il modo in cui un analista gestirà la documentazione dei dati, è in realtà molto simile a come un lettore interagirà con il dizionario, sia esso fisico o se il Kindle, e quindi ciò che noi, nel modo in cui abbiamo visto questa spinta alla produttività, non è versare il catalogo, ma collegarlo al flusso di lavoro dell'analista, e quindi, mi hanno chiesto di fare una demo qui, e voglio per rendere questo il focus di questa presentazione. Ma voglio solo impostare il contesto per la demo. Quando pensiamo di spingere la conoscenza dei dati agli utenti quando ne hanno bisogno, pensiamo che il posto giusto per farlo, il luogo in cui trascorrono il loro tempo e dove stanno facendo l'analisi, sia uno strumento di query SQL. Un luogo in cui si scrivono ed eseguono query SQL. E così ne abbiamo creato uno, e l'abbiamo creato, e la cosa che è davvero diversa da altri strumenti di query è la sua profonda integrazione con il catalogo dati.

Quindi il nostro strumento di query si chiama Alation Compose. È uno strumento di query basato sul Web e te lo mostrerò tra un secondo. Uno strumento di query basato sul Web che funziona su tutti i loghi di database visualizzati nella diapositiva precedente. Quello che proverò a provare in particolare è il modo in cui le informazioni del catalogo arrivano agli utenti. E lo fa attraverso questo tipo di tre modi diversi. Lo fa attraverso interventi, ed è qui che qualcuno che è un governatore dei dati, o un amministratore dei dati, o una sorta di amministratore in qualche modo, o un manager, può dire: "Voglio fare una sorta di interiezione con una nota o un avviso in il flusso di lavoro e assicurati che sia consegnato agli utenti al momento giusto. ”Quindi questo è un intervento e lo dimostreremo.

I suggerimenti intelligenti sono un modo in cui lo strumento utilizza tutta la sua conoscenza aggregata del catalogo per suggerire oggetti e parti di una query durante la scrittura. La cosa più importante da sapere è che sfrutta davvero il registro delle query per farlo, per suggerire cose in base all'utilizzo e anche per trovare anche parti di query che sono state scritte in precedenza. E lo mostreremo.

E poi le anteprime. Le anteprime sono, mentre digiti il ​​nome di un oggetto, ti mostriamo tutto ciò che il catalogo conosce, o almeno le cose più rilevanti che il catalogo conosce su quell'oggetto. Quindi campioni dei dati, che l'avevano usato in precedenza, il nome logico e la descrizione di quell'oggetto, arrivano tutti a te mentre lo scrivi senza doverlo chiedere.

Quindi, senza più parlare, andrò alla demo e aspetterò solo che appaia. Quello che ho intenzione di mostrarti qui è lo strumento di query. È un'interfaccia di scrittura SQL dedicata. È un'interfaccia separata dal catalogo, in un certo senso. Dez e Robin hanno parlato del catalogo e sto saltando un po 'nell'interfaccia del catalogo direttamente su come è stato portato direttamente al servizio del flusso di lavoro.

Sto solo mostrando qui un posto dove posso digitare SQL, e in fondo vedrai che abbiamo delle informazioni che appaiono sugli oggetti a cui stiamo facendo riferimento. Quindi inizierò a digitare una query e mi fermerò quando arrivo a uno di questi interventi. Quindi scrivo "seleziona" e voglio l'anno. Voglio il nome E vado a cercare alcuni dati salariali. Quindi questo è un set di dati educativi. Ha informazioni sugli istituti di istruzione superiore e sto esaminando lo stipendio medio della facoltà che si trova in una di queste tabelle.

Quindi ho effettivamente digitato la parola "stipendio". Non è esattamente nel nome della colonna in quel modo. Usiamo sia i metadati logici sia i metadati fisici per fornire suggerimenti. E quello che voglio sottolineare qui è questa scatola gialla che appare qui. Dice che c'è un avvertimento su questa colonna. Non sono andato a cercarlo, non ho preso una lezione su come utilizzare correttamente questi dati. Mi è venuto in mente, e sembra essere un avvertimento su un accordo di riservatezza che ha a che fare con questi dati. Quindi ci sono alcune regole di divulgazione. Se ho intenzione di richiedere questi dati, estrarrò i dati da questa tabella, dovrei stare attento a come li divulgo. Quindi hai una politica di governance qui. Esistono alcune sfide di conformità che rendono molto più semplice il rispetto di questa politica quando la conosco al momento in cui sto esaminando i dati.

Quindi ho questo che mi viene in mente, e poi guarderò anche le lezioni. E qui vediamo le anteprime entrare in gioco. In questa colonna di insegnamento, vedo - c'è una colonna di insegnamento sul tavolo dell'istituzione, e sto vedendo un profilo di quello. Alation va e estrae i dati di esempio dalle tabelle e, in questo caso, mi sta mostrando qualcosa di piuttosto interessante. Mi sta mostrando la distribuzione dei valori e mi sta mostrando che il valore zero è stato mostrato 45 volte nel campione e più di ogni altro valore. Quindi ho la sensazione che potremmo perdere alcuni dati.

Se sono un analista avanzato, potrebbe essere già parte del mio flusso di lavoro. Soprattutto se sono particolarmente meticoloso, dove farei un sacco di domande di profilazione in anticipo. Ogni volta che mi sto avvicinando a un nuovo dato, penso sempre a quale sia la nostra copertura dei dati. Ma se sono nuovo nell'analisi dei dati, se sono nuovo in questo set di dati, potrei supporre che se c'è una colonna, è sempre piena. Oppure potrei supporre che se non è compilato, non è zero, è nullo o qualcosa del genere. Ma in questo caso, abbiamo molti zero e, se avessi fatto una media, probabilmente sarebbero sbagliati, se avessi semplicemente supposto che quegli zero fossero effettivamente zero invece di dati mancanti.

Ma Alation, introducendo questa anteprima nel tuo flusso di lavoro, ti chiede di dare un'occhiata a queste informazioni e offre anche a analisti inesperti la possibilità di vedere che c'è qualcosa da notare qui su quei dati. Quindi abbiamo quell'anteprima.

La prossima cosa che farò è che cercherò di scoprire da quali tabelle ottenere queste informazioni. Quindi qui vediamo i suggerimenti intelligenti. È andato tutto il tempo, ma in particolare qui, non ho nemmeno scritto nulla, ma mi suggerirà quali tabelle potrei voler utilizzare per questa query. E la cosa più importante da sapere su questo è che sfrutta le statistiche di utilizzo. Quindi in un ambiente come, ad esempio, eBay, dove hai centinaia di migliaia di tabelle in un unico database, avere uno strumento che può colpire il grano dalla paglia e usare quelle statistiche di utilizzo, è davvero importante per fare queste suggerimenti che valgono qualcosa.

Quindi suggerirà questa tabella. Quando guardo l'anteprima, evidenziamo effettivamente tre delle colonne che ho già menzionato nella mia query. Quindi so che ne ha tre, ma non ha il nome. Devo ottenere il nome, quindi ho intenzione di unirmi. Quando faccio un join, ora ho di nuovo queste anteprime per aiutarmi a trovare, dov'è la tabella con il nome. Quindi vedo che questo ha un nome ben formattato, una specie di nome in maiuscolo. Sembra avere una riga con un nome per ogni istituzione, quindi ho intenzione di afferrarlo, e ora ho bisogno di una condizione di adesione.

E così, qui quello che Alation sta facendo è di nuovo guardare indietro ai log delle query, vedere le volte precedenti in cui queste due tabelle sono state unite e suggerire modi diversi per unirle. Ancora una volta, c'è qualche intervento. Se guardo uno di questi, ha un avviso che mi mostra che questo dovrebbe essere usato solo per l'analisi aggregata. Probabilmente produrrà la cosa sbagliata se stai cercando di fare qualcosa attraverso l'istituzione per istituzione. Considerando che questo, con l'IDE OPE è approvato come il modo corretto di unire queste due tabelle se si desidera dati a livello universitario. Quindi lo faccio, ed è una query breve, ma ho scritto la mia query senza davvero avere alcuna idea di quali siano i dati. In realtà non ho mai visto un diagramma ER di questo set di dati, ma conosco già abbastanza di questi dati perché le informazioni rilevanti mi stanno arrivando.

Quindi questi sono i tre modi in cui un catalogo può, attraverso uno strumento di query integrato, influire direttamente sul flusso di lavoro mentre scrivi le query. Ma uno degli altri vantaggi di avere uno strumento di query integrato in un catalogo è che, quando finisco la mia query e la salvo, posso inserire un titolo come "Insegnamento scolastico e stipendio della facoltà", e quindi ho un pulsante qui mi permette di pubblicarlo sul catalogo. Diventa molto facile per me dargli da mangiare. Anche se non lo pubblico, viene catturato come parte del registro delle query, ma quando lo pubblico diventa effettivamente parte del modo in cui il luogo centralizzato in cui vive tutta la conoscenza dei dati.

Quindi, se faccio clic su Cerca tutte le query in Alation, vado a prendere - e qui vedrai un po 'più dell'interfaccia del catalogo - Sono portato a una ricerca di query dedicata che mi mostra un modo per trovare query in l'intera organizzazione. E vedi che la mia query appena pubblicata è in alto. E alcuni potrebbero notare qui, mentre catturiamo le query, catturiamo anche gli autori e stabiliamo in qualche modo questa relazione tra me come autore e questi oggetti di dati di cui ora so qualcosa. E sto diventando un esperto in questa query e in questi oggetti di dati. È davvero utile quando le persone hanno bisogno di conoscere i dati, quindi possono trovare la persona giusta per conoscere. E se in realtà sono nuovo ai dati, che io sia un analista avanzato - come analista avanzato, potrei guardare questo e vedere un mucchio di esempi che mi farebbero iniziare con un nuovo set di dati. Come qualcuno che potrebbe non sentirsi molto esperto con SQL, posso trovare query predefinite che sono rapporti di cui posso trarre vantaggio.

Eccone uno di Phil Mazanett sui punteggi mediani della SAT. Fare clic su questo e ottengo una specie di pagina di catalogo per la query stessa. Parla di un articolo che è stato scritto che fa riferimento a questa query, quindi c'è un po 'di documentazione per me da leggere se voglio imparare come usarlo. E posso aprirlo nello strumento di query facendo clic sul pulsante Scrivi e posso semplicemente eseguirlo qui senza nemmeno modificarlo. E in realtà, puoi vedere un po 'delle nostre capacità di reporting leggero, in cui, quando scrivi una query, puoi inserire una variabile modello come questa e crea un modo semplice per creare un modulo per eseguire una query basata su un paio di parametri.

Questo è quello che ho per la demo. Tornerò alle diapositive. Giusto per ricapitolare, abbiamo mostrato come un amministratore, un governatore dei dati, può intervenire inserendo avvisi sugli oggetti che compaiono nello strumento di query, in che modo Alation utilizza la sua conoscenza dell'uso degli oggetti dati per fornire suggerimenti intelligenti, in che modo porta nella profilazione e altri suggerimenti per migliorare i flussi di lavoro degli analisti quando toccano oggetti particolari e come tutto questo tipo di feed ritorna nel catalogo quando vengono scritte nuove query.

Ovviamente sono un portavoce per conto dell'azienda. Sto per dire cose carine sui cataloghi di dati. Se vuoi sentire direttamente da uno dei nostri clienti, Kristie Allen di Safeway gestisce un team di analisti e ha una storia davvero interessante su un momento in cui aveva davvero bisogno di battere il tempo per fornire un esperimento di marketing e come tutto il team ha usato Alation per collaborare e girare rapidamente su quel progetto. Quindi puoi seguire questo link bit.ly per dare un'occhiata a quella storia, o se vuoi sapere qualcosa su come Alation potrebbe portare un catalogo di dati nella tua organizzazione, siamo felici di creare una demo personalizzata. Molte grazie.

Rebecca Jozwiak: Grazie mille, David. Sono sicuro che Dez e Robin abbiano qualche domanda prima di passare alle domande e risposte del pubblico. Dez, vuoi andare per primo?

Dez Blanchfield: Assolutamente. Adoro l'idea di questo concetto di query pubblicate e di ricollegarlo alla fonte dell'autore. Sono stato a lungo campione di questa idea di un app store interno e penso che questa sia davvero un'ottima base su cui basarci.

Ho avuto modo di ottenere alcune informazioni su alcune delle organizzazioni che stai vedendo fare questo, e alcune delle storie di successo che avrebbero potuto avere durante l'intero viaggio non solo sfruttando il tuo strumento e la tua piattaforma per scoprire i dati, ma poi anche trasformare i loro tratti culturali e comportamentali interni. Ora avere questo tipo di app store interno in cui si scarica semplicemente, il concetto in cui non solo possono trovarlo, ma possono effettivamente iniziare a sviluppare piccole comunità con i custodi di quella conoscenza.

David Crawford: Sì, penso che siamo rimasti sorpresi. Crediamo nel valore della condivisione di query, sia dal mio passato come product manager in Adtech che da tutti i clienti con cui abbiamo parlato, ma sono rimasto sorpreso dalla frequenza con cui è una delle prime cose che i clienti parla del valore che ottengono da Alation.

Stavo facendo dei test degli utenti dello strumento di query in uno dei nostri clienti chiamato Invoice2go, e avevano un product manager relativamente nuovo, e mi dissero: in realtà mi ha detto, non sollecitato durante il test utente, "In realtà non lo farei scriverò SQL, tranne per il fatto che è stato semplificato da Alation. "E naturalmente, come PM, in un certo senso vado, " Che cosa vuoi dire, come abbiamo fatto? "E ha detto:" Beh, davvero è solo perché posso accedere e posso vedere tutte queste query esistenti. "Iniziare con una lavagna vuota con SQL è una cosa incredibilmente difficile da fare, ma modificare una query esistente in cui è possibile vedere il risultato che viene pubblicato e si può dire, "Oh, ho solo bisogno di questa colonna aggiuntiva" o "Devo filtrarla per un determinato intervallo di date", è una cosa molto più semplice da fare.

Abbiamo visto una sorta di questi ruoli secondari, come i product manager, forse le persone nelle operazioni di vendita, che iniziano a raccogliere e che hanno sempre voluto imparare SQL e iniziare a prenderlo utilizzando questo catalogo. Abbiamo anche visto che molte aziende hanno provato a fare una sorta di open source. Ho cercato di creare internamente questo tipo di cose, in cui tengono traccia delle query e le rendono disponibili, e ci sono alcune sfide di progettazione davvero complicate per renderle utili. Facebook ha avuto uno strumento interno che hanno chiamato HiPal che ha catturato tutte le query scritte su Hive, ma quello che scopri è che se non spingi gli utenti nel modo giusto, finisci con un elenco molto lungo di istruzioni selezionate. E come utente che sta cercando di capire se una query è utile per me o se va bene, se vado a cercare un lungo elenco di istruzioni selezionate, mi ci vorrà molto più tempo per ottenere qualcosa di valore lì che iniziando da zero. Abbiamo pensato con molta attenzione a come creare un catalogo di query che porti in primo piano le cose giuste e le fornisca in modo utile.

Dez Blanchfield: Penso che attraversiamo questo viaggio dalla più tenera età, fino all'età adulta, in molti modi. Un mucchio di tecnologie. Personalmente, ho attraversato la stessa cosa genuina, come imparare a tagliare il codice. Avrei esaminato le riviste e poi i libri, e avrei studiato fino a un certo livello, e poi avrei dovuto andare a prendere un po 'più di formazione e istruzione.

Ma inavvertitamente ho scoperto che anche quando stavo per insegnare a me stesso e leggere riviste e leggere libri e tagliare programmi di altre persone e andare ai corsi su di esso, ho ancora finito per imparare tanto da fare i corsi come ho appena parlato con altri persone che hanno avuto delle esperienze. E penso che sia una scoperta interessante che, ora che lo porti all'analisi dei dati, stiamo praticamente vedendo lo stesso parallelo, che gli esseri umani sono sempre abbastanza intelligenti.

L'altra cosa che voglio davvero capire è che, ad un livello molto elevato, molte organizzazioni chiederanno: "Quanto tempo ci vuole per arrivare a quel punto?" Qual è il punto di svolta nel tempo quando le persone ottengono la tua piattaforma installata e hanno iniziato a scoprire i tipi di strumenti? Con che velocità le persone vedono semplicemente questa cosa trasformarsi in un momento "a-ha" davvero immediato in cui si rendono conto che non si preoccupano più nemmeno del ROI perché è lì, ma ora stanno effettivamente cambiando il modo di fare affari ? E hanno scoperto un'arte perduta e si aspettano di poter fare qualcosa di veramente, davvero divertente.

David Crawford: Sì, posso toccarlo un po '. Penso che quando ci installiamo, una delle cose carine, una delle cose che piacciono alla gente di un catalogo che è direttamente collegato ai sistemi di dati, è che non si inizia a vuoto dove si deve riempire pagina per pagina. E questo è un po 'vero per le precedenti soluzioni di dati in cui inizieresti con uno strumento vuoto e devi iniziare a creare una pagina per tutto ciò che vuoi documentare.

Dal momento che documentiamo così tante cose automaticamente estraendo i metadati, essenzialmente entro pochi giorni dall'installazione del software, puoi avere un'immagine del tuo ambiente di dati che è almeno l'80% lì nello strumento. E poi penso che non appena le persone iniziano a scrivere query con lo strumento, vengono salvate automaticamente nel catalogo e quindi inizieranno anche a comparire.

Non voglio essere ansioso di affermarlo. Penso che due settimane siano una stima conservativa piuttosto buona, per un mese. Da due settimane a un mese, stima prudente di girarsi davvero e sentire di trarne valore, come se stessi iniziando a condividere alcune conoscenze e ad essere in grado di andare lì e scoprire cose sui tuoi dati.

Dez Blanchfield: È davvero sorprendente, davvero, quando ci pensi. Il fatto che alcune delle grandi piattaforme di dati che stai indicizzando e catalogando in modo efficace impiegheranno talvolta un anno per implementare e implementare e resistere correttamente.

L'ultima domanda che ho per te prima di passare a Robin Bloor, sono i connettori. Una delle cose che mi balza immediatamente addosso è che hai ovviamente risolto l'intera sfida. Quindi ci sono un paio di domande molto velocemente. Uno, con che rapidità vengono implementati i connettori? Ovviamente inizi con la piattaforma più grande, come gli Oracoli e i Teradata e così via e i DB2. Ma con che frequenza vedi arrivare i nuovi connettori e che tempo di risposta impiegano? Immagino che tu abbia un framework standard per loro. E quanto in profondità vai in quelli? Ad esempio, gli Oracoli e gli IBM del mondo, e persino Tereadata, e poi alcune delle piattaforme open source più popolari. Stanno lavorando direttamente con te? Lo state scoprendo voi stessi? Devi avere conoscenze interne su quelle piattaforme?

Che aspetto ha sviluppare un connettore e in che misura sei coinvolto in queste partnership per assicurarti che quei connettori stiano scoprendo tutto ciò che è possibile?

David Crawford: Sì, certo, è un'ottima domanda. Penso che per la maggior parte possiamo sviluppare i connettori. Lo abbiamo sicuramente fatto quando eravamo una startup più giovane e non avevamo clienti. Possiamo certamente sviluppare le connessioni senza bisogno di alcun accesso interno. Non otteniamo mai alcun accesso speciale ai sistemi di dati che non sono disponibili pubblicamente e spesso senza la necessità di informazioni privilegiate. Approfittiamo dei servizi di metadati disponibili dai sistemi di dati stessi. Spesso quelli possono essere piuttosto complessi e difficili da lavorare. Conosco in particolare SQL Server, il modo in cui gestiscono il registro delle query, ci sono diverse configurazioni ed è qualcosa su cui devi davvero lavorare. Devi capire le sfumature, le manopole e i quadranti su di esso per impostarlo correttamente, ed è qualcosa su cui lavoriamo con i clienti da quando lo abbiamo fatto diverse volte prima.

Ma in una certa misura, sono tipi di API pubbliche disponibili o interfacce pubbliche disponibili che sfruttiamo. Abbiamo collaborazioni con molte di queste aziende, questo è principalmente un motivo di certificazione, quindi si sentono a proprio agio nel dire che lavoriamo e possono anche fornirci risorse per i test, a volte un accesso anticipato a una piattaforma che esce per assicurarsi che lavoriamo sulle nuove versioni.

Per cambiare una nuova connessione, direi di nuovo, cercando di essere conservatore, diciamo da sei settimane a due mesi. Dipende da quanto è simile. Quindi alcune delle opere di Postgre sembrano molto simili a Redshift. Redshift e Vertica condividono molti dei loro dettagli. Quindi possiamo trarre vantaggio da queste cose. Ma sì, da sei settimane a due mesi sarebbe giusto.

Abbiamo anche API, quindi: pensiamo anche ad Alation come una piattaforma di metadati, quindi se qualcosa non è disponibile per noi per raggiungere e afferrare automaticamente, ci sono modi in cui puoi scrivere tu stesso il connettore e inserirlo nel nostro sistema in modo che tutto sia ancora centralizzato in un singolo motore di ricerca.

Dez Blanchfield: fantastico. Lo apprezzo. Quindi lo consegneremo a Robin, perché sono sicuro che ha anche molte domande. Robin?

Rebecca Jozwiak: Robin potrebbe essere muto.

Dez Blanchfield: Ti sei messo in sordina.

Robin Bloor: Sì, giusto. Mi dispiace, mi sono disattivato. Quando lo implementate, qual è il processo? Sono un po 'curioso perché ci possono essere molti dati in molti posti. Quindi come funziona?

David Crawford: Sì, certo. Entriamo, prima di tutto è una specie di processo IT per garantire il provisioning del nostro server, assicurando che le connessioni di rete siano disponibili, che le porte siano aperte in modo da poter effettivamente accedere ai sistemi. Sanno tutti spesso con quali sistemi vogliono iniziare. Conoscere all'interno di un sistema di dati, che a volte effettivamente li aiuteremo. Li aiuteremo a dare una prima occhiata al loro registro delle query per capire chi sta usando cosa e quanti utenti hanno su un sistema. Quindi aiuteremo a scoprire dove - spesso, se hanno centinaia o migliaia di persone che potrebbero accedere ai database, in realtà non sanno dove stanno accedendo, quindi possiamo andare a scoprire dal query registra quanti account utente univoci hai effettivamente effettuato l'accesso e l'esecuzione di query qui in circa un mese.

Quindi possiamo trarne vantaggio, ma spesso solo su quelli più importanti. Li facciamo installare e poi c'è un processo che dice "Diamo la priorità". C'è una serie di attività che possono avvenire in parallelo. Mi concentrerei sulla formazione per l'utilizzo dello strumento di query. Una volta che le persone iniziano a utilizzare lo strumento di query, prima di tutto, molte persone adorano il fatto che si tratti di un'unica interfaccia per tutti i loro diversi sistemi. Amano anche il fatto che sia basato sul Web, non comporta alcuna installazione se non lo desiderano. Da un punto di vista della sicurezza, a loro piace avere una sorta di punto di ingresso singolo, da un punto di vista della rete, tra una sorta di rete IT aziendale e il data center in cui vivono le origini dei dati di produzione. Quindi, configureranno Alation come strumento di query e inizieranno a utilizzare Compose come punto di accesso per tutti questi sistemi.

Quindi, una volta che ciò accade, ciò su cui ci concentriamo è sulla formazione, è capire quali sono alcune delle differenze tra uno strumento di query basato sul Web o basato sul server rispetto a quello che avresti sul desktop e alcune delle sfumature dell'uso quello. Allo stesso tempo, ciò che proveremo a fare è identificare i dati più preziosi, sfruttando nuovamente le informazioni del registro delle query e dicendo: “Ehi, potresti voler entrare e aiutare le persone a capirli. Iniziamo a pubblicare query rappresentative su queste tabelle. ”Questo è talvolta il modo più efficace per far girare la gente molto rapidamente. Diamo un'occhiata alla tua cronologia delle query, pubblica queste cose in modo che vengano visualizzate come prime query. Quando le persone guardano una pagina della tabella, possono vedere tutte le query che hanno toccato quella tabella e possono iniziare da lì. E quindi iniziamo ad aggiungere titoli e descrizioni a questi oggetti in modo che siano più facili da trovare e cercare, in modo da conoscere alcune sfumature di come usarlo.

Ci assicuriamo di dare uno sguardo approfondito al registro delle query in modo da poter generare la discendenza. Una delle cose che facciamo è guardare il registro delle query quando i dati si spostano da una tabella all'altra e ciò ci consente di porre una delle domande più frequenti su una tabella di dati, da dove proviene? Come mi fido? E quindi ciò che possiamo mostrare non è solo da quali altri tavoli proviene, ma come è stato trasformato lungo il percorso. Ancora una volta, questo è alimentato dal registro delle query.

Quindi ci assicuriamo che queste cose siano impostate e che stiamo entrando nel lignaggio nel sistema, e stiamo prendendo di mira i pezzi di metadati più preziosi e più sfruttati che possiamo stabilire nelle pagine della tabella, in modo che quando cerchi, trovi qualcosa di utile.

Robin Bloor: Ok. L'altra domanda - ci sono molte domande da parte del pubblico, quindi non voglio occuparmi troppo del tempo qui - l'altra domanda che mi viene in mente è solo i punti dolenti. Molti software sono stati acquistati perché le persone, in un modo o nell'altro, hanno difficoltà con qualcosa. Quindi qual è il punto dolente comune che porta le persone ad Alation?

David Crawford: Sì. Penso che ce ne siano alcuni, ma penso che uno di quelli che sentiamo abbastanza spesso sia l'analista a bordo. "Avrò bisogno di assumere 10, 20, 30 persone a breve termine che dovranno produrre nuove informazioni da questi dati, come faranno ad accelerare?" Quindi l'onboarding onboarding è qualcosa che sicuramente noi affrontare. C'è anche solo un sollievo per gli analisti senior dal passare tutto il loro tempo a rispondere alle domande degli altri sui dati. Anche questo è molto frequente. Ed entrambi sono essenzialmente problemi educativi.

E poi direi che un altro posto in cui vediamo che le persone adottano Alation è quando vogliono creare un nuovo ambiente di dati per qualcuno in cui lavorare. Vogliono pubblicizzare e commercializzare questo internamente affinché le persone possano approfittarne. Quindi rendere Alation il front-end per quel nuovo ambiente analitico è molto interessante. Ha la documentazione, ha un unico punto di introduzione al - un singolo punto di accesso ai sistemi, e quindi è un altro posto dove le persone verranno da noi.

Robin Bloor: Okay, ti passerò a Rebecca perché il pubblico sta cercando di raggiungerti.

Rebecca Jozwiak: Sì, abbiamo molte domande molto interessanti sul pubblico qui. E David, questo è stato posto appositamente per te. Viene da qualcuno che apparentemente ha una certa esperienza con le persone che fanno un po 'di domande abusive, e in un certo senso dice che più autorizziamo gli utenti, più è difficile governare l'uso responsabile delle risorse di calcolo. Quindi puoi difenderti dalla propagazione di frasi interrogative sbagliate ma comuni?

David Crawford: Sì, vedo questa domanda. È una grande domanda - una che riceviamo abbastanza frequentemente. Ho visto il dolore da solo in aziende precedenti, dove è necessario formare gli utenti. Ad esempio, "Questa è una tabella dei registri, ha registri che risalgono a anni fa. Se hai intenzione di scrivere una query su questa tabella, devi davvero limitare la data. ”Quindi, ad esempio, è un corso di formazione che ho seguito in una società precedente prima che mi venisse concesso l'accesso al database.

Abbiamo un paio di modi in cui proviamo a risolvere questo problema. Direi che penso che i dati del registro delle query siano davvero preziosi in modo univoco per affrontarli. Fornisce un'altra visione rispetto a ciò che il database fa internamente con il suo pianificatore di query. E quello che facciamo è uno di quegli interventi: abbiamo gli interventi manuali che ho mostrato, e questo è utile, giusto? Quindi su un particolare join, ad esempio, puoi dire "depreciamo questo". Avrà una grande bandiera rossa quando si presenta in suggerimenti intelligenti. Quindi questo è un modo per cercare di raggiungere le persone.

Un'altra cosa che facciamo è, automatizzata durante gli interventi in fase di esecuzione. Che utilizzerà effettivamente l'albero di analisi della query prima di eseguirlo per vedere, include un certo filtro o un paio di altre cose che facciamo anche lì. Ma uno dei più preziosi e il più semplice da spiegare è, include un filtro? Quindi, come nell'esempio che ho appena fatto, questa tabella di registro, se hai intenzione di interrogarlo, deve avere un intervallo di date, puoi specificare lì nella pagina della tabella che devi applicare quel filtro di intervallo di date. Se qualcuno tenta di eseguire una query che non include quel filtro, in realtà li interromperà con un grande avvertimento e dirà: "Probabilmente dovresti aggiungere un SQL simile a questo alla tua query". Possono continuare se loro vogliono. In realtà non li vieteremo completamente di usarlo: è anche una query, deve, alla fine, eseguire query. Ma mettiamo un grosso ostacolo davanti a loro e diamo loro un suggerimento, un suggerimento concreto applicabile per modificare la query per migliorare le loro prestazioni.

Lo facciamo anche automaticamente in alcuni casi, sempre osservando il registro delle query. Se vediamo che una percentuale molto elevata di query su questa tabella sfrutta un filtro particolare o una clausola di join particolare, allora verrà effettivamente visualizzata. Lo promuoveremo a un intervento. In realtà, mi è successo su un set di dati interno. Abbiamo i dati dei clienti e abbiamo ID utente, ma l'ID utente impostato, poiché è un po '- abbiamo ID utente per ogni cliente. Non è univoco, quindi è necessario associarlo a un ID client per ottenere una chiave di join univoca. E stavo scrivendo una query e ho provato ad analizzare qualcosa, che è saltato fuori e ha detto: “Ehi, tutti gli altri sembrano unirsi a queste tabelle con l'ID client e l'ID utente. Sei sicuro di non volerlo fare? ”E in realtà mi ha impedito di fare delle analisi errate. Funziona quindi sia per l'accuratezza dell'analisi sia per le prestazioni. Quindi è un po 'come affrontiamo quel problema.

Rebecca Jozwiak: Mi sembrerebbe efficace. Hai detto che non impedirai necessariamente alle persone di recuperare risorse, ma in qualche modo insegnano loro che quello che stanno facendo potrebbe non essere il migliore, giusto?

David Crawford: Partiamo sempre dal presupposto che gli utenti non sono malintenzionati - diamo loro i migliori intenti - e cerchiamo di essere piuttosto aperti in quel modo.

Rebecca Jozwiak: Ok. Ecco un'altra domanda: “Qual è la differenza tra un gestore di catalogo, come con la tua soluzione, e uno strumento MDM? Oppure si basa su un principio diverso allargando la scelta delle tabelle di query, mentre MDM lo farebbe automaticamente, ma con lo stesso principio sottostante della raccolta dei metadati. "

David Crawford: Sì, penso che quando guardo alle tradizionali soluzioni MDM, la differenza principale è filosofica. È tutto su chi è l'utente. Un po 'come ho detto all'inizio della mia presentazione, Alation, penso che quando siamo stati fondati, siamo stati fondati con l'obiettivo di consentire agli analisti di produrre più approfondimenti, per produrli più velocemente, per essere più precisi nelle intuizioni che essi produrre. Non credo che sia mai stato l'obiettivo di una soluzione MDM tradizionale. Tali soluzioni tendono ad essere rivolte alle persone che devono produrre rapporti su quali dati sono stati acquisiti dall'SCC o internamente per altri tipi di scopi di controllo. A volte può abilitare gli analisti, ma è più spesso, se consentirà a un professionista nel loro lavoro, è più probabile abilitare un architetto di dati come un DBA.

Quando pensi alle cose dal punto di vista di un analista, è allora che inizi a creare uno strumento di query che uno strumento MDM non farebbe mai. Questo è quando inizi a pensare alle prestazioni e alla precisione, oltre a capire quali dati si riferiscono alle esigenze della mia azienda. Tutte queste cose sono cose che risaltano nella nostra mente quando progettiamo lo strumento. Entra nei nostri algoritmi di ricerca, entra nel layout delle pagine del catalogo e nella capacità di contribuire con le conoscenze di tutta l'organizzazione. Il fatto è che abbiamo creato lo strumento di query e che abbiamo creato il catalogo direttamente in esso, quindi penso che provenga davvero da quello. Quale utente hai in mente per primo?

Rebecca Jozwiak: Okay, bene. Questo mi ha davvero aiutato a spiegarlo. che moriva dalla voglia di ottenere un archivio perché doveva andarsene, ma voleva davvero che la sua domanda rispondesse. Ha detto che è stato menzionato all'inizio che ci sono più lingue, ma SQL è l'unico linguaggio sfruttato all'interno del componente Compose?

David Crawford: Sì, è vero. E una delle cose che ho notato, quando ho assistito all'esplosione dei diversi tipi di database, database di documenti, database di grafici, archivi di valori chiave, è che sono davvero potenti per lo sviluppo di applicazioni. Possono soddisfare esigenze particolari davvero molto bene, in modo migliore rispetto ai database relazionali.

Ma quando li riporti all'analisi dei dati, quando li riporti a - quando vuoi fornire tali informazioni alle persone che stanno per fare rapporti ad hoc o scavare ad hoc nei dati, tornano sempre a un rapporto, almeno, interfaccia per gli umani. Parte di ciò è solo perché SQL è la lingua franca dell'analisi dei dati, quindi ciò significa, per gli umani, anche per gli strumenti che si integrano. Penso che questo sia il motivo per cui SQL su Hadoop è così popolare e ci sono così tanti tentativi per risolverlo, perché alla fine della giornata, questo è ciò che la gente sa. Probabilmente ci sono milioni di persone che sanno come scrivere SQL e non mi azzarderei a milioni di persone a sapere come scrivere una query sul framework della pipeline di aggregazione Mongo. E questo è un linguaggio standard che viene utilizzato per l'integrazione in una varietà davvero ampia di piattaforme. Quindi, tutto ciò che dice, raramente ci viene chiesto di uscire da esso perché questa è l'interfaccia che la maggior parte degli analisti usa, ed è un luogo in cui ci siamo concentrati, specialmente in Compose, che ci siamo concentrati sulla scrittura di SQL.

Direi che la scienza dei dati è il luogo in cui si avventurano di più al di fuori, e quindi riceviamo domande occasionali sull'uso di Pig o SAS. Queste sono cose che sicuramente non gestiamo in Compose e che vorremmo catturare nel catalogo. E vedo anche R e Python. Abbiamo un paio di modi in cui abbiamo creato interfacce per poter utilizzare le query scritte in Alation all'interno degli script R e Python, quindi, poiché spesso quando sei uno scienziato di dati e lavori in un linguaggio di scripting, il tuo i dati di origine sono in un database relazionale. Si inizia con una query SQL, quindi la si elabora ulteriormente e si creano grafici all'interno di R e Python. E abbiamo creato pacchetti che puoi importare in quegli script che estraggono le query o i risultati delle query da Alation in modo da poter avere un flusso di lavoro misto lì.

Rebecca Jozwiak: Ok, fantastico. So che siamo passati un po 'oltre la cima dell'ora, sto solo per fare una o due domande in più. So che hai parlato di tutti i diversi sistemi a cui puoi connetterti, ma per quanto riguarda i dati ospitati esternamente e i dati ospitati internamente, è possibile ricercarli insieme nella tua vista singola, nella tua unica piattaforma?

David Crawford: Sicuro. Ci sono alcuni modi per farlo. Voglio dire, ospitato esternamente, immagino, sto cercando di pensare esattamente a cosa potrebbe significare. Potrebbe significare un database che qualcuno sta ospitando in AWS per te. Potrebbe significare una fonte di dati pubblica da data.gov. Ci colleghiamo direttamente ai database accedendo proprio come un'altra applicazione con, con un account di database, ed è così che estraiamo i metadati. Quindi se abbiamo un account e abbiamo una porta di rete aperta, possiamo accedervi. E poi quando non abbiamo queste cose, abbiamo qualcosa chiamato un'origine dati virtuale, che ti consente essenzialmente di spingere la documentazione, sia automaticamente, scrivendo il tuo connettore, o compilandolo eseguendo anche come un caricamento CSV, per documentare i dati insieme ai tuoi dati interni. Tutto ciò viene inserito nel motore di ricerca. Diventa riferibile all'interno di articoli e altra documentazione e conversazioni all'interno del sistema. Quindi è così che gestiamo quando non possiamo collegarci direttamente a un sistema.

Rebecca Jozwiak: Ok, ha senso. Ti faccio solo un'altra domanda. Un partecipante è chiedendo: "In che modo il contenuto di un catalogo di dati deve essere convalidato, verificato o mantenuto, con l'aggiornamento dei dati di origine, con la modifica dei dati di origine ecc."

David Crawford: Sì, è una domanda che riceviamo molto, e penso che una delle cose che noi - una delle nostre filosofie, come ho detto, non crediamo che gli utenti siano dannosi. Partiamo dal presupposto che stanno cercando di contribuire con la migliore conoscenza. Non stanno per entrare e fuorviare deliberatamente le persone sui dati. Se questo è un problema nella tua organizzazione, forse Alation non è lo strumento giusto per te. Ma se si assumono buone intenzioni da parte degli utenti, allora, ci pensiamo come qualcosa in cui arrivano gli aggiornamenti, e quindi di solito quello che facciamo è affidare un amministratore a ciascun oggetto dati o ogni sezione dei dati. E possiamo informare quegli steward quando vengono apportate modifiche ai metadati e possono gestirlo in quel modo. Vedono arrivare gli aggiornamenti, li convalidano. Se non hanno ragione, possono tornare indietro e modificarli e informarli e, si spera, possono anche contattare l'utente che ha fornito le informazioni e aiutarli a imparare.

Quindi questo è il modo principale in cui pensiamo di farlo. Questo tipo di suggerimento da parte della folla e gestione da parte degli amministratori, quindi abbiamo alcune capacità al riguardo.

Rebecca Jozwiak: Okay, bene. E se solo potessi far sapere alla gente come possono iniziare meglio con Alation e dove possono andare specificatamente per ottenere maggiori informazioni. So che hai condiviso quel bit.ly. È il posto migliore?

David Crawford: Alation.com/learnmore Penso che sia un ottimo modo per andare. Per iscriverti a una demo, il sito Alation.com offre molte risorse, white paper per i clienti e notizie sulla nostra soluzione. Quindi penso che sia un ottimo punto di partenza. Puoi anche e-mail.

Rebecca Jozwiak: Ok, fantastico. E lo so, partecipanti, mi dispiace se non ho ricevuto tutte le domande oggi, ma in caso contrario, verranno inoltrate a David o al suo team di vendita o a qualcuno di Alation, in modo che possano sicuramente aiutare a rispondere alle vostre domande e aiutare a capire cosa fa Alation o cosa fanno meglio.

E con quello, gente, andrò avanti e ci firmeranno. Puoi sempre trovare gli archivi su InsideAnalysis.com. Puoi trovarlo anche su Techopedia.com. Tendono ad aggiornarsi un po 'più velocemente, quindi sicuramente dai un'occhiata. E grazie mille a David Crawford, Dez Blanchfield e Robin Boor oggi. È stato un grande webcast. E con questo, ti saluto. Grazie gente. Ciao ciao.

David Crawford: Grazie.

Il potere della suggestione: come un catalogo di dati dà potere agli analisti