Di Techopedia Staff, 25 agosto 2016
Takeaway: l' host Rebecca Jozwiak discute il fenomeno dell'analitica integrata e dei data scientist con il dottor Robin Bloor, Dez Blanchfield e David Sweenor.
È necessario registrarsi per questo evento per visualizzare il video. Registrati per vedere il video.
Rebecca Jozwiak: signore e signori, ciao e benvenuti in Hot Technologies. "Incorpora ovunque: abilitare il cittadino scienziato dei dati" è il nostro argomento oggi. Sto compilando per il tuo solito ospite, questa è Rebecca Jozwiak per Eric Kavanagh. Sì, quest'anno è caldo. In particolare il termine "data scientist" ha attirato molta attenzione anche se li chiamavamo noiosi nomi come "statistico" o "esperto di analisi", affrontando praticamente lo stesso tipo di attività ma ha un nuovo nome sexy ed è attirare molta attenzione. Sono altamente desiderabili sul posto di lavoro, vantaggiosi per l'organizzazione e tutti ne vogliono uno. Ma sono: 1) costosi, 2) difficili da trovare. Sai, sono state tutte le notizie sulla carenza di abilità dei data scientist, sì, ma offrono comunque un enorme valore all'organizzazione e le persone chiedono a gran voce come ottenere quel valore senza dover perdere tempo, quindi parlare.
Ma la buona notizia è che stiamo vedendo strumenti e software che stanno compensando questa carenza. Abbiamo automazione, apprendimento automatico, analisi incorporata, che è ciò di cui impareremo oggi, ed è un po 'nato da questo nuovo termine, "scienziato dei dati dei cittadini", e cosa significa? No, non è il tuo esperto di dati, potrebbe essere il tuo utente aziendale, il tuo esperto di BI, qualcuno dell'IT, qualcuno che ha il background ma forse non necessariamente l'esperienza. Ma ciò che fa, questi strumenti e il software, è che consente a più persone di accedere a quelle soluzioni intelligenti anche se potrebbero non conoscere la codifica approfondita. Ma aiuta solo a migliorare le prestazioni complessive quando offri a tutti un po 'più di accesso a quel pensiero analitico. Non devi avere la formazione necessariamente per avere il tipo di curiosità che può portare a buone intuizioni per la tua azienda.
Discutiamo che oggi con noi c'è il nostro Robin Bloor, capo analista del Bloor Group, uno degli sfuggenti data scientist, Dez Blanchfield, e poi David Sweenor di Dell Statistica ci farà una presentazione oggi. E con ciò lo passerò a Robin Bloor.
Robin Boor: Okay, grazie per questa presentazione. Ci ho pensato in un contesto storico. Quello che stiamo effettivamente guardando qui è uno dei disegni di Leonardo da Vinci per una specie di aliante che un uomo potrebbe mettere sulla schiena. Non ho idea se funzionerebbe davvero. Non ci entrerei, devo dire. Tuttavia, da Vinci, ogni volta che penso a Da Vinci, lo considero una delle persone più curiose e analitiche che siano mai esistite. Ed è abbastanza chiaro se guardi quell'aliante che è progettato sulla base dell'ala di un uccello e ha studiato in un modo o nell'altro i voli degli uccelli per costruirlo.
Se prendiamo la prospettiva storica - in realtà l'ho cercato - l'analisi è forse l'applicazione più antica della matematica. Ci sono censimenti che risalgono almeno ai tempi babilonesi. Lo sappiamo perché ci sono fondamentalmente alcuni tablet cuneiformi con dati come quelli su di essi. Non è noto se ci fosse qualcosa che è tornato prima. Ma la cosa ovvia è che ti sei procurato una civiltà con una vasta popolazione di persone, in realtà richiede pianificazione e vale la pena sapere cosa stai pianificando e quali sono i requisiti di quelle persone in realtà.
Ed è da lì che è iniziato ed è anche lì che è iniziata l'informatica perché i primi computer, i primi computer meccanici, erano in realtà, penso che il primo sia stato il censimento creato da Hollerith, che è diventato IBM, credo. Tutto questo è andato avanti. C'è stato un qualche tipo di interludio tra forse gli anni '70 e i giorni nostri, dove ci sono un gran numero di altre applicazioni e analisi, si potrebbe dire, hanno fatto un passo indietro. Sì, c'erano analisi in corso - stava accadendo in grandi organizzazioni, in particolare banche e compagnie assicurative, e in realtà General Electric e telco e cose del genere - ma non era generalmente utilizzato in tutto il mondo degli affari e ora sta iniziando ad essere utilizzato in generale in tutto attività commerciale. Ed è cambiato il gioco, davvero. La prima cosa su cui ho pensato di attirare l'attenzione è la piramide dei dati, che mi piace particolarmente. Voglio dire, ho disegnato uno di questi 20 anni fa - almeno 20 anni fa - per cercare di capire, davvero, in quel momento, stavo cercando di capire la BI e alcuni dei primi data mining che venivano fatti. Quello che ho definito qui è l'idea dei dati e gli esempi sono segnali, misure, registrazioni, eventi, transazioni, calcoli, aggregazioni, singoli punti di informazione. Potresti pensarli come molecole di informazioni, ma sono punti individuali. Diventa informazione non appena ottiene contesto. Dati collegati, dati strutturati, database, visualizzazione di dati, plotter, diagrammi e ontologie: tutti si qualificano nella mia mente come informazioni perché ciò che hai fatto è aggregare molta varietà insieme e creare qualcosa di molto più di un punto dati, qualcosa che in realtà ha una forma, una forma matematica.
Inoltre abbiamo conoscenza. Esaminando le informazioni, possiamo apprendere che esistono vari schemi e possiamo sfruttare tali schemi formulando regole, politiche, linee guida, procedure e quindi assume la forma di conoscenza. E praticamente tutti i programmi per computer, qualunque cosa stiano facendo, sono a conoscenza di un tipo, perché lavorano contro i dati e applicano loro le regole. Abbiamo questi tre strati e c'è un perfezionamento crescente che si estende tra i livelli. E sul lato sinistro di questo diagramma vengono mostrati i nuovi dati che entrano, quindi molte di queste cose sono statiche. I dati si stanno accumulando, le informazioni si stanno accumulando e la conoscenza è potenzialmente in crescita. Nella parte superiore, abbiamo "comprensione" e vorrei mantenere, sebbene si tratti di un argomento filosofico, che la comprensione risieda solo negli esseri umani. Se mi sbaglio, allora saremo tutti sostituiti dai computer ad un certo punto nel tempo. Ma invece di discutere, passerò alla diapositiva successiva.
Quando ho visto questo, la cosa interessante, questa è una cosa recente, la cosa interessante è stata cercare di capire cosa fosse effettivamente l'analisi. E alla fine tracciando vari diagrammi e finendo con uno simile a questo, sono giunto alla conclusione, in realtà, lo sviluppo dell'analisi è in realtà solo uno sviluppo software con una terribile quantità di formule matematiche. L'esplorazione analitica è un po 'diversa dallo sviluppo del software, nel senso che in realtà prenderemmo molti, molti modelli diversi e li esamineremo per generare nuove conoscenze sui dati. Ma una volta che lo hai generato, viene implementato in quello che io penso come supporto decisionale passivo, che è l'informazione che è appena stata alimentata da un utente; supporto decisionale interattivo, che è cose come OLAP, in cui all'utente viene fornito un insieme strutturato di dati che può indagare e dedurre le cose per se stesso utilizzando i vari strumenti disponibili. Molta visualizzazione è così. E poi abbiamo l'automazione se puoi semplicemente trasformare alcune intuizioni analitiche che hai raccolto in un insieme di regole che possono essere implementate, non hai necessariamente bisogno di un essere umano per essere coinvolto. Questo è il tipo di modo in cui l'ho visto quando ho fatto tutto ciò. E mi sono venute in mente varie cose. Una volta che un'area di attività, dovremmo dire, una volta che un dominio di dati è effettivamente estratto, completamente estratto, esplorato completamente attraverso ogni possibile direzione, alla fine diventa semplicemente BI cristallizzato. La conoscenza inventata inizia a diventare conoscenza che informa i vari utenti in vari modi e aumenta la loro capacità, si spera, di svolgere effettivamente il lavoro che svolgono.
Una delle cose che ho notato e ho analizzato l'analisi predittiva per circa cinque anni, ma l'analisi predittiva sta diventando BI, nel senso che si sta trasformando in informazioni utili da alimentare alle persone e, come ho già sottolineato, c'è il reporting BI automatizzato, BI esplorativo, BI, gradazioni molto diverse e l'analisi predittiva sta effettivamente andando in tutte e tre le direzioni. E il processo analitico, come ho sottolineato, non è così diverso dallo sviluppo del software, fatto solo da persone diverse con competenze leggermente diverse. Suppongo che dovrei sottolineare che le competenze necessarie per rendere un bravo scienziato dei dati impiegano anni per acquisire. Non sono facilmente acquisibili e non un gran numero di persone può farlo, ma è perché comporta la comprensione della matematica a un livello molto sofisticato per sapere cosa è valido e cosa non è valido. Sviluppo di analisi, scoperta di nuove conoscenze, impianto di analisi, si tratta di rendere operative le conoscenze. Questo è il tipo di sfondo che vedo per tutta l'analisi. È un'area enorme e ci sono molte, molte dimensioni, ma penso che la generalizzazione si applichi a tutto.
Poi c'è l'interruzione del business, come ho già detto, ci sono un certo numero di organizzazioni, le aziende farmaceutiche sono un'altra, che nel loro DNA hanno analisi. Ma ci sono molte organizzazioni che non lo hanno davvero nel loro DNA, e ora hanno la capacità, ora il software e l'hardware sono molto più economici di quanto non fossero prima, ora hanno la capacità di sfruttarlo. Direi un certo numero di cose. La prima cosa è che l'analisi è, in molti casi è R&S. Potresti semplicemente applicare l'analisi a un'area specifica dell'organizzazione e potrebbe sembrare banale che tu, in un modo o nell'altro, analizzi ancora una volta gli ordini dei clienti da varie prospettive, unendoli ad altri dati. Ma l'analitica in realtà crea la possibilità di guardare l'organizzazione nel suo insieme e di analizzare praticamente ogni particolare attività che sta avvenendo all'interno dell'organizzazione e intere catene di attività. Ma una volta che ti trasferirai in quell'area, manterrei che è ricerca e sviluppo. E c'è una domanda che mi è stata posta un paio di volte, che è: "Quanto dovrebbe spendere un'azienda per l'analisi?" E penso che il modo migliore per pensare a fornire una risposta sia pensare all'analitica come alla R&S e chiedi semplicemente "Bene, quanto spenderesti in ricerca e sviluppo nell'area dell'efficienza del business?"
E le aziende che non hanno analisi, ci sono molte cose che non sanno. Prima di tutto, non sanno come farlo. Normalmente se in realtà stanno andando in un modo o nell'altro ad adottare l'analisi all'interno dell'organizzazione - praticamente non hanno altra scelta se non quella di rivolgersi a una consulenza che può aiutarli a farlo perché, sarebbe impossibile o davvero molto difficile per la maggior parte le aziende di assumere effettivamente un data scientist, trovarne uno, pagarne uno e in realtà fidarsi di loro per fare ciò che si desidera. Molto difficile. La maggior parte delle aziende non sa come assumere o educare il personale per svolgere effettivamente questo lavoro, e la ragione è semplicemente che non si trova ancora nel loro DNA, quindi non fa parte dei loro processi aziendali naturali. Questo porta al punto successivo. Non sanno come trasformarlo in un processo aziendale. Il modo migliore per farlo, a proposito, è quello di copiare ciò che le compagnie farmaceutiche e le compagnie assicurative, guardano, e alcune aziende nel centro sanitario, guardano solo il modo in cui usano le analisi e lo copiano. Perché è un processo aziendale. Non so come controllarlo o controllarlo. Questo in realtà, soprattutto ora che moltissime società di software hanno creato prodotti che automatizzano moltissime analisi. Il punto sull'auditing è importante, quando si dispone di una consulenza o di qualcuno sul sito di cui ci si può fidare per capire quali sono i risultati di qualsiasi calcolo analitico, è una sorta di scelta che si deve fare, ma se si mettono in strumenti di analisi davvero potenti nelle mani di persone che non comprendono correttamente l'analisi, è probabile che saltino a conclusioni che potrebbero non essere corrette. E come ho detto, le aziende non sanno come fare un budget.
Questi sono gusti di analisi, li esaminerò semplicemente. L'analisi statistica e la modellistica statistica sono significativamente diverse dall'analisi predittiva, la maggior parte delle quali è adatta alla curva. L'apprendimento automatico è diverso da ciò, l'analisi dei percorsi e le serie temporali, che fondamentalmente vengono eseguite sui flussi di stato, sono nuovamente diverse. L'analisi dei grafici è di nuovo diversa e l'analisi del testo e l'analisi semantica sono di nuovo diverse. Questo sta solo sottolineando che questa è una cosa molto multi-genere. Non lo è, non inizi a fare analisi, inizi a guardare i problemi che hai e cerchi i vari strumenti e i vari tipi di analisi che si adatteranno a questi. E infine, la rete netta. A causa dell'evoluzione dell'hardware e del software, a mio avviso l'analisi è agli inizi. C'è ancora molto, molto altro ancora da vedere e lo vedremo svolgersi nei prossimi anni. Penso di poter passare la palla a Dez ora.
Dez Blanchfield: Sì, parla di un atto difficile da seguire, Robin. Ho intenzione di visitare questo argomento brevemente da uno dei miei angoli preferiti, che è l'angolo dell'umano. Ci sono così tanti cambiamenti in atto nella nostra vita quotidiana. Una delle maggiori interruzioni della nostra vita quotidiana, attualmente secondo me, è solo il lavoro quotidiano. Passare al lavoro e cercare di fare il lavoro che sei assunto per fare, e la crescente aspettativa di passare da una persona comune a un supereroe e la quantità di informazioni che circolano nelle organizzazioni ed emettono molto, molto rapidamente, è una sfida significativa e sempre di più dobbiamo fornire strumenti sempre migliori alle persone per cercare di far fronte al flusso di conoscenza e informazioni e quindi ho pensato di provarci da un punto di vista divertente . Ma mi colpisce sempre il modo in cui abbiamo questa mente alta o flash mob e così via, che ci stanno spingendo verso ciò di cui parliamo come analitici ma in realtà ciò di cui stiamo parlando è rendere le informazioni disponibili alle persone, e permettendo loro di interagire con esso e farlo in modo tale che sia naturale e normale.
E in effetti, mi ricorda un video di YouTube di un bambino piccolo, piccolo, seduto sul pavimento ed è seduto lì a giocare con un iPad e si sta agitando e pizzicando e stringendo e spostando le immagini e giocando con lo schermo, i dati lì. E poi il genitore porta via l'iPad e mette una rivista, una rivista stampata in grembo al bambino. E questo bambino probabilmente non ha più di due anni. Il bambino inizia a provare a scorrere con lo schermo della rivista, a pizzicare e stringere e la rivista non risponde. Il bambino solleva il dito e lo guarda e pensa: "Hmm, non penso che il mio dito stia funzionando", e si infila nel braccio e pensa: "Ah no, il mio dito sta funzionando, posso sentire il mio braccio e quello ha un bell'aspetto ”e si contorce il dito, che si contorce e risponde. Sì. Quindi tenta di interagire di nuovo con la rivista, e basso ed ecco che non pizzica, stringe e scorre. Quindi portano via la rivista e rimettono l'iPad in grembo, e all'improvviso la cosa funziona. E quindi ecco un bambino che è venuto ed è stato addestrato per usare uno strumento analitico o uno strumento di streaming live per l'intrattenimento e non riesce a capire come dovrebbe funzionare una rivista e come sfogliare le pagine.
E questo è un concetto interessante in sé. Ma quando penso alle conoscenze che si spostano all'interno delle organizzazioni, al modo in cui i dati scorrono e al modo in cui le persone si comportano, penso spesso a questo concetto di ciò che le persone hanno imparato ad essere un flash mob, che è un evento in cui e quali social media fanno ancora più facile da fare, un'idea come tale che va in questo luogo in questo momento e data e azione, o video e impara queste danze, o indossa questo cappello colorato e punta verso nord all'una. E lo spingi fuori attraverso la tua rete e invariabilmente un intero carico di persone, centinaia di loro, si presentano nello stesso posto allo stesso tempo, fanno la stessa cosa e c'è questo fattore wow, questo tipo, "Vacca sacra, che era davvero impressionante! ”Ma in realtà è un'idea davvero semplice e un concetto semplice che viene semplicemente espulso attraverso le nostre reti e otteniamo questo risultato che è visivamente sbalorditivo e udibilmente impressionante. E quando pensi a un'organizzazione, al modo in cui vogliamo che le persone si comportino e al modo in cui vogliamo che gestiscano i sistemi informativi e i clienti, è spesso così semplice, è un'idea o un concetto o un tratto culturale o comportamentale che proviamo a trasmettere attraverso e potenziare con strumenti e informazioni.
E alla base di tutto questo mantra che ho avuto da oltre due decenni e mezzo e cioè, se il tuo personale non riesce a trovare ciò di cui ha bisogno per svolgere il proprio lavoro, siano essi strumenti o informazioni, invariabilmente reinventerà la ruota. E quindi questa è una sfida sempre crescente ora, dove abbiamo molta conoscenza e molte informazioni e cose che si muovono molto rapidamente, che vogliamo impedire alle persone di reinventare la ruota. E quando pensiamo al nostro ambiente di lavoro, tornando all'angolo delle persone, che è uno dei miei preferiti, sono rimasto sorpreso quando siamo rimasti sorpresi dal fatto che i cubicoli non fossero un ambiente favorevole per buoni risultati, o abbiamo allineato le cose come questo orribile le immagini qui, e non sono cambiate molto, hanno solo abbassato le pareti e le hanno chiamate spazi di lavoro aperti. Ma nel mezzo con l'anello giallo attorno a loro, ci sono due persone che si scambiano conoscenza. Eppure, se guardi il resto della stanza, sono tutti seduti lì sbattendo diligentemente lì, mettendo le informazioni in uno schermo. E il più delle volte, non scambiare davvero conoscenze e dati, e ci sono molte ragioni per questo. Ma l'interazione nel mezzo del pavimento a sinistra lì nel cerchio giallo, ci sono due persone che chiacchierano lì, scambiando conoscenza e probabilmente cercando di trovare qualcosa, cercando di dire: "Sai dove si trova questo rapporto, dove io riesci a trovare questi dati, quale strumento devo usare per fare questa cosa? ”. E probabilmente non ha funzionato, quindi non hanno nulla, e si sono mossi per il pavimento, infrangendo la regola dello spazio ufficio cubicolo e lo hanno fatto di persona.
E abbiamo avuto ambienti simili in ufficio che scherzosamente ci prendono in giro, ma la realtà è che sono abbastanza potenti ed efficaci. E uno dei miei preferiti è la piattaforma di analisi mobile o fissa chiamata il dispositivo di raffreddamento dell'acqua, dove le persone si avvicinano e chiacchierano lì intorno e scambiano conoscenze, confrontano idee ed eseguono analisi mentre si trovano al dispositivo di raffreddamento dell'acqua, scambiando idee. Sono concetti molto potenti quando ci pensi. E se riesci a tradurli nei tuoi sistemi e strumenti, otterrai un risultato sorprendente. E abbiamo il preferito di tutti i tempi, che è essenzialmente il più potente hub di distribuzione dati dell'ufficio, altrimenti noto come reception. E se non riesci a trovare qualcosa, dove vai? Bene, vai verso la parte anteriore dell'ufficio e vai alla reception e dici: "Sai dove si trova x, y, z?" E oso qualcuno dirmi che non l'hanno fatto almeno una volta in un nuovo lavoro o in un momento in cui non riescono a trovare qualcosa. E devi chiederti, perché è così? Dovrebbe trovarsi da qualche parte nell'Intranet o in qualche strumento o altro. Dovrebbe essere facile da trovare.
E quindi quando si tratta di dati e analisi e degli strumenti che abbiamo fornito al nostro personale per fare il loro lavoro e il modo in cui gli umani interagiscono con i lavori, ho la visione che prima della recente comparsa di strumenti di analisi e piattaforme di big data, o "elaborazione dei dati", così come lo chiamano nella vecchia scuola, la comunicazione e la condivisione delle conoscenze erano tutt'altro che dinamiche o collaborative o aperte, e quando si pensa al tipo di sistemi con cui ci aspettiamo che le persone facciano il loro lavoro, abbiamo avuto classico la gente chiama eredità ora, ma la realtà è che è solo l'eredità che è andata avanti ed è ancora qui oggi, e quindi non è davvero eredità. Ma i sistemi HR tradizionali e i sistemi ERP: gestione delle risorse umane, pianificazione delle risorse aziendali, gestione dei dati aziendali e sistemi che utilizziamo per gestire le informazioni per gestire un'azienda. È invariabilmente insilato. E dall'estremità superiore, piattaforme semplici come le intranet dipartimentali, che cercano di comunicare dove sono le cose e come ottenerle e come interagire con la conoscenza del luogo. Lo facciamo apparire sulla nostra intranet. È buono solo come le persone che fanno del tempo e degli sforzi per metterlo lì, altrimenti ti rimane solo nella testa. Oppure hai i dati in fondo alla catena alimentare, alle SAN aziendali e tutto il resto, quindi le reti di archiviazione sono piene di file e dati, ma chissà dove trovarli.
Il più delle volte, abbiamo creato queste piattaforme di dati chiuse o sistemi chiusi, e così le persone sono tornate ad artisti del calibro di fogli di calcolo e PowerPoints per passare informazioni sul luogo. Ma c'è stata una cosa interessante che è accaduta di recente, nella mia mente, e che i dispositivi mobili e Internet in generale funzionano in modo tale che le cose potrebbero effettivamente essere migliori. E prevalentemente nello spazio dei consumatori. Ed è interessante notare che nella vita di tutti i giorni abbiamo iniziato ad avere cose come l'internet banking. Non abbiamo dovuto andare fisicamente in una banca per interagire fisicamente con loro, potevamo farlo per telefono. Inizialmente era goffo ma poi è arrivato Internet e avevamo un sito web. Sai, e quante volte sei stato in banca di recente? In realtà non posso, ho avuto una conversazione su questo l'altro giorno, e in realtà non riesco a ricordare l'ultima volta che sono andato nella mia banca, di cui sono rimasto piuttosto scioccato, ho pensato di poterlo ricordare, ma è stato così a lungo fa in realtà non riesco a ricordare quando sono andato lì. E quindi ora abbiamo questi gadget in mano sotto forma di cellulari e telefoni, tablet e laptop, abbiamo reti e accesso a strumenti e sistemi e nello spazio dei consumatori abbiamo imparato che le cose possono essere migliori, ma perché del rapido cambiamento nello spazio dei consumatori, che è stato un cambiamento più letargico e glaciale all'interno dell'impresa e degli ambienti, non abbiamo sempre adottato quel cambiamento nella vita lavorativa quotidiana.
E adoro prendermi in giro per il fatto che non è possibile vivere i dati di streaming su hardcopy. In questa immagine qui c'è una persona seduta a guardare alcune analisi che sono state eseguite, e c'è un bel grafico che è stato prodotto da qualcuno che probabilmente sta pagando un sacco di soldi come statistico o attuario, e sono seduti lì cercando di fare analisi su una copia stampata e frugando su di esso. Ma ecco la cosa spaventosa per me: queste persone in questa sala riunioni, per esempio, e userò questo come esempio, stanno interagendo con dati che ora sono storici. Ed è vecchio da quando quella cosa è stata prodotta e poi stampata, quindi forse è un rapporto di una settimana. Ora stanno prendendo decisioni non tanto su dati errati ma su dati vecchi, che inevitabilmente possono essere dati errati. Stanno prendendo una decisione oggi sulla base di qualcosa di storico, che è davvero un brutto posto dove stare. Siamo riusciti a sostituire quella copia cartacea con dispositivi del calibro di tablet e telefoni perché ci siamo allenati molto rapidamente nello spazio dei consumatori e ora lo abbiamo risolto nello spazio aziendale, che il tempo reale è una visione d'insieme è un valore in tempo reale.
E stiamo migliorando sempre di più. E mi porta al punto che Robin ha sollevato in precedenza, quello era il concetto di scienziato dei dati dei cittadini e la spinta di questo concetto. Per me, un cittadino scienziato di dati è solo gente normale con gli strumenti e le informazioni giusti come un iPad. Non devono fare i conti con la matematica, non devono conoscere gli algoritmi, non devono sapere come applicare gli algoritmi e i dati delle regole, devono solo sapere come utilizzare l'interfaccia. E questo mi riporta alla mia introduzione e al concetto del bambino seduto lì con un iPad contro una rivista, contro un iPad. Il bambino può imparare molto rapidamente e intuitivamente come utilizzare l'interfaccia di un iPad per immergersi nelle informazioni e interagire con esso, anche se forse un gioco o uno streaming multimediale o un video. Ma non è possibile ottenere la stessa risposta o interazione da una barra di una rivista e solo lampeggiare pagina dopo pagina, il che non è molto coinvolgente, in particolare se sei un bambino cresciuto con iPad. Invariabilmente, gli esseri umani possono guardare e imparare molto rapidamente come guidare strumenti e cose che se li forniamo e se forniamo loro un'interfaccia come dispositivi mobili e in particolare tablet e smartphone con schermi abbastanza grandi, e in particolare se è possibile interagire li al tocco, con movimenti delle dita, all'improvviso si ottiene questo concetto di cittadino scienziato di dati.
Qualcuno che può applicare la scienza dei dati con gli strumenti giusti, ma senza realmente sapere come farlo. E nella mia mente gran parte di questo, come ho detto, è stato guidato dall'influenza del consumatore, che si è spostata e trasformata in domanda e impresa. Un paio di esempi davvero rapidi. Noi, molti di noi inizierebbero a fare cose con i nostri blog e siti Web, ad esempio inserendo piccoli annunci o osservando il monitoraggio e il movimento, abbiamo utilizzato strumenti come Google Analytics e siamo stati svegliati dal fatto che nei nostri blog e piccoli siti Web, potremmo inserire piccoli frammenti di codice e Google ci fornirà informazioni in tempo reale su chi sta visitando il sito Web, quando e dove e come. E in tempo reale potremmo davvero vedere le persone colpire il sito Web, scorrere le pagine e poi svanire. Ed è stato abbastanza sorprendente. Adoro farlo ancora, quando provo a spiegare le analisi in tempo reale alle persone, lo stupido solo per mostrare loro un sito Web con Google Analytics collegato, e in realtà vedo l'interazione dal vivo con le persone che colpiscono i siti Web e chiedo loro: "Immagina se hai avuto questo tipo di approfondimenti sulla tua attività in tempo reale. "
Prendi un esempio di vendita al dettaglio, e forse un farmaco, penso che tu lo chiami un negozio di droga in America, una farmacia in cui entri e acquisti di tutto, dalle compresse per il mal di testa alla crema solare e cappelli. Cercare di gestire un'organizzazione senza informazioni in tempo reale è un concetto spaventoso ora sappiamo cosa sappiamo. Ad esempio, puoi misurare il traffico pedonale, puoi mettere i dispositivi nel negozio con una faccina sorridente su un lato dello schermo perché sei felice e un rosso infelice all'estrema destra e alcune sfumature diverse nel mezzo. Al giorno d'oggi c'è una piattaforma chiamata "Happy or Not", in cui entri in un negozio e puoi sbattere una faccia felice o triste, a seconda del feedback dal vivo del sentimento del cliente. E questo può essere interattivo in tempo reale. Puoi ottenere prezzi basati sulla domanda dal vivo. Se ci sono molte persone lì dentro, puoi aumentare un po 'i prezzi e puoi fare la disponibilità delle scorte e dire alla gente, ad esempio - le compagnie aeree, ad esempio, diranno alla gente quanti posti sono disponibili ora sul sito web quando tu Stai prenotando un volo, non devi solo comporre un numero casuale e spero che tu possa alzarti e ottenere un volo. Dati sulle risorse umane in tempo reale, puoi sapere quando le persone si accendono e si spengono. Approvvigionamento, se sei in procurement e hai dati in tempo reale, potresti fare cose come aspettare un'ora e coprire il prezzo del dollaro USA per acquistare il tuo prossimo carico di stock e far salire un camion di cose.
Quando mostro alla gente Google Analytics e trasmetto quel tipo di aneddoto, questo momento di eureka, questo momento di "a-ha!", Questa lampadina si spegne nella loro mente come "Hmm, posso vedere molti posti dove potrei farlo . Se solo avessi gli strumenti e se solo avessi accesso a quella conoscenza. ”E lo stiamo vedendo ora sui social media. Chiunque sia un esperto di social media oltre a mostrare le foto della sua colazione, tende a vedere quanti mi piace e quanto traffico stanno ricevendo e quanti amici stanno ricevendo, e lo fanno con il come, ad esempio, Twitter come strumento di analisi. Puoi andare su Twitter.com per utilizzare lo strumento, ma scrivi in Google Twitter Analytics dot com oppure fai clic sul pulsante in alto a destra e scorri il menu verso il basso e lo fai, ottieni questi graziosi grafici dal vivo che ti dicono quanti tweet stai facendo te stesso e quante interazioni con loro. E analisi in tempo reale solo sui tuoi social media personali. Immagina se avessimo Google Analytics e Facebook e LinkedIn e Twitter, le statistiche di eBay arrivate da te, ma nel tuo ambiente di lavoro.
Ora abbiamo il tipo di web e mobile a portata di mano, diventa un concetto di potenza. E questo mi porta alla mia conclusione, e cioè che invariabilmente ho scoperto che le organizzazioni che sfruttano gli strumenti e la tecnologia in anticipo, ottengono un vantaggio così significativo rispetto ai concorrenti che i concorrenti potrebbero effettivamente non raggiungere mai. E lo stiamo vedendo ora con il conflitto dello scienziato dei dati dei cittadini. Se riusciamo a prendere le persone con le competenze, le conoscenze per le quali le abbiamo assunte, e possiamo offrire loro gli strumenti giusti, in particolare la capacità di vedere i dati in tempo reale e scoprire i dati e sapere dove si trovano senza dover camminare tra i cubicoli e porre domande ad alta voce, dovendo andare a stare al radiatore dell'acqua per fare analisi comparative con le persone o andare a chiedere alla reception dove si trova l'indice. Se riescono a farlo a portata di mano e possono portarlo alle loro riunioni con loro e sedersi in una sala del consiglio sfogliando gli schermi in tempo reale anziché su carta stampata, all'improvviso abbiamo dato potere al nostro personale che non ha bisogno di essere reale data scientist, ma per utilizzare effettivamente la data science e ottenere risultati sorprendenti per le organizzazioni. E penso che questo punto di non ritorno in realtà sia passato ora in cui il consumatore è guidato nell'impresa, la sfida è come forniamo quell'impresa, ed è questo il tema che immagino della discussione di oggi. E con questo, ho intenzione di avvolgere il mio pezzo e consegnarlo per sapere come potremmo risolverlo. David, oltre a te.
David Sweenor: Va bene, grazie mille ragazzi e grazie Robin. Sai, Robin, sono d'accordo con la tua valutazione originale. Processo analitico, in realtà non è diverso dallo sviluppo del software. Penso che la sfida all'interno di un'organizzazione sia proprio, sai, forse le cose non sono così ben definite, forse c'è una componente esplorativa ad essa e una componente creativa ad essa. E Dez, sai, sono d'accordo con te, c'è un sacco di reinventare la ruota, e sai, non c'è un'organizzazione in cui vado oggi, domanda, beh, perché lo fai in questo modo? Perché l'azienda funziona in questo modo? Ed è facile mettere in discussione e molte volte quando sei all'interno di un'organizzazione, è difficile cambiare. Adoro l'analogia, la consumerizzazione delle cose. E così non più quando vado in aeroporto e voglio cambiare posto, lo faccio sul cellulare. Non devo andare dall'agente allo stand e guardare quell'agente digitare qualcosa su un monitor monocromatico per 15 minuti per cambiare l'assegnazione del posto. Preferisco solo farlo sul mio telefono, quindi è uno sviluppo interessante.
Oggi parleremo un po 'dell'intelligenza collettiva. Per coloro che non sono a conoscenza, Statistica è una piattaforma di analisi all'avanguardia, che esiste da oltre 30 anni. Se guardi una qualsiasi delle pubblicazioni nel settore degli analisti, viene sempre considerato uno dei pacchetti software di analisi avanzata più intuitivi e facili da usare. Quindi abbiamo passato gli ultimi anni a lavorare su un concetto chiamato intelligenza collettiva e lo stiamo portando al livello successivo. Volevo iniziare questa conversazione con: come viene svolto il lavoro nella tua organizzazione?
E ci sono due immagini qui. Quello a sinistra è un'immagine degli anni '60, e non ho iniziato la mia carriera negli anni '60, ma l'immagine a destra è - quella è una fabbrica di semiconduttori dove ho iniziato a lavorare. E ho lavorato in quell'edificio nero, con il tetto nero in alto a sinistra. Ma hanno prodotto materiale per semiconduttori. Questa è una foto recente di Google Immagini. Ma quando torni all'immagine degli anni '60 a sinistra, è molto interessante. Hai queste persone sedute in fila e stanno costruendo, sai, circuiti integrati e semiconduttori. Ma c'è una standardizzazione, c'è un modo standard di fare le cose e c'è stato un processo ben definito. Sai, forse dato che tutte queste persone sono sedute in un ambiente aperto, forse c'è stata una certa collaborazione. Penso che ne abbiamo perso un po 'all'interno della forza lavoro della conoscenza.
Quando sedevo in quell'edificio in alto a sinistra, se volevo collaborare con qualcuno, non era aperto. C'erano questi uffici, forse alcuni membri della squadra erano remoti, o forse dovevo attraversare questo campus; era una passeggiata di 25 minuti e avrei dovuto parlare con qualcuno nell'edificio all'estrema destra. Penso che abbiamo perso qualcosa lungo la strada. E così, sai, ho avuto lo stesso pensiero, perché le persone - quante persone continuano a reinventare la ruota all'interno della tua organizzazione? Penso che le organizzazioni nel loro insieme abbiano fatto un buon lavoro negli anni '90 e 2000 con CRM e data warehousing, e fino a un certo punto BI. Per qualche ragione, l'analitica è leggermente rallentata. Ci sono stati investimenti significativi nell'archiviazione dei dati, nella standardizzazione e nella normalizzazione dei dati, e tutto questo e CRM, ma per alcuni motivi l'analisi è rimasta indietro. E mi chiedo perché. Forse c'è una creatività - forse il tuo processo non è ben definito, forse non sai quale decisione o leva stai cercando di trasformare, sai, nella tua attività per cambiare le cose. Quando entriamo nelle organizzazioni oggi, ci sono molte persone che fanno le cose molto manualmente nei fogli di calcolo.
E sai, stamattina ho guardato una statistica, penso che dicesse che l'80, il 90 percento dei fogli di calcolo presenta errori e alcuni di questi possono essere molto significativi. Come quello di Whale, dove JPMorgan Chase ha perso miliardi e miliardi di dollari a causa di errori del foglio di calcolo. Quindi ho la premessa che penso, ci deve essere un modo migliore per fare le cose. E come abbiamo detto, abbiamo questi data scientist. Questi ragazzi sono costosi e difficili da trovare. E a volte sono un po 'una strana anatra. Ma penso, sai, se dovessi riassumere cosa sia uno scienziato di dati, è probabilmente qualcuno che capisce i dati. Penso che sia qualcuno che capisce la matematica, qualcuno che capisce il problema. E davvero, qualcuno in grado di comunicare i risultati. E se sei uno scienziato di dati, in questo momento sei molto fortunato, perché il tuo stipendio è probabilmente raddoppiato negli ultimi anni.
A dire il vero, molte organizzazioni non hanno questi data scientist, ma la tua organizzazione ha persone intelligenti. Hai un'organizzazione, hai un sacco di persone intelligenti e usano fogli di calcolo. Sai, la statistica e la matematica non sono il loro compito principale, ma usano i dati per far progredire l'azienda. In realtà, la sfida che stiamo affrontando è, come prendi, se sei fortunato ad avere uno scienziato di dati o uno o due statistici, come puoi prenderli e come puoi migliorare la collaborazione tra quelle persone e il altre persone all'interno della tua organizzazione? Se diamo un'occhiata a come è strutturata la nostra organizzazione, inizierò e andrò da destra a sinistra. E so che questo è all'indietro, ma abbiamo questa linea di utenti aziendali.
Questa è la maggior parte della tua popolazione di knowledge worker e, per queste persone, devi integrare l'analisi nella tua linea di applicazioni aziendali. Forse stanno vedendo l'output analitico su uno schermo del call center o qualcosa del genere, e sta dicendo loro la prossima migliore offerta da offrire a un cliente. Forse è un consumatore o un fornitore su un portale web e dà loro immediatamente credito, o cose del genere. Ma l'idea è che stanno consumando analisi. Se andiamo a metà, questi sono questi lavoratori della conoscenza. Queste sono le persone che stanno facendo le cose con i fogli di calcolo oggi, ma i fogli di calcolo sono soggetti a errori e ad un certo punto rimangono senza gas. Questi data scientist cittadini, come li chiamiamo, sai, quello che stiamo cercando di fare per loro è davvero aumentare il livello di automazione.
E con l'analitica senti che dall'80 al 90 percento del lavoro è nella preparazione dei dati, e non è la matematica reale, ma è la preparazione dei dati. Stiamo cercando di automatizzare ciò, sia che tu lo faccia, e che abbiamo procedure guidate e modelli e cose riutilizzabili, e non devi davvero conoscere l'infrastruttura sottostante nel tuo ambiente. E poi se guardiamo all'estrema sinistra, abbiamo questi data scientist. E come ho già detto, sono scarsi. E quello che stiamo cercando di fare per renderli più produttivi, è consentire loro di creare cose che questi data scientist possono fare. Pensalo come un blocco Lego, in modo che questi data scientist possano creare un asset riutilizzabile che un data scientist cittadino può usare. Costruiscilo una volta, quindi non dobbiamo continuare a reinventare la ruota.
E poi, questi ragazzi potrebbero essere preoccupati se possiamo fare cose nel database e sfruttare gli investimenti tecnologici esistenti che la tua azienda ha fatto. Sai, al giorno d'oggi non ha senso mescolare i dati avanti e indietro in tutto il mondo. Quindi, se guardiamo a Statistica, come ho già detto, è una piattaforma che esiste da molto tempo. Ed è un prodotto molto innovativo. Miscelazione dei dati, non esiste un'origine dati a cui non possiamo accedere. Abbiamo tutti i dati di scoperta e visualizzazione che ti aspetteresti; possiamo farlo in tempo reale. E probabilmente ha - Penso che ci siano oltre 16.000 funzioni analitiche all'interno dello strumento software, quindi è più matematica di quanto potrei mai usare o capire, ma è lì se ne hai bisogno.
Abbiamo la capacità di combinare sia le regole aziendali che i flussi di lavoro analitici per prendere davvero una decisione aziendale. Stai andando oltre, ecco un algoritmo, ecco un flusso di lavoro, ma hai regole di business che devi sempre affrontare. Siamo molto sicuri nella governance. Siamo utilizzati in molti clienti farmaceutici, in quanto la FDA si fida di noi. Sai, solo la prova nel budino che abbiamo i controlli e la capacità di audit di essere accettati da loro. E infine, sai, siamo aperti, flessibili ed estensibili, quindi è necessario creare una piattaforma che sia, vuoi che i tuoi data scientist siano produttivi, vuoi che i tuoi data scientist siano produttivi, vuoi essere in grado distribuire questi output analitici ai lavoratori all'interno dell'organizzazione.
Se diamo un'occhiata a questo, ecco un esempio di alcune delle visualizzazioni. Ma essere in grado di distribuire l'output analitico agli utenti line-of-business, quindi il primo esempio a sinistra, è un diagramma analitico di rete. E forse sei un investigatore di frodi, e non sai come vengono fatte queste connessioni, e queste possono essere persone, queste possono essere entità, questi possono essere contratti, qualsiasi cosa. Ma puoi manipolarlo con il mouse e interagire con esso per capire davvero - se sei un investigatore di frodi, per capire un elenco prioritario di chi indagare, giusto, perché non puoi parlare con tutti, quindi hai prioritizzare.
Se guardiamo l'immagine sul lato destro lì, per una dashboard di manutenzione predittiva, questo è un problema davvero interessante. Forse sei il proprietario di un aeroporto e hai questi body scanner. Questi body scanner, se vai in un aeroporto, ci sono alcuni componenti che hanno una durata di circa nove mesi. E queste cose sono davvero molto care. Se ho più punti di ingresso, più scanner nel mio aeroporto, numero uno, voglio assicurarmi di avere un personale adeguato in ciascuna delle porte e per le parti che si trovano negli scanner, non voglio ordinarli anch'io presto, e voglio averli prima che si rompano. Abbiamo la capacità, forse se possiedi un aeroporto, di essere in grado di prevedere quando queste cose si romperanno e prevedere i livelli di personale.
Se guardiamo in basso a destra, questo è se ti trovi in un ambiente di produzione, questa è solo una rappresentazione grafica del flusso di produzione. Ed è un po 'difficile da vedere, ma ci sono semafori rossi e verdi su questi vari settori di processo, quindi se sono un ingegnere, ci sono matematiche molto sofisticate, ma posso approfondire quel particolare settore di processo e guardare i parametri e inseriscili, forse causando un controllo incontrollato. Se guardiamo il nostro scienziato dei dati dei cittadini, il nostro obiettivo è davvero quello di rendere più facile per lo scienziato dei dati dei cittadini. Abbiamo procedure guidate e modelli e una cosa che penso sia davvero interessante è che abbiamo questo nodo di controllo dello stato dei dati automatizzato. E davvero ciò che fa, ha intelligenza integrata.
Ho citato la preparazione dei dati: ci vuole molto tempo, sia nell'aggregazione dei dati che nella preparazione. Ma supponiamo che io abbia i miei dati, posso eseguirli attraverso questo nodo di controllo dello stato dei dati, e controlla l'invarianza, la scarsità e gli outlier, e tutte queste cose, riempie i valori mancanti e fa molta matematica che faccio capisco, quindi posso accettare le impostazioni predefinite o, se sono un po 'più intelligente, posso cambiarle. Ma il punto è che vogliamo automatizzare questo processo. Questa cosa esegue circa 15 diversi controlli e risultati su un set di dati pulito. Quello che stiamo facendo è rendere più facile per le persone creare questi flussi di lavoro.
Qui è dove stiamo parlando della collaborazione tra data scientist e cittadini data scientist. Se guardiamo queste immagini sulla destra, vediamo questo flusso di lavoro di preparazione dei dati. E forse questo è molto sofisticato, forse questa è la salsa segreta della tua azienda, non lo so, ma sappiamo che qualcuno all'interno della tua organizzazione può accedere a uno o più di questi silos di dati che abbiamo. Abbiamo bisogno di un modo, numero uno, afferrarli e ricucirli insieme, e numero due, forse c'è un'elaborazione speciale che vogliamo fare, che va oltre il nostro controllo dello stato dei dati, ed è la salsa segreta della tua azienda. Posso creare questo flusso di lavoro all'interno della nostra organizzazione e collassa come nodo. Vedi la freccia che punta verso il basso, è solo un nodo e possiamo avere un centinaio di queste cose all'interno di un'organizzazione. L'idea è che abbiamo persone che sanno qualcosa su un determinato spazio, possono creare un flusso di lavoro e qualcun altro può riutilizzarlo. Stiamo cercando di ridurre al minimo la reinvenzione della ruota.
E possiamo fare la stessa cosa con i flussi di lavoro di modellazione analitica. In questo caso a destra, questo flusso di lavoro, forse ci sono 15 algoritmi diversi e voglio scegliere quello migliore per l'attività. E non devo capire come scienziato dei dati dei cittadini cosa sta succedendo in quella ragnatela, ma collassa in un nodo e forse quel nodo dice semplicemente "calcola il punteggio del rischio di credito". "Calcola la possibilità di un'infezione del sito chirurgico ", che cosa hai. "Calcola la probabilità che qualcosa sia una transazione fraudolenta". Come cittadino scienziato dei dati, posso usare questa matematica molto sofisticata che qualcun altro ha costruito, forse uno di questi scienziati dei dati ha costruito all'interno della mia organizzazione.
Dal punto di vista della scienza dei dati, ho parlato con data scientist che adorano scrivere codice e ho parlato con data scientist che odiano scrivere codice. E va bene, quindi abbiamo un'interfaccia utente molto visiva e grafica. Possiamo prendere i nostri dati, possiamo fare il nostro controllo di integrità automatizzato dei dati e forse voglio scrivere il codice. Mi piace Python, mi piace R, ma l'idea è che questi data scientist scarseggiano e a loro piace il codice in un particolare linguaggio. In particolare non abbiamo una preferenza per la lingua in cui vuoi codificare, quindi se vuoi fare R, fai R; se vuoi fare Python, fai Python. È fantastico. Se desideri eseguire il burst della tua analisi in Azure, espandi la tua analisi nel cloud. E quindi l'obiettivo qui è davvero quello di offrire flessibilità e opzioni per rendere i vostri data scientist più produttivi possibile.
Ora i data scientist sono persone piuttosto intelligenti, ma forse non sono specialisti in tutto e forse ci sono delle lacune in ciò che possono fare. E se guardi fuori nel settore, ci sono molti diversi mercati analitici che esistono là fuori. Questo è un esempio di, forse ho bisogno di fare il riconoscimento delle immagini e non ho quell'abilità, beh forse vado ad Algorithmia e ottengo un algoritmo di riconoscimento delle immagini. Forse esco ad Apervita e ottengo un algoritmo sanitario molto speciale. Forse voglio usare qualcosa nella libreria di machine learning di Azure. Forse voglio usare qualcosa nella piattaforma nativa Statistica.
Ancora una volta, l'idea qui è che vogliamo sfruttare la comunità globale di analisi. Perché non avrai tutte le competenze tra le tue quattro mura, quindi come possiamo creare software - e questo è ciò che stiamo facendo - che consente ai tuoi data scientist di utilizzare algoritmi da una varietà di mercati. Lo stiamo facendo con R e Python da molto tempo, ma questo si sta estendendo a questi mercati di app che esistono là fuori. E lo stesso che vedi qui sopra, stiamo usando H2O su Spark, quindi ci sono molti algoritmi analitici lì. Non devi concentrarti sulla creazione di questi da zero, riutilizziamo quelli che vivono nella comunità open source e vogliamo che queste persone siano il più produttive possibile.
Il prossimo passo, dopo che avremo i nostri cittadini data scientist e i nostri data scientist, è davvero come promuovere e distribuire queste migliori pratiche? Abbiamo una tecnologia all'interno del nostro software che ti consente di distribuire analisi ovunque. E questa è più una visione di gestione del modello, ma non sono più vincolata dalle quattro mura o da un'installazione specifica all'interno di Tulsa, Taiwan o California, o cosa hai. Questa è una piattaforma globale e abbiamo molti, molti clienti che è distribuito nel suo utilizzo da più siti.
E così davvero, le cose chiave sono, se stai facendo qualcosa a Taiwan e vuoi replicarlo in Brasile, è fantastico. Vai lì, prendi i modelli riutilizzabili, prendi i flussi di lavoro che desideri. Questo sta cercando di creare quegli standard e il modo comune di fare le cose, quindi non stiamo facendo cose completamente diverse dappertutto. E l'altro componente chiave di questo, è davvero che vogliamo portare la matematica nel luogo in cui vivono i dati. Non è necessario mescolare i dati tra California e Tulsa, Taiwan e Brasile. Abbiamo una tecnologia che ci consente di analizzare i dati in matematica e avremo un altro webcast di tecnologia avanzata su questo argomento.
Ma noi chiamiamo questa architettura, ed ecco un'anteprima, Native Distributed Analytics Architecture. L'idea chiave dietro questo è che abbiamo una piattaforma, Statistica, e posso esportare un flusso di lavoro analitico come un atomo. E potrei fare un modello o un intero flusso di lavoro, quindi non importa. Ma posso crearlo ed esportarlo in una lingua appropriata per la piattaforma di destinazione. Sul lato sinistro di questo, molte persone lo fanno, ma fanno punteggi nel sistema di origine. Va bene, possiamo fare il punteggio e possiamo fare la costruzione del modello nel database, quindi è interessante.
E poi sul lato destro, abbiamo Boomi. Questa è una tecnologia di accompagnamento, lavoriamo con tutti questi. Ma possiamo anche prendere questi flussi di lavoro e essenzialmente trasportarli in qualsiasi parte del mondo. Tutto ciò che ha un indirizzo IP. E non devo avere una Statistica installata sul cloud pubblico o privato. Tutto ciò che può eseguire una JVM, possiamo eseguire questi flussi di lavoro analitici, flussi di lavoro di preparazione dei dati o solo modelli su una di queste piattaforme target. Che si tratti del mio cloud pubblico o privato, sia che si tratti del mio trattore, della mia auto, della mia casa, della mia lampadina, della mia Internet delle cose, abbiamo una tecnologia che ti consente di trasportare quei flussi di lavoro in qualsiasi parte del mondo.
Ripassiamo. Sai, abbiamo utenti della linea di business, quindi queste persone, abbiamo la tecnologia che consente loro di consumare output in un formato a loro agio. Abbiamo cittadini data scientist e quello che stiamo cercando di fare è migliorare la collaborazione, renderli parte di un team, giusto? E così vogliamo che le persone smettano di reinventare la ruota. E abbiamo questi data scientist, potrebbe esserci un gap di competenze lì, ma possono codificare in una lingua che vogliono, possono andare sui mercati analitici e usare algoritmi lì. E così, come puoi non pensare che tutto sia fantastico con questo? Questo è perfetto, questo è quello che stiamo facendo. Stiamo costruendo flussi di lavoro riutilizzabili, stiamo dando istruzioni alle persone, stiamo dando loro i blocchi Lego in modo che possano costruire questi potenti castelli e tutto ciò che vogliono fare. Per riassumere, disponiamo di una piattaforma che abilita la linea di utenti aziendali, data scientist cittadini, data scientist programmatori, abbiamo: possiamo affrontare qualsiasi tipo di caso di utilizzo dell'analitica di bordo IoT e stiamo abilitando questa nozione di intelligenza collettiva. Con quello, penso che probabilmente lo apriremo per domande.
Robin Bloor: Va bene. Penso che il primo - voglio dire, ad essere sincero, voglio dire, sono stato informato da Dell Statistica prima, e ad essere sincero, sono davvero abbastanza sorpreso dalle cose che non sapevo che tu abbia sollevato nella presentazione . E devo dire che l'unica cosa, è qualcosa che è stato un bugbear per me durante l'adozione dell'analisi, è che, sai, ottenere gli strumenti non è vero, sai? Ci sono un sacco di strumenti là fuori, ci sono strumenti open source, e così via e così via, e ci sono vari, quello che chiamerei semi-piattaforme. Ma penso che la differenza che hai, sono rimasto particolarmente colpito da parte del flusso di lavoro.
Ma la differenza sembra che tu fornisca end to end. È come se l'analitica sia un sofisticato processo aziendale che inizia con l'acquisizione di dati e quindi passa attraverso una serie di passaggi, a seconda di quanto siano sfibrati i dati, e quindi può espandersi in un'intera serie di diversi attacchi matematici al dati. E poi i risultati emergono in un modo o nell'altro e quelli devono essere azioni. C'è un'enorme quantità di analisi che ho riscontrato in cui è stato svolto un ottimo lavoro, ma non è possibile metterlo in azione. E sembri avere moltissimo di ciò che è richiesto. Non so quanto sia completo, ma è molto più completo di quanto mi aspettassi. Sono incredibilmente impressionato da questo.
Vorrei che commentassi i fogli di calcolo. Hai già detto qualcosa, ma una delle cose che ho notato e che ho notato nel corso degli anni, ma è diventato sempre più evidente, è che ci sono moltissimi fogli di calcolo che sono sistemi ombra e penso davvero il foglio di calcolo, intendo, è stato uno strumento meraviglioso quando è stato introdotto ed è stato meraviglioso da allora in molti modi diversi, ma è uno strumento generalizzato, non è davvero adatto allo scopo. Certamente non è molto buono nel contesto della BI e penso che sia terribile nel contesto dell'analisi. E mi chiedevo se avessi qualche commento da fare, diciamo, esempi in cui, sai, Statistica è svanita, uso eccessivo del foglio di calcolo o qualche commento che vorresti fare al riguardo?
David Sweenor: Sì, penso che, sai, puoi andare a cercare errori di fogli di calcolo famosi. Google o qualsiasi motore di ricerca che stai usando tornerà con una litania di risultati. Non credo, sapremo, sostituiremo mai i fogli di calcolo. Non è la nostra intenzione, ma molte organizzazioni a cui vado, ci sono un paio di questi maghi o ninja di fogli di calcolo o qualunque cosa tu voglia chiamarli, ma hanno questi fogli di calcolo molto sofisticati e devi pensare, cosa succede quando questi le persone vincono il lotto e non tornano? E quindi quello che stiamo cercando di fare è sapere che esistono fogli di calcolo in modo da poterli ingerire, ma penso che ciò che stiamo cercando di fare sia sviluppare una rappresentazione visiva del tuo flusso di lavoro in modo che possa essere compreso e condiviso con altre persone . I fogli di calcolo sono piuttosto difficili, piuttosto difficili da condividere. E non appena mi passi il foglio di calcolo, l'ho modificato e ora non siamo sincronizzati e riceviamo risposte diverse. Quello che stiamo cercando di fare è mettere dei guardrail attorno a questo e rendere le cose un po 'più efficienti. E i fogli di calcolo sono davvero terribili nel combinare più set di dati, sai? Cadono laggiù. Ma non li sostituiremo, li ingeriremo e abbiamo persone che stanno iniziando a spostarsi perché se abbiamo un nodo che dice "calcola il rischio" è quello che la persona che utilizza il foglio di calcolo sta cercando di fare. Quindi quelli se ne sono andati.
Robin Bloor: Sì, voglio dire, direi che, sai, da una delle prospettive in cui guardo le cose, direi che i fogli di calcolo sono ottimi per creare informazioni. Sono anche fantastici per creare isole di conoscenza, ma sono davvero cattivi per condividere le conoscenze. Non hanno alcun meccanismo per farlo, e se si passa un foglio di calcolo a qualcuno, non è che tu possa leggerlo come se fosse un articolo che spiega esattamente cosa stanno facendo. Non è lì. Penso, sai, la cosa che mi ha colpito di più della presentazione e delle capacità di Statistica, sembra incredibilmente agnostica. Ma ha questo thread che lo attraversa dal flusso di lavoro. Ho ragione nel dare per scontato che si possa osservare un flusso di lavoro end-to-end proprio dall'acquisizione dei dati fino all'incorporamento dei risultati in particolari applicazioni di BI o persino applicazioni in esecuzione?
David Sweenor: Sì, assolutamente. E ha quella capacità end-to-end e alcune organizzazioni lo usano interamente, e non ho nessuna illusione che nessuna azienda compri in questi giorni tutto da un unico fornitore. Abbiamo un mix. Alcune persone usano Statistica per tutto e alcune lo usano per i flussi di lavoro di modellazione, altre lo usano per i flussi di lavoro di preparazione dei dati. Alcune persone lo usano per distribuire centinaia di rapporti tecnici agli ingegneri. E così abbiamo tutto in mezzo. Ed è davvero end-to-end ed è, sai, una piattaforma agnostica, in quanto se ci sono algoritmi che vuoi usare in R o Python, Azure, Apervita, qualunque cosa tu sappia, usa quelli. È fantastico, sii produttivo, usa ciò che conosci, usa ciò che ti fa sentire a tuo agio e disponiamo di meccanismi per assicurarci che siano controllati e verificabili e tutto quel genere di cose.
Robin Bloor: Mi piace particolarmente quell'aspetto. Voglio dire, non so se puoi parlare oltre ciò che hai detto alla ricchezza di ciò che è là fuori. Voglio dire, ho visto questo, ma non l'ho visto in modo completo e certamente c'è una grande quantità di librerie Python nelle nostre librerie, ma c'è qualcosa che puoi aggiungere a quell'immagine? Perché penso che sia una cosa molto interessante, sai, l'idea che avresti componenti affidabili, perché conoscevi diverse persone che li avevano creati e varie persone che li usavano che potevi scaricare. Sai, puoi arricchire quello che hai già detto a riguardo?
David Sweenor: Sì, penso che alcuni dei mercati delle app, sai, i mercati degli algoritmi che sono là fuori. Ad esempio, lo sapete, Dr. John Cromwell dell'Università dell'Iowa, ha sviluppato un modello che prevede, che verrà utilizzato in tempo reale mentre ci stiamo operando, vi darà un punteggio se avete intenzione di ottenere un infezione del sito chirurgico. E se quel punteggio è abbastanza alto, prenderanno un intervento proprio in sala operatoria. È molto interessante. Quindi forse c'è un altro ospedale che non è così grande. Bene, Apervita è un marketplace di app per la salute per l'analisi. Puoi andare a trovarne uno in molti di questi mercati di app, puoi andare a trovarne uno e riutilizzarli e la transazione è tra te e chiunque ne sia il proprietario, ma puoi andare a cercarne uno o puoi dire: "Ecco quello di cui ho bisogno. ”Penso che stia sfruttando quella comunità globale perché oggigiorno tutti sono specialisti e non puoi sapere tutto. Penso che R e Python siano una cosa, ma questa idea di "Voglio fare questa funzione, mettere una specifica là fuori in uno di questi mercati di app e avere qualcuno che lo sviluppi per te". E possono monetizzare quello, penso è molto interessante e molto diverso dal modello puramente open source.
Robin Bloor: Va bene. Comunque, passerò la palla a Dez. Ti piacerebbe immergerti, Dez?
Dez Blanchfield: Assolutamente e mi piacerebbe rimanere sul foglio di calcolo solo per un momento perché penso che abbia catturato l'essenza giusta di molto di ciò di cui stiamo parlando qui. E hai fatto un commento, Robin, per quanto riguarda il passaggio da una sorta di vecchi fogli di calcolo nella loro forma fisica a quella elettronica. Abbiamo avuto una cosa interessante in cui, sai, quando i fogli di calcolo erano originariamente una cosa erano solo fogli di carta con righe e colonne e avresti annotato manualmente le cose, poi le avresti esaminate e calcolate, sia facendo dalla parte superiore della testa o con qualche altro dispositivo. Ma abbiamo ancora l'opportunità di far scivolare errori con errori di scrittura o dislessia, e ora l'abbiamo sostituito con errori di battitura. Il rischio è che con i fogli di calcolo il profilo di rischio sia più rapido e più ampio, ma penso che strumenti come Statistica invertano la piramide del rischio.
Disegno spesso questa immagine su una lavagna con la figura stilizzata di un essere umano nella parte superiore, come una persona, e poi una raccolta di esse nella parte inferiore, diciamo, immagina dieci di esse nella parte inferiore di quella lavagna e disegno una piramide in cui il punto della piramide è verso la singola persona e il piede della piramide è la raccolta di persone. E lo uso per visualizzare l'idea che se una persona in alto fa un foglio di calcolo fa un errore e lo condivide con dieci persone, e ora abbiamo dieci copie dell'errore. Fai molta attenzione con le tue macro e fai molta attenzione con Visual Basic se vuoi passare a quello. Perché quando costruiamo strumenti elettronici come fogli di calcolo è molto potente, ma è anche potente in senso positivo e negativo.
Penso che strumenti come Statistica offrano la possibilità di invertire quel profilo di rischio e cioè che ora puoi arrivare al punto in cui hai molti strumenti disponibili per la singola persona e mentre vanno da molti strumenti nella parte superiore di la piramide e poi fino in fondo, dove il punto della piramide ora invertito è lo strumento reale, se abbiamo un team di persone che sta costruendo quegli strumenti e quegli algoritmi. E il data scientist non ha bisogno di essere uno specialista in analisi regressiva sui propri dati. Potrebbero essere in grado di utilizzare lo strumento, ma potresti avere cinque o sei statistici e un attuario e uno scienziato di dati e alcuni matematici che lavorano su quello strumento, quel modulo, quell'algoritmo, quel plug-in e così nel linguaggio dei fogli di calcolo, quindi immagina che ogni foglio di calcolo pubblicato che potresti utilizzare sia stato effettivamente scritto da specialisti che hanno testato le macro, testato Visual Basic, verificato che gli algoritmi funzionassero, quindi quando lo hai ottenuto puoi semplicemente inserire i dati in esso ma non puoi effettivamente romperli e quindi è stato meglio controllare.
Penso che molti strumenti di analisi lo stiano facendo. Immagino che arrivando al punto di questo, lo stai vedendo sul campo ora, stai vedendo la transizione da fogli di calcolo che potenzialmente potrebbero spingere errori, errori e rischi, al punto in cui gli strumenti che stai costruendo con il tuo piattaforme ora, con la scoperta dei dati accurata in tempo reale e le persone che stanno costruendo i moduli e gli algoritmi stanno rimuovendo o riducendo quel profilo di rischio? Il servizio clienti lo sta vedendo in un senso reale o pensi che stia solo accadendo e non se ne rendono conto?
David Sweenor: Sai, penso che ci siano un paio di modi per rispondere a questa domanda. Ma quello che stiamo vedendo è, sai, in qualsiasi organizzazione, e ho detto che l'analisi che ritengo sia forse rimasta indietro dal punto di vista degli investimenti aziendali, un po 'come abbiamo fatto con il data warehousing e il CRM. Ma quello che stiamo vedendo, quindi, ci vuole molto per cambiare un'organizzazione, per superare quell'inerzia organizzativa. Ma quello che stiamo vedendo è che le persone prendono i loro fogli di calcolo, prendono i loro flussi di lavoro, e ho menzionato la sicurezza e la governance, "Beh, forse ho un foglio di calcolo", "Beh, posso bloccare questo e posso controllarlo versione." E vediamo molte organizzazioni, forse hanno appena iniziato lì. E se è cambiato, c'è un flusso di lavoro e finisco per andare, numero uno però, chi l'ha cambiato? Perché l'hanno cambiato. Quando l'hanno cambiato. E posso anche impostare un flusso di lavoro in modo tale che non metterò in produzione questo nuovo foglio di calcolo a meno che non sia convalidato e verificato da una, due, tre, indipendentemente dal numero di parti che si desidera definire nel flusso di lavoro. Penso che le persone stiano iniziando a fare e le organizzazioni stanno iniziando a fare piccoli passi lì, ma probabilmente suggerirei che abbiamo ancora molta strada da fare.
Dez Blanchfield: In effetti e penso che, dato che stai costruendo sia i controlli di sicurezza che la governance, il carico di lavoro può automaticamente mappare tutto e tutto fino al Chief Risk Officer, che ora è una cosa. Puoi iniziare a controllare come si accede a quegli strumenti e sistemi e chi sta facendo cosa con loro, quindi è molto potente. Penso che le altre cose che emergono sia che i tipi di strumenti che fornisci, per me, prestano al comportamento umano più che ai tradizionali fogli di calcolo di cui stiamo parlando, in quanto se avessi una stanza piena di gente con la stessa dashboard e accesso agli stessi dati possono effettivamente ottenere una visione diversa e, di conseguenza, ottenere informazioni leggermente diverse dalle stesse informazioni, che si adattano alle loro esigenze in modo che possano collaborare. Abbiamo quindi una visione e un'interazione più umane con il business e il processo decisionale, al contrario di andare tutti allo stesso incontro con lo stesso PowerPoint e gli stessi fogli di calcolo stampati, tutti gli stessi dati fissi.
Vedi una transizione nel comportamento e nella cultura nelle organizzazioni che in un certo senso prendono i tuoi strumenti ora in cui vedono che si sta verificando, in cui non è come cinque persone nella stanza che guardano lo stesso foglio di calcolo cercando di verbalizzarlo e prendere appunti su di esso, ma ora stanno effettivamente interagendo con i dashboard e gli strumenti in tempo reale, con visualizzazione e analisi a portata di mano e ottenendo un flusso completamente diverso sulla conversazione e sull'interazione, non solo durante le riunioni ma solo una collaborazione generale all'interno dell'organizzazione? Perché possono farlo in tempo reale, perché possono porre le domande e ottenere una risposta reale. È una tendenza che stai vedendo in questo momento o non è ancora successo?
David Sweenor: No, penso che sia decisamente iniziato su questa strada e penso che la cosa molto interessante sia, se prendiamo l'esempio di una fabbrica, per esempio. Forse qualcuno che possiede un particolare settore di processo all'interno di quella fabbrica vuole guardare e interagire con questi dati in un certo modo. E forse io, trascurando tutti i processi, forse questo in fondo, forse voglio guardarlo attraverso tutto. Penso che quello che stiamo vedendo sia il numero uno, le persone stanno iniziando a usare un insieme comune di visualizzazioni o visualizzazioni standard all'interno delle loro organizzazioni, ma è anche su misura per il ruolo in cui ricoprono. Se sono un ingegnere di processo, forse è una visione molto diversa rispetto a qualcuno che la sta guardando da una prospettiva della catena di approvvigionamento, e penso che sia fantastico perché deve essere personalizzato e deve essere visto attraverso l'obiettivo di cui hai bisogno per fare il tuo lavoro.
Dez Blanchfield: Immagino che il processo decisionale si interrompa, in termini di tempo e velocità, per prendere decisioni rapide e accurate anche in modo rapido, vero? Perché se hai analisi in tempo reale, dashboard in tempo reale, se hai gli strumenti Statistica a portata di mano non devi correre sul pavimento per andare a chiedere a qualcuno qualcosa, ce l'hai in copia cartacea. Puoi in qualche modo collaborare, interagire e effettivamente prendere decisioni al volo e ottenere immediatamente quel risultato. Che penso che alcune aziende non abbiano ancora capito, ma quando lo faranno sarà questo momento eureka che, sì, possiamo ancora rimanere nei nostri cubicoli e lavorare a casa, ma possiamo interagire e collaborare e quelle decisioni facciamo mentre collaboriamo trasformiamo immediatamente in risultati. Senti, penso che sia stato fantastico ascoltare quello che hai da dire finora e non vedo davvero l'ora di vedere dove andrà. E so che abbiamo molte domande nelle domande e risposte, quindi tornerò a Rebecca per esaminare alcune di queste in modo da poterle rispondere il più rapidamente possibile. Grazie mille.
Rebecca Jozwiak: Grazie Dez e sì, Dave, abbiamo alcune domande da parte del pubblico. E grazie anche a Dez e Robin per le tue intuizioni. So che questo particolare partecipante ha dovuto abbandonare in cima all'ora, ma lei sta chiedendo, vedi che i dipartimenti dei sistemi di informazione stanno dando più priorità ai controlli sofisticati dei dati piuttosto che essere a proprio agio nel fornire strumenti per i lavoratori della conoscenza? Voglio dire, è quello: vai avanti.
David Sweenor: Sì, penso che dipenda dall'organizzazione. Penso che una banca, una compagnia di assicurazioni, forse abbiano priorità e modi diversi di fare le cose, rispetto a un'organizzazione di marketing. Immagino che dovrei dire che dipende solo dal settore e dalla funzione che stai osservando. Settori diversi hanno focus e enfasi diversi.
Rebecca Jozwiak: Va bene, ha senso. E poi un altro partecipante voleva sapere, qual è il motore dietro Statistica? È C ++ o roba tua?
David Sweenor: Beh, non so se riesco a ottenere questo specifico in quanto è in circolazione da 30 anni ed è stato sviluppato prima del mio tempo, ma c'è una libreria principale di algoritmi analitici che sono algoritmi Statistica che funzionano. E hai visto qui che possiamo anche eseguire R, possiamo eseguire Python, possiamo esplodere in Azure, possiamo eseguire Spark su H2O, quindi credo che dovrei rispondere a questa domanda in termini di, è una varietà di motori. E a seconda dell'algoritmo che scegli, se è uno Statistica funziona in questo modo, se ne scegli uno su H2O e Spark, lo usa, e quindi è una varietà di essi.
Rebecca Jozwiak: Okay bene. Un altro tipo di partecipante ha chiesto specificamente di indicare questa diapositiva, volendo sapere, in qualche modo, come fa lo scienziato dei dati dei cittadini a sapere quali modelli riutilizzabili usare? E immagino che farò una domanda più ampia. Che cosa vedi quando entrano utenti della linea di business o analisti aziendali e vogliono usare questi strumenti, quanto è facile per loro prendere e correre?
David Sweenor: Immagino che risponderei e se puoi usare, se hai familiarità con Windows, questa è una piattaforma basata su Windows, quindi ho tagliato la parte superiore di questi screenshot, ma ha la barra multifunzione di Windows. Ma come fanno a sapere quale flusso di lavoro usare? Sembra Windows Explorer, quindi c'è una struttura ad albero e puoi configurarlo e configurarlo comunque la tua organizzazione vuole configurarlo. Ma potrebbe essere, avresti solo queste cartelle e inseriresti questi modelli riutilizzabili in queste cartelle. E penso che probabilmente ci sia una nomenclatura che la tua azienda potrebbe adottare, ad esempio ecco il "calcolo del profilo di rischio", ecco il "ottieni dati da queste fonti" e tu li chiami come preferisci. È solo una cartella gratuita, basta trascinare le note direttamente sulla tela. Quindi, abbastanza facile.
Rebecca Jozwiak: Okay bene. Forse una demo la prossima volta. Poi un altro tipo di partecipante fa apparire, ed è quello di cui tu e Robin e Dez stavate parlando per quanto riguarda le inesattezze, specialmente su un foglio di calcolo, ma la spazzatura in / garbage out, e vede che è ancora più critico quando arriva all'analitica. Un po 'di menzionare che, sai, l'uso improprio dei dati può davvero portare a decisioni sfortunate. E si sta chiedendo quali sono le tue opinioni sullo sviluppo di più algoritmi fail-safe, immagino per il fatto che usa la parola "uso troppo zelante" dell'analisi. Sai, entra qualcuno, si eccitano davvero, vogliono fare queste analisi avanzate, vogliono eseguire questi algoritmi avanzati, ma forse non sono del tutto sicuri. Quindi cosa fai per proteggerti da questo?
David Sweenor: Sì, quindi suppongo che risponderò al meglio, ma penso che tutto dipenda da persone, processi e tecnologia. Abbiamo una tecnologia che aiuta le persone e aiuta qualunque processo tu voglia mettere in atto nella tua organizzazione. Nell'esempio dell'invio di un coupon a qualcuno, forse non è così critico, e se è digitale non è davvero un costo, forse c'è un livello di controlli di sicurezza e forse non ci interessa. Se prevedo le infezioni del sito chirurgico, forse voglio essere un po 'più attento a riguardo. O se prevedo la qualità e la sicurezza dei farmaci e cose del genere, forse voglio essere un po 'più attento a riguardo. Hai ragione, immondizia in / garbage out, quindi quello che proviamo a fare è fornire una piattaforma che ti consenta di adattarlo a qualsiasi processo che la tua organizzazione vuole adottare.
Rebecca Jozwiak: Okay bene. Ho ancora qualche domanda, ma so che siamo passati un po 'oltre l'ora e voglio solo dire ai nostri presentatori che è stato fantastico. E vogliamo ringraziare tanto Dave Sweenor di Dell Statistica. Certo, Dr. Robin Bloor e Dez Blanchfield, grazie per essere stati analisti oggi. Avremo un altro webcast il mese prossimo con Dell Statistica. So che Dave ha accennato all'argomento. Si tratterà di analisi ai margini, un altro argomento affascinante, e so che alcuni casi d'uso molto interessanti verranno discussi in quel webcast. Se ti è piaciuto quello che hai visto oggi, torna per saperne di più il mese prossimo. E con quello, gente, vi saluto. Grazie mille. Ciao ciao.