Sfruttare il tubo flessibile: ottenere valore aziendale dall'analisi di streaming: trascrizione dei webinar

2025

Di Techopedia Staff, 24 febbraio 2016

Takeaway: l' host Rebecca Jozwiak discute l'analisi dello streaming con i massimi esperti del settore.

Al momento non sei collegato. Accedi o registrati per vedere il video.

Rebecca Jozwiak: signore e signori, ciao e benvenuti a Hot Technologies del 2016! Il titolo di oggi è "Sfruttare il tubo flessibile: ottenere valore aziendale dallo streaming di Analytics". Questo è Rebecca Jozwiak. Sono il secondo in comando per l'host del webcast ogni volta che il nostro caro Eric Kavanagh non può essere qui, quindi è bello vedere così tanti di voi là fuori oggi.

Questo episodio è un po 'diverso dai nostri altri. Abbiamo parlato di ciò che è caldo e ovviamente quest'anno è caldo. Gli ultimi anni sono stati caldi. C'è sempre roba nuova che esce. Oggi stiamo parlando dell'analisi dello streaming. L'analisi in streaming è una specie di novità. Naturalmente streaming, dati centrali, dati RFID, quelli non sono necessariamente nuovi. Ma nel contesto delle architetture di dati, siamo stati così concentrati sui dati a riposo per decenni. Database, file system, repository di dati - tutti allo scopo principalmente di elaborazione batch. Ma ora con il passaggio alla creazione di valore dai dati in streaming, le emozioni dei dati, alcuni lo chiamano flussi viventi, richiedono davvero un'architettura basata sul flusso, non le architetture dei dati a riposo a cui siamo stati abituati e che devono essere in grado di gestione dell'ingestione rapida, elaborazione in tempo reale o quasi in tempo reale. Deve essere in grado di soddisfare non solo l'Internet of Things ma l'Internet of Everything.

Naturalmente, idealmente, sarebbe bello avere le due architetture che vivevano fianco a fianco, una mano che lavava l'altra, per così dire. Mentre i dati di giorni, dati di settimane, dati di anni ovviamente hanno ancora valore, analisi storica, analisi delle tendenze, sono i dati in tempo reale che guidano l'intelligenza dal vivo in questi giorni ed è per questo che l'analisi in streaming è diventata così importante.

Ne sto parlando di più oggi. Abbiamo il nostro scienziato di dati, Dez Blanchfield, che chiama dall'Australia. È mattina presto per lui in questo momento. Abbiamo il nostro capo analista, il dottor Robin Bloor. A noi si unisce Anand Venugopal, responsabile del prodotto StreamAnalytix presso Impetus Technologies. Sono davvero focalizzati sull'aspetto dell'analisi dello streaming di questo spazio.

Detto questo, andrò avanti e lo passerò a Dez.

Dez Blanchfield: grazie. Devo prendere il controllo dello schermo qui e fare un salto in avanti.

Rebecca Jozwiak: Ecco qua.

Dez Blanchfield: Mentre stiamo afferrando le diapositive, lasciatemi solo coprire l'argomento principale.

Lo terrò abbastanza alto e lo terrò a circa 10 minuti. Questo è un argomento molto grande. Ho partecipato a un evento in cui abbiamo trascorso dai due ai tre giorni ad approfondire i dettagli di ciò che è l'elaborazione del flusso e gli attuali quadri che stiamo sviluppando e cosa dovrebbe significare fare analisi in quei flussi ad alto volume.

Chiariremo semplicemente cosa intendiamo per streaming analytics e poi approfondiremo se il valore aziendale può essere derivato perché è proprio quello che le aziende stanno cercando. Stanno cercando di far spiegare loro in modo molto rapido e conciso, dove posso ricavare valore applicando una qualche forma di analisi ai nostri dati di flusso?

Che cos'è l'analisi di streaming?

L'analisi in streaming offre alle organizzazioni un modo per estrarre valore da dati ad alto volume e ad alta velocità che stanno attraversando l'azienda in varie forme in movimento. La differenza significativa qui è che abbiamo avuto una lunga storia di sviluppo di analisi e obiettivi e viste di dati che stiamo elaborando da decenni da quando è stato inventato il mainframe. L'enorme cambiamento di paradigma che abbiamo visto negli ultimi 3-5 anni in quello che chiamiamo "scala web" sta attingendo ai flussi di dati che arrivano in tempo reale o quasi in tempo reale e non solo elaborando e cercando la correlazione degli eventi o l'evento si innesca ma esegue analisi molto dettagliate e approfondite su questi flussi. Si tratta di un passaggio significativo a ciò che abbiamo fatto prima, che consiste nel raccogliere dati, inserendoli in una sorta di repository, database tradizionalmente grandi ora, grandi framework di big data come la piattaforma Hadoop ed eseguire l'elaborazione in modalità batch su questo e ottenere una sorta di intuizione.

Siamo stati molto bravi a farlo molto rapidamente e abbiamo provato un sacco di lavoro pesante, ma stiamo ancora davvero acquisendo dati, archiviandoli e quindi guardandoli e ottenendo una sorta di approfondimenti o analisi su di essi. Il passaggio all'esecuzione di tali analisi durante lo streaming dei dati è stato un'area di crescita molto nuova ed entusiasmante per i tipi di cose che accadono attorno ai big data. Richiede un approccio completamente diverso per acquisire, archiviare, elaborare ed eseguire analisi.

Uno dei driver chiave per il passaggio e l'attenzione all'esecuzione di analisi nel flusso è che è possibile ottenere un valore aziendale significativo ottenendo tali approfondimenti più rapidamente e più prontamente man mano che i dati arrivano a te, mentre le informazioni vengono rese disponibili all'azienda. L'idea di eseguire l'elaborazione di fine giornata non è più rilevante in alcuni settori. Vogliamo essere in grado di eseguire le analisi al volo. Entro la fine della giornata, sappiamo già cosa è successo come è successo invece di arrivare alla fine della giornata e fare un lavoro batch di 24 ore e ottenere tali approfondimenti.

L'analisi dello streaming si basa sull'attingere direttamente a quel flusso, mentre i flussi di dati sono generalmente più flussi di volumi molto elevati di dati e dati che ci arrivano in movimento molto, molto rapidamente e ottengono approfondimenti o analisi su quei flussi mentre vengono da noi al contrario a permettere che ciò esca a riposo e che esegua analisi su di essi.

Come ho già detto, abbiamo avuto decenni e decenni di esecuzione di ciò che chiamo analisi batch. Ho messo una foto davvero fantastica qui. Questa è la foto di un gentiluomo in piedi di fronte a un computer deriso creato da RAND Corporation una vita fa e questo è ciò che hanno visto un computer in una casa per assomigliare. La cosa interessante è che anche allora avevano questo concetto di tutti questi quadranti e questi quadranti rappresentavano le informazioni che venivano dalla casa e venivano elaborate in tempo reale e ti dicevano cosa stava succedendo. Un semplice esempio è un insieme di pressione barometrica e temperatura che possiamo vedere dove stiamo vedendo cosa sta succedendo in tempo reale. Ma immagino che fino a quel momento, quando la RAND Corporation avesse messo insieme quel piccolo modello, in realtà stavano già pensando all'elaborazione dei dati e all'esecuzione di analisi su di essi mentre venivano in formato stream. Non sono del tutto sicuro del motivo per cui hanno messo un volante sul computer, ma è piuttosto bello.

Dall'invenzione della stampante, abbiamo avuto la visione di acquisire dati ed eseguire analisi batch su di esso. Come ho detto ora con il grande cambiamento e lo abbiamo visto da artisti del calibro del web che conosciamo tutti, sono tutti marchi domestici come Twitter, Facebook e LinkedIn, quel comportamento interattivo che abbiamo con quei social le piattaforme richiedono non solo l'acquisizione, l'archiviazione e quindi l'elaborazione in modalità batch, ma in realtà acquisiscono e guidano l'analisi al volo dai flussi di dati che arrivano. Quando tweet qualcosa, non solo devono catturare, archiviare e fare qualcosa in seguito, ma devono anche essere in grado di rimetterlo immediatamente sul mio stream e condividerlo con altre persone che mi seguono. Questo è un modello di elaborazione batch.

Perché dovremmo percorrere questa strada? Perché le organizzazioni dovrebbero investire tempo, sforzi e denaro anche nel considerare la sfida di intraprendere il percorso dell'analisi dei flussi? Le organizzazioni hanno questo enorme desiderio di ottenere un miglioramento delle prestazioni rispetto ai loro concorrenti nei settori in cui si trovano e che il miglioramento delle prestazioni può essere rapidamente implementato attraverso semplici analisi del flusso e può iniziare con un semplice monitoraggio dei dati in tempo reale che già stiamo familiarità con. Ho preso un piccolo screenshot lì di Google Analytics. Questa è probabilmente una delle prime volte in cui abbiamo avuto le analisi pratiche di livello consumer. Quindi, mentre le persone visitavano il tuo sito Web e stai ottenendo quei conteggi di hit, con un piccolo pezzo di JavaScript nella parte inferiore della tua pagina web in HTML incorporato nel tuo sito Web, questi piccoli codici venivano fatti in tempo reale su Google ed erano eseguendo analisi su quei flussi di dati che provengono da ogni pagina del tuo sito Web, ogni oggetto sul tuo sito Web in tempo reale e te lo restituiscono in questa piccola pagina Web davvero carina in una dashboard di grafico in tempo reale, piccoli istogrammi e grafico a linee che mostra il numero X di persone che hanno colpito la tua pagina storicamente, ma ecco quante ce ne sono in questo momento.

Come puoi vedere in quello screenshot, dice 25 in questo momento. Sono 25 le persone in questo momento al momento dello screenshot in quella pagina. Questa è la prima vera possibilità che abbiamo giocato sullo strumento di analisi di livello consumer. Penso che molte persone abbiano capito davvero. Hanno appena capito il potere di sapere cosa stava succedendo e come possono rispondere ad esso. Quando pensiamo alla scala dell'avionica, agli aerei che volano in giro, ci sono circa 18.700 voli domestici al giorno solo negli Stati Uniti. Ho letto un articolo qualche tempo fa - erano circa sei o sette anni fa - che la quantità di dati che veniva prodotta da quegli aerei era di circa 200 a 300 megabyte nel vecchio modello di ingegneria. Nei progetti odierni di aeromobili, questi velivoli producono circa 500 gigabyte di dati o circa mezzo terabyte di dati per volo.

Quando fai la matematica molto rapidamente dalla cima della tua testa, quei 18.700 voli interni ogni 24 ore nello spazio aereo degli Stati Uniti da solo, se tutti gli aerei moderni producono circa mezzo terabyte, sono 43-44 petabyte di dati che arrivano e sta accadendo mentre gli aerei sono in aria. Sta succedendo quando atterrano e fanno dump di dati. Questo è quando entrano nel negozio e hanno una discarica completa dei dati dai team di ingegneri per vedere cosa sta succedendo nei cuscinetti, nelle ruote e all'interno dei motori. Alcuni di questi dati devono essere elaborati in tempo reale in modo che possano prendere decisioni in caso di problemi reali mentre l'aereo era in volo o mentre è a terra. Non puoi farlo in modalità batch. In altri settori che vediamo in giro per la finanza, la salute, la produzione e l'ingegneria, stanno anche osservando come possono ottenere con questa nuova visione di ciò che sta accadendo in tempo reale rispetto a ciò che viene archiviato nei database in un termine.

C'è anche questo concetto di trattare i dati come ciò che chiamo un bene deperibile o un prodotto deperibile - che molti dati perdono valore nel tempo. Questo è sempre più il caso delle app per la mobilità e degli strumenti dei social media, perché ciò che la gente dice e ciò che sta facendo tendenza è ciò a cui vuoi rispondere. Quando pensiamo ad altre parti della nostra vita con la logistica e la spedizione di cibo in giro, comprendiamo il concetto di merce deperibile in quel senso. Ma pensa ai dati che stanno attraversando la tua organizzazione e al valore che ha. Se qualcuno sta facendo affari con te in questo momento e puoi interagire con loro in tempo reale, non vuoi aspettare un'ora in modo che i dati possano essere acquisiti e inseriti in un sistema come Hadoop e quindi premere questo pulsante, tu non sarà in grado di gestirlo in questo momento e tu vuoi essere in grado di farlo immediatamente su richiesta del cliente. C'è un termine che vedrai apparire molto spesso ora in cui le persone parlano di avere questo flusso di dati in tempo reale che può darti personalizzazione e quella sintonizzazione di personalizzazione nel sistema che stai utilizzando per la tua esperienza individuale. Quindi, quando colpisci uno strumento come lo strumento di ricerca di Google, ad esempio, se eseguo una query e fai la stessa query, invariabilmente, non otteniamo gli stessi dati esatti. Otteniamo essenzialmente ciò che mi riferisco a un'esperienza da celebrità. Sono trattato con una tantum. Ricevo la mia versione personale di ciò che sta accadendo in questi sistemi in base ai profili e ai dati che mi hanno raccolto e sono stato in grado di eseguire analisi in tempo reale nel flusso.

L'idea che i dati siano una merce deperibile è una cosa reale per ora e il valore dei dati che vengono diminuiti nel tempo è qualcosa che dobbiamo affrontare oggi. Non è una cosa di ieri. Adoro questa foto di un orso che afferra un salmone che salta fuori dal fiume perché dipinge davvero esattamente ciò che vedo in streaming analytics. È questo enorme fiume di dati che ci viene incontro, un tubo di fuoco se vuoi, e l'orso è seduto nel mezzo del torrente. Eseguirà analisi in tempo reale su ciò che sta accadendo attorno ad esso in modo tale da poter effettivamente progettare la sua capacità di catturare quel pesce nell'aria. Non è come immergersi nel flusso e afferrarne uno. Questa cosa sta saltando in aria e deve essere nel posto giusto al momento giusto per catturare quel pesce. Altrimenti, non fa colazione o pranzo.

Un'organizzazione vuole fare la stessa cosa con i propri dati. Vogliono estrarre valore da quelli che ora sono enormi volumi di dati in movimento. Vogliono eseguire analisi su tali dati e dati ad alta velocità, quindi non è solo la quantità di dati che ci arriva ma è la velocità alla quale proviene da questo. Nella sicurezza, ad esempio, sono tutti i tuoi router, switch, server, firewall e tutti gli eventi che provengono da questi e decine di migliaia se non centinaia di migliaia di dispositivi, in alcuni casi che sono dati deperibili. Quando ci pensiamo nell'Internet of Things e nell'Internet industriale, stiamo parlando di milioni se non miliardi di sensori alla fine, e mentre i dati arrivano attraverso i quali esegue l'analisi, stiamo ora guardando l'elaborazione di eventi complessi a ordini di grandezza e velocità che non abbiamo mai visto prima e che dobbiamo affrontare oggi. Dobbiamo costruire strumenti e sistemi attorno a questo. È una vera sfida per le organizzazioni perché da un lato abbiamo i marchi molto grandi che fanno il fai-da-te, lo cuociono da soli, quando hanno la capacità di farlo e il set di abilità e l'ingegneria. Ma per l'organizzazione media, non è così. Non hanno i set di abilità. Non hanno la capacità, il tempo e nemmeno i soldi per investire per capirlo. Puntano tutti verso questo concetto di decisione quasi in tempo reale.

Usa i casi che ho riscontrato e si trovano in ogni ampio spettro di ogni settore che puoi immaginare, le persone si siedono e prestano attenzione e dicono, come possiamo applicare alcune analisi ai nostri dati di flusso? Parliamo di servizi online su scala web. Esistono le tradizionali piattaforme di social media e l'e-tailing online e la vendita al dettaglio, ad esempio le app. Stanno tutti cercando di darci questa esperienza di celebrità in tempo reale. Ma quando entriamo nella maggior parte dei servizi di stack tecnologici, servizi telefonici, voce e video, vedo persone che camminano in giro facendo FaceTime sui telefoni. Sta solo esplodendo. Mi sorprende che le persone tengano il telefono davanti a sé e parlino con un flusso video di un amico invece di tenerlo più vicino all'orecchio. Ma sanno che possono farlo, si sono adattati e hanno apprezzato quell'esperienza. Lo sviluppo di queste applicazioni e le piattaforme che le stanno offrendo devono eseguire analisi in tempo reale su quel traffico e sui profili del traffico in modo che possano fare cose semplici come instradare perfettamente quel video in modo che la qualità della voce nel il video che ottieni è adeguato per avere una buona esperienza. Non è possibile elaborare in batch quel tipo di dati. Non renderebbe il flusso video in tempo reale un servizio funzionale.

C'è una sfida di governance nelle transazioni finanziarie. Non va bene arrivare alla fine della giornata e scoprire che hai infranto la legge spostando i dati privati nel luogo. In Australia, abbiamo una sfida molto interessante in cui lo spostamento di dati relativi alla privacy in mare aperto è un no-no. Non puoi prendere il mio PID, i miei dati di identificazione personale privata, in mare aperto. Ci sono leggi in Australia per impedire che ciò accada. I fornitori di servizi finanziari, in particolare i servizi pubblici e le agenzie, devono fare analisi in tempo reale sui loro flussi di dati e istruzioni con me per assicurarsi che ciò che mi stanno fornendo non lasci le coste. Tutta la roba deve rimanere localmente. Devono farlo in tempo reale. Non possono infrangere la legge e chiedere perdono più tardi. Rilevamento di frodi: è abbastanza ovvio di cui sentiamo parlare con le transazioni con carta di credito. Ma poiché i tipi di transazioni che stiamo effettuando nei servizi finanziari stanno cambiando molto, molto rapidamente, ci sono una serie di cose che PayPal sta facendo prima ora nel rilevare le frodi in tempo reale in cui il denaro non si sposta da una cosa all'altra ma è una transazione finanziaria tra i sistemi. Le piattaforme di offerta di eBay, il rilevamento di frodi deve essere fatto in tempo reale in un ufficio di streaming.

C'è una tendenza che si sta muovendo ora verso l'estrazione e la trasformazione dell'attività di carico nei flussi, quindi non vogliamo catturare nulla che vada nello stream. Non possiamo davvero farlo. Le persone hanno appreso che i dati amano essere violati molto rapidamente se catturiamo tutto. Il trucco ora è eseguire analisi su quei flussi e fare ETL su di esso e semplicemente catturare ciò di cui hai bisogno, potenzialmente metadati, e quindi guidare l'analisi predittiva in cui possiamo effettivamente dire cosa accadrà un po 'più avanti lungo i percorsi su ciò che ho appena visto nel flusso in base all'analisi che abbiamo eseguito su questo.

I fornitori di energia e servizi pubblici stanno vivendo questo enorme desiderio da parte dei consumatori di avere prezzi richiesti. Potrei decidere di voler acquistare energia verde in una determinata ora del giorno perché sono solo a casa da solo e non sto usando molti dispositivi. Ma se ho una cena, potrei avere tutti i miei dispositivi accesi e non voglio acquistare energia a buon mercato e aspettare che venga consegnata, ma disposto a pagare per maggiori costi per ottenere quel potere. Questa domanda ha richiesto prezzi in particolare nelle utenze e nello spazio energetico. Uber, ad esempio, è un classico esempio di cose che puoi fare ogni giorno ed è tutto guidato dai prezzi della domanda. Ci sono alcuni esempi classici di persone in Australia che ottengono tariffe da $ 10.000 a causa della massiccia domanda a Capodanno. Sono sicuro che hanno affrontato quel problema, ma l'analisi del flusso viene eseguita in tempo reale mentre in macchina ti dice quanto dovrei pagare.

Internet of Things e flussi di sensori - abbiamo appena graffiato la superficie su questo e abbiamo appena avuto la conversazione di base in corso su questo, ma vedremo un cambiamento interessante nel modo in cui la tecnologia lo affronta perché quando non parli appena migliaia o decine di migliaia, ma centinaia di migliaia e potenzialmente miliardi di dispositivi in streaming verso di te, quasi nessuna delle pile tecnologiche che abbiamo ora sono progettate per farcela.

Ci sono alcuni argomenti davvero interessanti che vedremo in giro come sicurezza e cyber risk. Sono sfide molto reali per noi. Esiste uno strumento davvero accurato chiamato North sul Web in cui è possibile sedersi e guardare in una pagina Web vari attacchi informatici in tempo reale. Quando lo guardi, pensi "oh è una bella piccola pagina web carina", ma dopo circa cinque minuti lì, ti rendi conto del volume di dati che il sistema sta facendo analisi su tutti i diversi flussi di tutti i diversi dispositivi in tutto il mondo che vengono nutriti con loro. Comincia a far impazzire la mente su come lo stanno eseguendo ai margini di quel disco essenzialmente e fornendoti quel piccolo schermo semplice che ti dice che cosa o qualcos'altro lo sta attaccando in tempo reale e quali tipi di attacchi. Ma è davvero un piccolo modo per avere un buon assaggio di ciò che l'analisi dei flussi può potenzialmente fare per te in tempo reale semplicemente guardando questa pagina e ottenendo un'idea del solo volume e della sfida di prendere gli stream, elaborare le query di analisi e rappresentandolo in tempo reale.

Penso che la conversazione che avrò per il resto della sessione affronterà tutti questi tipi di cose con una visione interessante, dal mio punto di vista, e questa è la sfida del fai-da-te, cuocilo da solo, si adatta ad alcuni dei unicorni classici che sono in grado di permettersi di costruire questo tipo di cose. Hanno miliardi di dollari per costruire questi team di ingegneri e costruire i loro data center. Ma per il 99, 9% delle organizzazioni là fuori che vogliono dare valore al proprio business nell'analisi dei flussi, devono ottenere un servizio standard. Devono acquistare un prodotto immediatamente pronto all'uso e in genere hanno bisogno di un servizio di consulenza e di un servizio professionale per aiutarli a implementarlo e ottengono quel valore nel business e lo vendono come soluzione funzionante.

Detto questo, ti restituirò, Rebecca, perché credo che sia quello che stiamo per trattare in dettaglio ora.

Rebecca Jozwiak: Eccellente. Grazie mille, Dez. È un'ottima presentazione.

Ora passerò la palla a Robin. Portalo via.

Robin Bloor: Ok. Dato che Dez è andato nell'ottimo processo di elaborazione dei flussi, non mi è sembrato sensato coprirlo di nuovo. Quindi ho intenzione di avere una visione completamente strategica. Guardando quasi da un livello molto basso su cosa diavolo sta succedendo e posizionandolo perché penso che potrebbe aiutare le persone, specialmente noi persone che non sono accampate in flussi che elaborano in profondità prima.

L'elaborazione degli stream esiste da molto tempo. Lo chiamavamo CEP. Prima c'erano sistemi in tempo reale. I sistemi di controllo di processo originali stavano effettivamente elaborando flussi di informazioni - ovviamente nulla andava fino ai giorni nostri. Questo grafico che vedi sulla diapositiva qui; in realtà sta sottolineando un sacco di cose, ma sta sottolineando sopra e al di là di ogni altra cosa - il fatto che ci sia uno spettro di latenze che appaiono in colori diversi quaggiù. Ciò che è realmente accaduto dall'invenzione dell'informatica o dell'elaborazione commerciale arrivata intorno al 1960 è che tutto è diventato sempre più veloce. Siamo stati in grado di dipendere dal modo in cui questo stava effettivamente emergendo se ti piace con le onde, perché è quello che sembra. Questo in realtà dipende da questo. Perché era tutto guidato dalla legge di Moore e la legge di Moore ci avrebbe dato un fattore di circa dieci volte la velocità per un periodo di circa sei anni. Poi, una volta che siamo arrivati a circa il 2013, tutto si è rotto e improvvisamente abbiamo iniziato ad accelerare a un ritmo che non abbiamo mai fatto, il che è stranamente senza precedenti. Stavamo ottenendo un fattore di circa dieci in termini di aumento della velocità e quindi una riduzione della latenza ogni sei anni circa. Nei sei anni successivi al 2010, abbiamo un multiplo di almeno un migliaio. Tre ordini di grandezza anziché uno.

Questo è ciò che sta succedendo ed è per questo che l'industria in un modo o nell'altro sembra muoversi a velocità fantastiche, perché lo è. Passando attraverso il significato di questo particolare grafico, i tempi di risposta sono effettivamente in scala algoritmica lungo l'asse verticale. Il tempo reale è la velocità del computer, più veloce degli esseri umani. I tempi interattivi sono di colore arancione. È quando interagisci con il computer che è dove vuoi davvero un decimo a circa un secondo di latenza. Sopra, c'è una transazione in cui in realtà pensiamo a quello che stai facendo nel computer, ma se questo si spegne in circa quindici secondi diventa intollerabile. Le persone non aspetterebbero davvero il computer. Tutto è stato fatto in batch. Molte cose che sono state fatte in batch ora stanno scendendo nello spazio transazionale, nello spazio interattivo o persino nello spazio in tempo reale. Considerando che in precedenza, un gruppo ondulato con quantità molto piccole di dati potremmo fare un po 'di questo, ora possiamo fare con quantità molto grandi di dati utilizzando un ambiente estremamente ridimensionato.

Quindi, in sostanza, tutto ciò sta dicendo che è davvero la transazione e i tempi di risposta umani interattivi. Una gran parte di ciò che viene fatto con i flussi in questo momento è informare gli esseri umani sulle cose. In parte sta andando più veloce di questo e sta informando bene le cose, quindi è tempo reale. Quindi prendiamo una licenza per lasciarci cadere come un sasso, rendendo l'analisi istantanea fattibile e per inciso abbastanza abbordabile. Non è solo la velocità a scendere e anche la cima è appena crollata. Probabilmente il più grande impatto in tutte queste tra tutte le varie applicazioni, puoi fare tutte queste analisi predittive. Ti dirò perché tra un minuto.

Questo è solo il negozio di ferramenta. Hai un software parallelo. Ne stiamo parlando nel 2004. Architettura scalabile, chip multicore, aumento della memoria, CPU configurabile. Gli SSD ora vanno molto più velocemente del disco rotante. Puoi dire addio al disco rotante. Anche gli SSD sono presenti in più core, quindi sempre più velocemente. Presto apparirà, abbiamo il memristor di HP. Abbiamo l'XPoint 3D di Intel e Micron. La promessa di questi è che renderà tutto sempre più veloce. Quando in realtà stai pensando a due nuove tecnologie di memoria, entrambe le quali renderanno l'intero piccolo pezzo fondamentale, il singolo circuito andrà molto più veloce, non ne abbiamo nemmeno visto la fine.

La tecnologia Stream, che è davvero il prossimo messaggio, è qui per restare. Ci dovrà essere una nuova architettura. Voglio dire che Dez ne ha parlato in diversi punti della sua presentazione. Per decenni abbiamo visto l'architettura come una combinazione di cumuli di dati e pipe di dati. Tendevamo a elaborare i cumuli e tendevamo a convogliare i dati tra i cumuli. Ora ci stiamo muovendo fondamentalmente verso quella che chiamiamo architettura dei dati Lambda che combina l'elaborazione dei flussi di dati con i cumuli di dati. Quando in realtà stai elaborando un flusso di eventi che arrivano contro dati storici come un flusso di dati o un heap di dati, questo è ciò che intendo per architettura Lambda. Questo è nella sua infanzia. È solo una parte dell'immagine. Se consideri qualcosa di così complesso come l'Internet of Everything di cui ha parlato anche Dez, in realtà ti renderai conto che ci sono tutti i tipi di problemi di localizzazione dei dati - decisioni su cosa dovresti elaborare nel flusso.

La cosa che sto davvero dicendo qui è che quando stavamo elaborando in batch, stavamo effettivamente elaborando flussi. Non potevamo farlo uno alla volta. Aspettiamo solo che ci sia un mucchio di roba e poi elaboriamo tutto in una volta. Stiamo passando a una situazione in cui possiamo effettivamente elaborare elementi nel flusso. Se siamo in grado di elaborare elementi nello stream, i dati che conserviamo saranno i dati statici a cui dobbiamo fare riferimento per elaborare i dati nello stream.

Questo ci porta a questa cosa particolare. Ne ho già parlato in qualche presentazione con l'analogia biologica. Il modo in cui mi piacerebbe che tu pensassi è che al momento siamo esseri umani. Abbiamo tre reti distinte per l'elaborazione predittiva in tempo reale. Sono chiamati somatici, autonomi ed enterici. L'entrico è il tuo stomaco. Il sistema nervoso autonomo si occupa della lotta e dei voli. In realtà si occupa di reazioni rapide all'ambiente. Il somatico che si occupa del movimento del corpo. Questi sono sistemi in tempo reale. La cosa interessante al riguardo - o penso che sia piuttosto interessante - è che sono più predittive di quanto tu possa mai immaginare. È come se stessi effettivamente guardando uno schermo a circa 18 pollici dal tuo viso. Tutto ciò che puoi vedere chiaramente, tutto ciò che il tuo corpo è in grado di vedere chiaramente è in realtà un rettangolo 8 × 10. Tutto ciò che è al di fuori di questo è in realtà offuscato per quanto riguarda il tuo corpo, ma la tua mente in realtà sta riempiendo le lacune e rendendolo non sfocato. Non vedi affatto una sfocatura. Lo vedi chiaramente. La tua mente sta effettivamente facendo un metodo predittivo del flusso di dati per consentirti di vedere quella chiarezza. È una cosa un po 'curiosa, ma puoi davvero vedere il modo in cui il sistema nervoso funziona e il modo in cui riusciamo ad aggirare e comportarci ragionevolmente - almeno alcuni di noi - ragionevolmente sani e non urtare le cose tutto il tempo.

È tutto fatto da una serie di scale di analisi neurale all'interno. Quello che succederà è che le organizzazioni avranno lo stesso tipo di cose e costruiranno lo stesso tipo di cose e sarà l'elaborazione dei flussi, inclusi i flussi interni dell'organizzazione - le cose che stanno accadendo all'interno esso, le cose che accadono al di fuori di esso, le risposte istantanee che effettivamente devono essere fatte stanno ovviamente alimentando l'essere umano per prendere decisioni, per far sì che tutto ciò accada. Ecco dove stiamo andando, per quanto posso vedere.

Una delle cose che ne consegue è che il livello dell'applicazione di streaming sta andando bene. Ci sarà molto più di quello che vediamo ora. In questo momento, stiamo raccogliendo i frutti bassi del fare le cose che sono ovvie.

Quindi comunque questa è la conclusione qui. L'analisi in streaming è una volta una nicchia ma sta diventando mainstream e verrà presto adottata in generale.

Detto ciò, lo passerò a Rebecca.

Rebecca Jozwiak: Grazie mille, Robin. Ottima presentazione come al solito.

Anand, sei il prossimo. Il pavimento è tuo.

Anand Venugopal: Fantastico. Grazie.

Mi chiamo Anand Venugopal e sono responsabile del prodotto StreamAnalytix. È un prodotto offerto da Impetus Technologies, da Los Gatos, in California.

Impetus ha in realtà una grande storia nell'essere un fornitore di soluzioni di big data per le grandi imprese. Quindi in realtà abbiamo realizzato diverse implementazioni di analisi di streaming come società di servizi e abbiamo imparato molte lezioni. Negli ultimi due anni abbiamo anche preso la decisione di diventare un'azienda produttrice di prodotti e soluzioni orientate alle soluzioni e l'analisi dei flussi si sta occupando della trasformazione di Impetus in un'azienda fortemente orientata ai prodotti. Ci sono alcuni asset fondamentali, molto, molto importanti che Impetus ha eliminato grazie alla nostra esposizione alle imprese e StreamAnalytix è uno di questi.

Siamo in 20 anni di attività e c'è un grande mix di prodotti e servizi che ci rende un enorme vantaggio. E StreamAnalytix è nato da tutte le lezioni apprese dalle nostre prime cinque o sei implementazioni di streaming.

Tratterò alcune cose, ma gli analisti, Dez e Robin, hanno fatto un lavoro fantastico nel coprire lo spazio in generale, quindi salterò un sacco di contenuti che si sovrappongono. Probabilmente andrò veloce. Vediamo oltre ai veri casi di streaming che usano molta solo accelerazione batch in cui ci sono letteralmente processi batch molto importanti nelle aziende. Come puoi vedere, l'intero ciclo di rilevamento di un evento e analisi e azione su di esso potrebbe effettivamente richiedere settimane in grandi aziende e stanno tutti cercando di ridurlo a minuti e talvolta secondi e millisecondi. Quindi, qualsiasi cosa più veloce di tutti questi processi batch è candidata all'acquisizione aziendale e questo è molto ben detto che il valore dei dati diminuisce drasticamente con la sua età, quindi più valore c'è nella porzione iniziale nei secondi che è appena accaduto. Idealmente, se potessi prevedere cosa sarebbe successo, questo è il valore più alto, ma dipende dalla precisione. Il prossimo valore più alto è quando è proprio lì quando sta accadendo, puoi analizzarlo e rispondere. Naturalmente, il valore si riduce drasticamente dopo, la principale BI restrittiva in cui ci troviamo.

È interessante. Potresti aspettarti una risposta drammaticamente scientifica al perché dello streaming analytics. In molti casi, quello che stiamo vedendo è perché è ora possibile e poiché tutti sanno che batch è vecchio, batch è noioso e batch non è bello. C'è abbastanza educazione che tutti hanno avuto ora sul fatto che c'è streaming possibile e tutti hanno Hadoop ora. Ora le distribuzioni Hadoop hanno una tecnologia di streaming incorporata, che si tratti di streaming Storm o Spark e, naturalmente, code di messaggi, come Kafka, ecc.

Le aziende che vediamo ci stanno lanciando e stanno iniziando a sperimentare questi casi e stiamo vedendo due grandi categorie. Uno ha a che fare con l'analisi dei clienti e l'esperienza del cliente e la seconda intelligenza operativa. Entrerò in alcuni dettagli su questo un po 'più tardi. L'intero servizio clienti e il punto di vista dell'esperienza del cliente e noi di Impetus StreamAnalytix abbiamo fatto tutto questo in molti modi diversi per catturare davvero il coinvolgimento multicanale del consumatore in tempo reale e offrire loro esperienze molto, molto sensibili al contesto che non sono comuni oggi. Se stai navigando sul Web, sul sito Web di Bank of America e stavi cercando alcuni prodotti e hai appena chiamato il call center. Direbbero: "Ehi Joe, so che stavi cercando alcuni prodotti bancari, vorresti che ti riempissi?" Non te lo aspetti oggi, ma è il tipo di esperienza che è veramente possibile con l'analisi di streaming. In molti casi, fa una grande differenza, soprattutto se il cliente ha iniziato a cercare modi per uscire dal contratto con te guardando clausole di risoluzione anticipata o termini e condizioni di risoluzione anticipata sul tuo sito web e quindi chiamare e non puoi confrontarli direttamente con esso, ma indirettamente fare un'offerta su una sorta di prima promozione perché il sistema sa che questa persona sta guardando alla risoluzione anticipata e tu fai quell'offerta a quel punto, potresti benissimo proteggere quel cliente agitato e proteggere quell'asset .

Questo sarebbe un esempio, oltre a molti servizi al cliente sono tutti esempi molto validi. Stiamo implementando oggi abbassa i costi nel call center e offre esperienze cliente drammatiche e deliziose. Dez ha fatto un ottimo lavoro nel riassumere alcuni dei casi d'uso. Puoi fissare questa tabella per un paio di minuti. L'ho classificato come verticale, orizzontale e aree combo, IoT, app mobile e call center. Sono tutti verticali e orizzontali. Dipende da come lo guardi. In conclusione, vediamo un sacco di usi orizzontali che sono abbastanza comuni tra i verticali del settore e ci sono casi d'uso specifici verticali tra cui servizi finanziari, assistenza sanitaria, telecomunicazioni, produzione, ecc. Se ti stai davvero ponendo la domanda o ti stai dicendo che “oh, non so quali casi d'uso ci siano. Non sono sicuro che ci sia davvero un valore commerciale nell'analisi dello streaming per la mia azienda o per la nostra impresa ”, pensaci bene, pensaci due volte. Parla con più persone perché ci sono casi d'uso che nella tua azienda sono rilevanti oggi. Entrerò nel valore aziendale su come viene derivato esattamente il valore aziendale.

Nella parte inferiore della piramide qui, hai manutenzione predittiva, sicurezza, protezione da churn, ecc. Questi tipi di casi d'uso costituiscono protezione di entrate e risorse. Se Target avesse protetto la violazione della sicurezza avvenuta nel corso di ore e settimane, il CIO avrebbe potuto salvare il suo lavoro. Potrebbe risparmiare decine o centinaia di milioni di dollari, ecc. L'analisi in streaming in tempo reale aiuta davvero a proteggere tali risorse e proteggere le perdite. Questo è il valore aggiunto diretto dell'azienda proprio lì.

La categoria successiva sta diventando più redditizia, abbassando i costi e ricavando più ricavi dall'operazione corrente. Questa è l'efficienza dell'attuale impresa. Questi sono tutti i casi d'uso che chiamiamo intelligence operativa in tempo reale in cui si ottengono approfondimenti su come si comporta la rete, come si comportano le operazioni dei clienti, come si comporta il processo aziendale e si è in grado di modificare tutto ciò in tempo reale perché ricevi feedback, ricevi avvisi. Ottieni deviazioni, varianze in tempo reale e puoi agire rapidamente e separare il processo che va oltre i limiti.

Potresti anche risparmiare un sacco di soldi in costosi aggiornamenti di capitale e cose che ritieni necessarie e che potrebbero non essere necessarie se hai ottimizzato il servizio di rete. Abbiamo sentito di un caso in cui un importante telco ha rinviato un aggiornamento di $ 40 milioni nella sua infrastruttura di rete perché ha scoperto di avere abbastanza capacità per gestire il traffico corrente, ovvero ottimizzando e facendo meglio il routing intelligente del proprio traffico e cose del genere. Tutto ciò è possibile solo con alcune analisi in tempo reale e meccanismi d'azione che agiscono su tali approfondimenti in tempo reale.

Il prossimo livello di valore aggiunto è up-sell, cross-sell dove ci sono opportunità per fare più ricavi e profitti dalle offerte attuali. Questo è un classico esempio di cui molti di noi sanno di aver vissuto dove, pensi nella tua vita in cui sei disposto ad acquistare un prodotto oggi che non ti viene offerto. In molti, molti casi, ciò accade realmente. Hai in mente cose che ti piace comprare che sai di voler comprare, che hai una lista di cose da fare o qualcosa del genere, che tua moglie ti ha detto o se non hai una moglie ma volevi davvero comprare e vai a fare shopping su un sito Web o stai interagendo in un negozio al dettaglio, il negozio non ha il contesto, non ha l'intelligenza per calcolare ciò di cui potresti aver bisogno. Quindi, non mettono al sicuro i loro affari. Se le analisi di streaming potrebbero essere implementate per fare previsioni davvero accurate e che sono davvero possibili su ciò che si adatterebbe maggiormente a questo particolare contesto, questo cliente in questo momento in questa posizione, c'è un sacco di up-sell e cross-sell e di nuovo analisi di streaming - essere in grado di prendere una decisione di propensione a ciò che è probabile che questo cliente acquisti o risponda in quel momento di verità quando c'è un'opportunità. Ecco perché amo quella foto che Dez ha mostrato con l'orso che stava per mangiare quel pesce. È praticamente tutto.

Pensiamo anche che ci sia una grande categoria là fuori di cambiamenti drammatici e trasformativi in un'azienda che offre prodotti e servizi completamente nuovi semplicemente basati sull'osservazione del comportamento del cliente, il tutto basato sull'osservazione del comportamento di un'altra impresa. Se, diciamo, una compagnia telefonica o una società via cavo osserva davvero i modelli di utilizzo dei clienti in quale segmento del mercato sta visualizzando, quale programma a che ora, ecc., Finiscono per creare prodotti e servizi che sono quasi supplicati per in qualche modo. Quindi l'intero concetto di comportamento multi-schermo in questo momento in cui ora stiamo quasi dando per scontato che possiamo vedere i contenuti TV o via cavo sulle nostre app mobili. Alcuni di questi esempi provengono da quei nuovi prodotti e servizi che ci vengono offerti.

Entrerò in "Quali sono le considerazioni sull'architettura dell'analisi di streaming?" Alla fine è quello che stiamo cercando di fare. Questa è l'architettura Lambda in cui stai fondendo i dati storici e le intuizioni in tempo reale e vedendoli allo stesso tempo. Questo è ciò che Sigma abilita. Oggi abbiamo tutti l'architettura batch e l'immagine aziendale. Stiamo analizzando una specie di stack BI e stack di utilizzo e l'architettura Lambda aggiunta. Come il livello di velocità o la necessità e la Lambda si tratta di fondere queste due intuizioni e vederlo in modo combinato, in un modo ricco che combina entrambe le intuizioni.

C'è un altro paradigma chiamato architettura Kappa che viene proposto in cui la congettura è che lo speed layer è l'unico meccanismo di input che persisterà a lungo termine. Tutto verrà attraverso questo livello di velocità. Non ci sarà nemmeno un meccanismo ETL offline. Tutto l'ETL accadrà. Pulizia, pulizia dei dati, ETL di qualità: tutto ciò accadrà sulla rete, perché tieni presente che tutti i dati sono nati in tempo reale. Ad un certo punto, era in tempo reale. Ci siamo abituati così tanto a metterlo sui laghi, sui fiumi e sugli oceani, per poi procedere all'analisi statica che ci siamo dimenticati che i dati sono nati ad un certo punto in tempo reale. Tutti i dati nascono in realtà come un evento in tempo reale accaduto nel tempo e la maggior parte dei dati oggi sul lago sono stati appena inseriti nel database per un'analisi successiva e ora abbiamo il vantaggio nell'architettura Lambda e Kappa di vederlo, analizzarlo, pre-elaborarlo e reagire ad esso non appena arriva. Questo è ciò che è abilitato da queste tecnologie. Quando lo guardi come un quadro generale, sembra qualcosa del genere in cui c'è Hadoop all'interno, ci sono MPP e data warehouse che hai già.

Lo affermiamo perché è importante non solo parlare delle nuove tecnologie in un'isola. Devono integrarsi. Devono avere senso nell'attuale contesto aziendale e, in quanto fornitori di soluzioni al servizio delle imprese, siamo molto sensibili a questo. Aiutiamo le imprese a integrare il tutto. Ci sono origini dati sul lato sinistro che si alimentano sia a livello di Hadoop e di data warehouse, sia a livello di tempo reale in alto e ciascuna di queste entità sono computer stock come puoi vedere e il livello di consumo dei dati è a destra lato. C'è uno sforzo costante per spostare la maggior parte di conformità, governance, sicurezza, gestione del ciclo di vita, ecc., Che è disponibile oggi sono stati tutti accumulati in questa nuova tecnologia.

Una delle cose che sta cercando di fare l'analisi dei flussi, se guardi il panorama oggi, ci sono molte cose in corso nel panorama della tecnologia di streaming e dal punto di vista dei clienti aziendali ci sono così tante cose da capire. C'è così tanto da tenere il passo. Esistono meccanismi di raccolta dati sul lato sinistro: NiFi, Logstash, Flume, Sqoop. Ovviamente, ho presentato un disclaimer dicendo che non è esaustivo. Entrando nelle code dei messaggi e poi nei motori di streaming open source: Storm, Spark Streaming, Samza, Flink, Apex, Heron. Heron probabilmente non è ancora open source. Non sono sicuro che lo sia, da Twitter. Tali motori di streaming conducono quindi o supportano un componente di applicazione analitica di configurazione come elaborazione di eventi complessi, apprendimento automatico, analisi predittiva, modulo di avviso, streaming ETL, filtri delle operazioni statistiche di arricchimento. Questi sono tutti quelli che chiamiamo ora operatori. L'insieme di quegli operatori quando messi insieme potrebbe potenzialmente anche una certa conclusione in gran parte se necessario diventa un'applicazione di streaming che gira su un motore di streaming.

Come parte di quella catena di componenti, devi anche archiviare e indicizzare i dati nel tuo database preferito, il tuo indice preferito. Potrebbe anche essere necessario distribuire cache e, di nuovo, ciò porta al livello di visualizzazione dei dati sul lato destro nella parte superiore a prodotti commerciali o prodotti open source, ma alla fine è necessario una sorta di prodotto per visualizzare tali dati in tempo reale. Inoltre, a volte è necessario calcolare altre applicazioni. Abbiamo visto tutti che i valori derivati solo dall'azione che intraprendi nell'intuizione, quell'azione sarà un trigger da uno stack analitico in un altro stack dell'applicazione che forse ha cambiato qualcosa nel lato IVR o innesca un call center chiamata in uscita o qualcosa del genere. È necessario che tali sistemi siano integrati e un meccanismo per consentire al cluster di streaming di attivare altre applicazioni di invio di dati a valle.

Questo è lo stack complessivo che va da sinistra a destra. Quindi hai i livelli di servizio, il monitoraggio intermedio, il livello di servizio generale di sicurezza, ecc. Venendo a quali prodotti sono là fuori nello spazio aziendale che i clienti vedono come le distribuzioni Hadoop che hanno tutti lo streaming come ho detto e c'è commerciale o singolo -vendor soluzioni che sono ovviamente nei nostri concorrenti. Ce ne sono molti altri nel paesaggio che potremmo non aver menzionato qui.

Quello che stai vedendo è in generale l'utente aziendale che sta vedendo. Un panorama tecnologico complesso e in rapida evoluzione per l'elaborazione in streaming, come puoi vedere. Dobbiamo semplificare la scelta e la loro esperienza utente. Ciò di cui pensiamo che le aziende abbiano davvero bisogno è l'astrazione funzionale di tutto ciò nell'interfaccia unica e di facile utilizzo che riunisce tutte quelle tecnologie che lo rendono davvero semplice da usare e non espone tutte le parti mobili e i problemi di degrado e le prestazioni e i problemi di manutenzione del ciclo di vita per l'impresa.

L'astrazione della funzionalità è una. La seconda parte è l'astrazione del motore di streaming. I motori di streaming e i domini open-source stanno arrivando una volta ogni tre, quattro o sei mesi. È stato Storm per molto tempo. Samza è arrivato e ora è Spark Streaming. Flink sta alzando la testa, iniziando ad attirare l'attenzione. Anche la roadmap di Spark Streaming, stanno creando un modo per utilizzare potenzialmente un motore diverso per l'elaborazione di eventi puri perché si rendono anche conto che Spark è stato progettato per batch e stanno facendo strada nella loro visione dell'architettura e nella loro roadmap per potenzialmente avere un diverso motore per l'elaborazione del flusso in aggiunta al modello di microbatch corrente in Spark Streaming.

È una realtà con cui devi far valere che ci sarà molta evoluzione. Devi davvero proteggerti da quel flusso tecnologico. Perché per impostazione predefinita, dovrai sceglierne uno e vivere con esso, il che non è ottimale. Se lo stai guardando in un altro modo, stai combattendo tra, “okay, devo comprare una piattaforma proprietaria dove non c'è un lock-in, non c'è leva dell'open source, potrebbe essere un costo molto alto e limitato flessibilità rispetto a tutti questi stack open source in cui è necessario farlo da soli. ”Ancora una volta, come ho detto, sono molti i costi e i ritardi nel lancio sul mercato. Quello che stiamo dicendo è StreamAnalytix è un esempio di una grande piattaforma che unisce la classe enterprise, affidabile, fornitore unico, supporto professionale supportato, tutto ciò di cui hai veramente bisogno come impresa e la potenza della flessibilità dell'ecosistema open source dove un'unica piattaforma li unisce: Ingest, CEP, analisi, visualizzazione e tutto il resto.

Fa anche una cosa molto, davvero unica, che riunisce molti motori tecnologici diversi in un'unica esperienza utente. Pensiamo davvero che il futuro riguardi la possibilità di utilizzare più motori di streaming perché diversi casi d'uso richiedono realmente architetture di streaming diverse. Come ha detto Robin, esiste un intero spettro di latenze. Se stai davvero parlando del livello di latenza di millisecondi, di decine o addirittura di centinaia di millisecondi, hai davvero bisogno di Storm in questo momento fino a quando non ci sarà un altro prodotto altrettanto maturo per meno tempo favorevole, tempo di latenza e latenze forse in un paio di secondi, tre, quattro, cinque secondi, quell'intervallo, quindi è possibile utilizzare Spark Streaming. Potenzialmente, ci sono altri motori che potrebbero fare entrambe le cose. In conclusione, in una grande impresa, ci saranno casi d'uso di ogni tipo. Desideri davvero che l'accesso e la generalità abbiano più motori con un'esperienza utente unica ed è quello che stiamo cercando di creare in StreamAnalytix.

Solo una rapida visione dell'architettura. Rielaboreremo un po 'questo, ma essenzialmente, ci sono più fonti di dati in arrivo sul lato sinistro - Kafka, RabbitMQ, Kinesis, ActiveMQ, tutte quelle fonti di dati e code di messaggi che arrivano alla piattaforma di elaborazione del flusso dove devi assemblare un'app, dove puoi trascinare e rilasciare da operatori come gli ETL, tutto ciò di cui abbiamo parlato. Sotto, ci sono più motori. Al momento, abbiamo Storm e Spark Streaming come unica e prima piattaforma di streaming di livello enterprise del settore che ha il supporto di più motori. Questa è una flessibilità davvero unica, che offriamo oltre a tutta l'altra flessibilità di avere dashboard in tempo reale. Motore CET incorporato. Abbiamo una perfetta integrazione con gli indici Hadoop e NoSQL, gli indici Solr e Apache. Puoi accedere al tuo database preferito, non importa quale sia e creare applicazioni molto rapidamente e arrivare sul mercato molto rapidamente e rimanere a prova di futuro. Questo è il nostro intero mantra in StreamAnalytix.

Con ciò, penso che concluderò le mie osservazioni. Sentiti libero di venire da noi per ulteriori domande. Vorrei tenere il pavimento aperto per domande e risposte e discussione di gruppo.

Rebecca, da te.

Rebecca Jozwiak: Fantastico, okay. Grazie mille. Dez e Robin, hai qualche domanda prima di passare al pubblico Domande e risposte?

Robin Bloor: ho una domanda. Rimetterò le cuffie in modo che tu possa sentirmi. Una delle cose interessanti, se potessi gentilmente dirmi questo, molto di quello che ho visto nello spazio open source sembra quello che direi immaturo per me. In un certo senso, sì, puoi fare varie cose. Ma sembra che stiamo guardando il software nella sua prima o seconda versione nella realtà e mi stavo solo chiedendo con la tua esperienza come organizzazione, quanto vedi l'immaturità dell'ambiente Hadoop come problematica o è qualcosa che non lo fa? creare troppi problemi?

Anand Venugopal: È una realtà, Robin. Hai assolutamente ragione. L'immaturità non è necessariamente nell'area della stabilità funzionale e delle cose, ma forse anche di alcuni casi. Ma l'immaturità è più pronta all'uso. I prodotti open-source appena escono e anche se offerti dalla distribuzione Hadoop, sono tutti prodotti diversi in grado di differenziarsi, componenti semplicemente schiacciati insieme. Non funzionano insieme senza soluzione di continuità e non sono progettati per un'esperienza utente fluida e fluida che usciremo come Bank of America o Verizon o AT&T, per distribuire un'applicazione di analisi di streaming in poche settimane. Non sono progettati per questo di sicuro. Questo è il motivo per cui entriamo. Lo riuniamo e rendiamo veramente facile da capire, implementare, ecc.

La maturità funzionale di esso, penso in larga misura, è lì. Molte grandi aziende usano oggi Storm ad esempio. Molte grandi aziende stanno giocando con Spark Streaming oggi. Ognuno di questi motori ha i suoi limiti in ciò che può fare, ecco perché è importante sapere cosa puoi e cosa non puoi fare con ogni motore e non ha senso infrangere la testa contro il muro e dire: "Guarda io ha scelto Spark Streaming e non funziona per me in questo particolare settore. ”Non funzionerà. Ci saranno casi d'uso in cui Spark Streaming sarà l'opzione migliore e ci saranno casi d'uso in cui Spark Streaming potrebbe non funzionare affatto per te. Ecco perché hai davvero bisogno di più opzioni.

Robin Bloor: Beh, devi avere team di esperti a bordo per la maggior parte di questo. Voglio dire, non so nemmeno da dove cominciare. Una ragionevole cooperazione di persone qualificate. Sono interessato a come il coinvolgimento ti coinvolge e come succede. È perché una determinata azienda sta cercando un'applicazione specifica o stai vedendo una specie di quella che definirei adozione strategica in cui vogliono che un'intera piattaforma faccia un sacco di cose.

Anand Venugopal: Stiamo vedendo esempi di entrambi, Robin. Alcuni dei primi dieci marchi conosciuti da tutti lo stanno facendo in modo molto strategico. Sanno che avranno una varietà di casi d'uso, quindi stanno valutando piattaforme adatte a tale esigenza, che è una varietà di casi d'uso diversi in modo multi-tenant da implementare in un'azienda. Ci sono anche casi d'uso monouso che stanno iniziando. C'è un particolare caso d'uso di tipo monitoraggio delle attività commerciali in una società di mutui su cui stiamo lavorando, che non immagineresti come primo caso d'uso ma che è la soluzione aziendale o il caso d'uso in cui sono venuti fuori e quindi abbiamo collegato i punti allo streaming . Abbiamo detto: "Sai cosa? Questo è un ottimo caso per l'analisi di streaming ed è così che possiamo implementarla. ”Ecco come stava iniziando. Quindi, in quel processo, vengono educati e dicono: "Oh wow, se possiamo farlo e se questa è una piattaforma generica, allora possiamo separare l'applicazione, stratificarli in piattaforma e costruire molte applicazioni diverse su questo piattaforma."

Robin Bloor: Dez, hai qualche domanda?

Anand Venugopal: Dez è probabilmente in sordina.

Dez Blanchfield: scuse, muto. Ho appena avuto una buona conversazione me stesso. Seguendo l'osservazione originale di Robin, hai assolutamente ragione. Penso che la sfida ora sia che le aziende hanno un ecosistema e un ambiente culturale e comportamentale in cui il software gratuito e open source è qualcosa che è loro noto e sono in grado di usare strumenti come Firefox come browser e ha avuto un discreto vita fino a quando non diventa stabile e sicuro. Ma alcune di quelle piattaforme molto grandi che usano sono piattaforme proprietarie di livello aziendale. Quindi l'adozione di ciò che considero piattaforme open-source non è sempre qualcosa che è facile per loro da superare a livello culturale o emotivo. L'ho visto attraverso l'adozione di piccoli programmi che erano progetti locali per giocare con i big data e l'analisi come un concetto fondamentale. Penso che una delle sfide chiave, sono sicuro che le hai viste ora in tutte le organizzazioni, è il loro desiderio di ottenere il risultato, ma allo stesso tempo avere un piede bloccato nella vecchia lattina dove potevano semplicemente acquistarlo da "Inserisci un grande marchio" Oracle, IBM e Microsoft. Questi marchi nuovi e noti stanno arrivando con piattaforme Hadoop e anche di più. Stanno arrivando marchi più interessanti che hanno una tecnologia all'avanguardia come lo stream.

Quali sono i tipi di conversazioni che hai avuto quel tipo di ottenere o tagliare quello? So che stamattina abbiamo avuto un'enorme presenza e una cosa che sono sicuro è nella mente di tutti è “Come posso tagliare l'intero livello di sfida dalla scheda al livello di gestione, oh è troppo open source e troppo sanguinante? "Come vanno le conversazioni che hai con i clienti e come riesci a superare quel punto in cui riesci a dissipare quei tipi di paure da prendere in considerazione per l'adozione di artisti del calibro di StreamAnalytix?

Anand Venugopal: In realtà stiamo trovando abbastanza facile vendere la nostra proposta di valore perché i clienti si stanno naturalmente muovendo verso l'open source come opzione preferita. Non si arrendono facilmente e dicono "Okay, ora vado all'open source". Effettivamente passano attraverso una valutazione molto impegnata di un prodotto principale, diciamo che è un IBM o un prodotto tipico, perché hanno queste relazioni con i fornitori. Non tratterebbero noi o il motore open source contro quel prodotto. Passeranno dalle 6-8 alle 12 settimane di valutazione. Si convinceranno che qui c'è un certo grado di prestazioni e stabilità che voglio e poi decidono dicendo: "Wow, sai cosa, posso davvero farlo."

Oggi, ad esempio, abbiamo un telco di primo livello che ha analisi di flusso in esecuzione in produzione su gran parte dello stack e lo stanno valutando rispetto a un altro venditore molto, molto grande e noto e si sono convinti solo dopo aver dimostrato tutto le prestazioni, la stabilità e tutte queste cose. Non lo danno per scontato. Hanno scoperto che l'open source è competente attraverso le loro valutazioni e si rendono conto che, nel peggiore dei casi, “Forse ci sono quei due casi d'uso che forse non posso fare, ma la maggior parte dei miei casi di utilizzo dell'accelerazione delle aziende oggi sono eminentemente possibili con l'open-source stack. ”E ne consentiamo l'utilizzo. Questo è il grande punto giusto proprio lì. Volevano l'open source. Stanno davvero cercando di uscire dalla situazione di blocco del venditore a cui sono abituati da molti, molti anni. Poi arriviamo e diciamo: "Sai cosa, renderemo l'open source molto, molto più semplice e amichevole da usare per te".

Dez Blanchfield: Penso che l'altra sfida che le imprese trovano sia quando introducono l'operatore storico tradizionale che spesso sono una generazione dietro alcuni dei margini sanguinanti delle cose eccitanti di cui stiamo parlando qui e non intendo che come lieve negativo. È solo che la realtà è che hanno una generazione e un viaggio da percorrere per rilasciare ciò che considerano piattaforme stabili da attraversare, sviluppo della vecchia scuola e cicli di integrazione e test UATN e documentazione e marketing e vendite. Considerando che nel tipo che stai facendo, penso che la cosa che mi interessa pensare è che guardando alcune delle tue ultime uscite la scorsa notte facendo un qualche tipo di lavoro di ricerca, hai questo mix ora dove hai ottenuto il competenza dal punto di vista della consulenza iniziale e un'implementazione, ma hai anche uno stack che puoi inserire. Penso che questo sia il punto in cui gli operatori storici avranno difficoltà per un po 'di tempo. Abbiamo visto molti di loro come ho fatto sul mercato. Spesso si trovano in quelli che chiamo nodi di recupero, mentre da quello che ci stai dicendo quando sei là fuori a fare quelle conversazioni e sei là fuori a implementarlo.

Puoi darci un paio di esempi di alcuni dei bordi verticali che hai visto in adozione? Ad esempio, esiste un ambiente davvero di nicchia come la scienza missilistica e il posizionamento dei satelliti nello spazio e la raccolta di dati da Marte. C'è solo una manciata di persone che lo fanno sul pianeta. Ma ci sono grandi verticali come la salute, ad esempio, nell'aeronautica, nella spedizione e nella logistica, nella produzione e nell'ingegneria, quali sono un paio di esempi dei settori più grandi e più vasti che sei stato così lontano da aver visto davvero bene adozione in?

Anand Venugopal: Telco è un grande esempio.

Ho intenzione di sistemare rapidamente le mie diapositive qui. Riesci a vedere la diapositiva qui, case study 4?

Questo è il caso di un grande telco che ingerisce i dati del set-top box e fa più cose con esso. Stanno guardando cosa stanno realmente facendo i clienti in tempo reale. Stanno osservando dove si verificano errori in tempo reale nei set-top box. Stanno cercando di informare il call center su, se questo cliente chiama subito, le informazioni di collegamento del codice dal set-top box di questo cliente, le informazioni sul ticket di manutenzione correlano rapidamente se il set-top box di questo particolare cliente ha un problema o no prima il cliente dice una parola. Ogni azienda via cavo, ogni grande compagnia telefonica sta cercando di farlo. Ingeriscono i dati del set-top box, eseguono analisi in tempo reale, eseguono analisi delle campagne in modo che possano pubblicare i loro annunci. C'è un enorme caso d'uso.

Come ho detto, c'è questa società ipotecaria che è di nuovo un modello generico in cui i grandi sistemi sono coinvolti nell'elaborazione dei dati. I dati che fluiscono dal sistema A al sistema B al sistema C e sono attività regolamentate che devono essere coerenti. Spesso, i sistemi non sono sincronizzati tra loro, un sistema sta dicendo: "Sto elaborando un centinaio di prestiti per un valore totale di $ 10 milioni". Il sistema sta dicendo: "No, sto elaborando 110 prestiti di altri numero diverso. ”Devono risolverlo molto rapidamente perché in realtà stanno elaborando gli stessi dati e stanno facendo interpretazioni diverse.

Che si tratti di una carta di credito, elaborazione di un prestito, processo aziendale o processo di ipoteca o qualcos'altro, li stiamo aiutando a fare correlazione e riconciliazione in tempo reale per garantire che tali processi aziendali siano sincronizzati. Questo è un altro caso d'uso interessante. Esiste un importante appaltatore del governo degli Stati Uniti che sta esaminando il traffico DNS per rilevare le anomalie. C'è un modello di formazione offline che hanno costruito e stanno facendo il punteggio basato su quel modello sul traffico in tempo reale. Alcuni di questi casi d'uso interessanti. C'è una grande compagnia aerea che sta guardando le code di sicurezza e stanno cercando di darti quelle informazioni che: “Ehi, è il gate per il tuo aereo per il tuo volo. La coda TSA oggi è di circa 45 minuti contro due ore rispetto a qualcos'altro. ”L'aggiornamento è anticipato. Ci stanno ancora lavorando. Interessante caso d'uso dell'IoT, ma ottimo caso di analisi di streaming diretta verso l'esperienza del cliente.

Rebecca Jozwiak: questa è Rebecca. Mentre sei in tema di casi d'uso, c'è una grande domanda da un membro del pubblico che si chiede: "Sono questi casi di studio, queste iniziative sono guidate dal lato analitico dei sistemi di informazione della casa o sono più guidate da l'azienda che ha in mente domande o esigenze specifiche? "

Anand Venugopal: Penso che vediamo circa il 60 percento circa, dal 50 percento al 55 percento, iniziative tecnologiche in gran parte molto proattive ed entusiaste che capita di conoscere, che sono abbastanza esperte e capiscono alcuni requisiti aziendali e probabilmente hanno uno sponsor che hanno identificati ma si tratta di team tecnologici che si preparano all'assalto dei casi di utilizzo delle imprese che si verificano e quindi, una volta acquisita la capacità, sanno che possono farlo e poi vanno in affari e vendono in modo aggressivo. Nel 30-40 percento dei casi, vediamo che il business ha già un caso d'uso particolare che richiede una capacità di analisi dello streaming.

Rebecca Jozwiak: Questo ha senso. Ho ricevuto un'altra domanda leggermente più tecnica da un membro del pubblico. Si sta chiedendo se questi sistemi supportano flussi di dati strutturati e non strutturati, come sedimenti di flussi di Twitter o post di Facebook in tempo reale, o deve essere inizialmente filtrato?

Anand Venugopal: I prodotti e le tecnologie di cui stiamo parlando supportano molto imminentemente sia i dati strutturati che quelli non strutturati. Possono essere configurati. Tutti i dati hanno una sorta di struttura, che si tratti di un testo o di un XML o altro. C'è una struttura in termini di c'è un feed timestamp. C'è forse un altro BLOB che deve essere analizzato in modo da poter iniettare analisi nel flusso per analizzare le strutture di dati. Se è strutturato, allora diciamo semplicemente al sistema: "Okay, se c'è una virgola separata da valori e il primo è una stringa, il secondo è una data". Quindi possiamo iniettare quell'intelligenza di analisi nei livelli up-screen e elaborare facilmente sia dati strutturati che non strutturati.

Rebecca Jozwiak: Ho un'altra domanda da parte del pubblico. So che siamo passati un po 'oltre la cima dell'ora. Questo partecipante vuole sapere, sembra che le applicazioni di streaming in tempo reale possano sviluppare sia un'esigenza che un'opportunità per integrarsi nuovamente nei sistemi di transazione, ad esempio nei sistemi di prevenzione delle frodi. In tal caso, i sistemi di transazione devono essere modificati per adattarsi a quello?

Anand Venugopal: è una fusione, giusto? È una fusione di sistemi di transazione. A volte diventano la fonte di dati in cui stiamo analizzando le transazioni in tempo reale e in molti casi in cui diciamo che c'è un flusso di applicazioni e qui sto cercando di mostrare un sito di ricerca di dati statici e quindi nel nostro caso in cui una sorta di streaming e stai cercando un database statico come un HBase o un RDBMS per arricchire insieme i dati di streaming e i dati statici per prendere una decisione o un'analisi analitica.

C'è anche un'altra grande tendenza del settore che stiamo vedendo - la convergenza di OLAP e OLTP - ed è per questo che hai database come Kudu e database in memoria che supportano sia le transazioni che l'elaborazione analitica allo stesso tempo. Il livello di elaborazione del flusso sarebbe interamente in memoria e vedremo o ci interfacciamo con alcuni di questi database transazionali.

Rebecca Jozwiak: Il carico di lavoro misto è stato uno degli ultimi ostacoli a saltare, credo. Dez, Robin, voi due avete altre domande?

Dez Blanchfield: salterò in un'ultima domanda e la concluderò se non ti dispiace. La prima sfida con cui le organizzazioni con cui ho avuto a che fare negli ultimi dieci anni ha portato a questa entusiasmante sfida dell'analisi dei flussi, la prima cosa che tendono a rimettere sul tavolo quando abbiamo iniziato la conversazione su questa intera sfida è dove abbiamo l'abilità? Come riqualifichiamo il set di abilità e come possiamo ottenere tale capacità internamente? Avere Impetus che entra e ci tiene per mano durante il viaggio, quindi implementarlo come un grande primo passo e ha molto senso farlo.

Ma per le organizzazioni di medie e grandi dimensioni, quali sono le cose che stai vedendo in questo momento per prepararti a questo, per costruire quella capacità internamente, per ottenere qualsiasi cosa da un semplice vocabolario di base e con quale tipo di messaggio possono fare l'organizzazione intorno al passaggio a questo tipo di framework e riorganizzare il personale tecnico esistente dall'IT dal CEO in modo che possano eseguirlo da soli una volta che lo si è costruito e implementato? Solo molto brevemente, che tipo di sfide e come le stanno risolvendo, i clienti con cui hai a che fare, i tipi di sfide che hanno riscontrato e come affrontano risolvendo quella riqualificazione e riguadagnando esperienza e conoscenza per prepararsi a questo ed essere in grado di andare in giro operativamente?

Anand Venugopal: Spesso, il piccolo gruppo di persone che sta cercando di uscire e acquistare una piattaforma di analisi di streaming è già ragionevolmente intelligente in quanto sono a conoscenza di Hadoop, hanno già acquisito le loro abilità di Hadoop MapReduce e perché lavorano a stretto contatto con Hadoop distributore di distribuzione, sono entrambi familiari. Tutto sta ottenendo Kafka, per esempio. Stanno facendo qualcosa con esso e lo streaming Storm o Spark è nel loro dominio open source. Sicuramente, le persone hanno familiarità con esso o sviluppano abilità intorno ad esso. Ma inizia con un piccolo gruppo di persone che sono abbastanza abili e abbastanza intelligenti. Stanno partecipando a conferenze. Stanno imparando e che fanno domande intelligenti ai venditori e in alcuni casi imparano con i venditori. Mentre i venditori stanno arrivando e presentandosi al primo incontro, potrebbero non sapere cose ma hanno letto e poi iniziano a giocarci.

Quel piccolo gruppo di persone è il nucleo e poi inizia a crescere e tutti ora si rendono conto che il primo caso d'uso aziendale viene reso operativo. Lì inizia un'onda e la scorsa settimana abbiamo assistito al summit di Spark, dove una grande impresa come Capital One era là fuori e in piena forza. Stavano optando per Spark. Ne stavano parlando. Stanno educando molte delle loro persone a Spark perché stanno contribuendo ad esso anche in molti casi come utenti. Vediamo lo stesso con molte, molte grandi imprese. Inizia con un piccolo gruppo di persone molto intelligenti e poi inizia un'ondata di istruzione generale e la gente sa che una volta che un vicepresidente senior o una volta un direttore senior è in linea e vogliono scommettere su questa cosa e la parola va in giro e tutti iniziano a raccogliere queste abilità.

Dez Blanchfield: Sono sicuro che ti divertirai anche a costruire quei campioni.

Anand Venugopal: Sì. Facciamo molta educazione mentre lavoriamo con i campioni iniziali e teniamo corsi di formazione e molti, molti per i nostri grandi clienti siamo tornati indietro e abbiamo avuto ondate e ondate di addestramento per portare molti utenti nella fase di utilizzo tradizionale in particolare nel sito MapReduce di Hadoop. Abbiamo scoperto che in una grande società di carte di credito che è un nostro cliente, abbiamo erogato almeno 5-8 diversi programmi di formazione. Disponiamo inoltre di edizioni di community gratuite di tutti questi prodotti, inclusi i nostri, sandbox che le persone possono scaricare, a cui si abituano e che si educano in questo modo.

Dez Blanchfield: Questo è tutto ciò che ho questa mattina per te. Grazie mille. Trovo incredibilmente interessante vedere i tipi di modelli e i casi d'uso che hai per noi oggi. Grazie.

Anand Venugopal: Fantastico. Grazie mille gente.

Rebecca Jozwiak: Grazie a tutti per esservi uniti a noi in questo webcast di Hot Technologies. È stato affascinante ascoltare Dez Blanchfield, il dottor Robin Bloor e Impetus Technologies, Anand Venugopal. Grazie presentatori. Grazie oratori e grazie pubblico. Abbiamo un'altra Hot Technologies il prossimo mese, quindi cercalo. Puoi sempre trovare i nostri contenuti archiviati su Insideanalysis.com. Abbiamo anche messo molti contenuti su SlideShare e alcuni bit interessanti anche su YouTube.

È tutto gente. Grazie ancora e buona giornata. Ciao ciao.