Tra le startup tecnologiche, data scientist è un termine sempre più comune usato per indicare i fanatici dei dati in grado di collegare aree funzionali tradizionalmente separate dell'intelligenza dei dati. Uno scienziato di dati è qualcuno che si trova a proprio agio nell'esecuzione di diversi (se non tutti) aspetti dei progetti di intelligence dei dati:
- Acquisizione dati: ciò potrebbe comportare la scrittura di parser e crawler Web o script personalizzati destinati a servizi Web o API specifici per origini dati non tradizionali.
- Gestione dei dati: ETL, manipolazione, query e gestione dei dati in database, archivi di valori-chiave o Hadoop.
- Visualizzazione delle informazioni: scoprire modelli attraverso l'uso di toolkit di visualizzazione statica e / o piattaforme interattive basate su Flash, JavaScript o Processing.
- Analytics: questo può variare da tecniche semplici a complesse in statistiche multivariate, machine learning e PNL.
- Approfondimento: estrai, riassumi e presenta i risultati chiave a un vasto pubblico.
Ci sono molti strumenti, abilità e dettagli tecnici e si può passare anni a padroneggiare ciascuno degli elementi sopra elencati. Mentre uno scienziato di dati potrebbe non possedere una vera conoscenza di esperti in nessuna delle aree, è a suo agio nel saltare avanti e indietro e svolgere compiti di base in tutte. Il risultato è un agitatore di dati abbastanza agile da indagare rapidamente su un progetto di dati e produrre risposte a domande (di alto livello) dalla direzione. (sui data scientist in Data Scientists: The New Rock Stars of the Tech World.)
Per alimentare i data scientist, le aziende devono concentrarsi maggiormente sulla cultura e sulla struttura organizzativa. Molti data worker hanno competenze e formazione sufficienti per diventare rapidamente produttivi in più aree dell'intelligence dei dati. Il problema è che la maggior parte non funziona in ambienti che li incoraggiano a diventare data scientist. Sono bloccati nei silos e limitati a una o due aree di intelligenza dei dati. Spesso, sono limitati all'uso di strumenti "approvati" dai loro gestori.