D:
Quali sono alcuni modi chiave per automatizzare e ottimizzare i processi di data science?
UN:I processi di data science nel contesto dell'apprendimento automatico e dell'intelligenza artificiale possono essere suddivisi in quattro fasi distinte:
- acquisizione ed esplorazione dei dati,
- costruzione di modelli,
- distribuzione del modello e
- valutazione e perfezionamento online.
Dalla mia esperienza, le fasi più difficili sono le fasi di acquisizione e distribuzione dei modelli in qualsiasi processo di scienza dei dati basato sull'apprendimento automatico, e qui ci sono due modi per ottimizzarli:
1. Stabilire un archivio dati altamente accessibile.
Nella maggior parte delle organizzazioni, i dati non vengono archiviati in un'unica posizione centrale. Prendiamo solo le informazioni relative ai clienti. Hai informazioni di contatto del cliente, e-mail di assistenza clienti, feedback dei clienti e cronologia di navigazione dei clienti se la tua azienda è un'applicazione web. Tutti questi dati sono naturalmente dispersi, poiché servono a scopi diversi. Possono risiedere in database diversi e alcuni possono essere completamente strutturati e altri non strutturati e possono anche essere archiviati come file di testo semplice.
Sfortunatamente, la dispersione di questi set di dati limita fortemente il lavoro di scienza dei dati poiché la base di tutti i problemi di PNL, apprendimento automatico e intelligenza artificiale sono i dati . Quindi, avere tutti questi dati in un unico posto - il datastore - è fondamentale per accelerare lo sviluppo e la distribuzione del modello. Dato che questo è un elemento cruciale per tutti i processi di data science, le organizzazioni dovrebbero assumere ingegneri di dati qualificati per aiutarli a costruire i loro archivi di dati. Questo può facilmente iniziare come un semplice dump di dati in una posizione e crescere lentamente in un repository di dati ben congegnato, completamente documentato e interrogabile con strumenti di utilità per esportare sottoinsiemi di dati in diversi formati per scopi diversi.
2. Esporre i tuoi modelli come servizio per una perfetta integrazione.
Oltre a consentire l'accesso ai dati, è anche importante poter integrare i modelli sviluppati dai data scientist nel prodotto. Può essere estremamente difficile integrare i modelli sviluppati in Python con un'applicazione Web che funziona su Ruby. Inoltre, i modelli potrebbero avere molte dipendenze di dati che il prodotto potrebbe non essere in grado di fornire.
Un modo per gestirlo è creare una solida infrastruttura attorno al modello ed esporre le funzionalità sufficienti necessarie per il prodotto al fine di utilizzare il modello come "servizio Web". Ad esempio, se l'applicazione richiede una classificazione dei sentimenti sulle recensioni dei prodotti, tutto ciò che dovrebbe fare è invocare il servizio web, fornendo il testo pertinente e il servizio restituirebbe la classificazione di sentimento appropriata che il prodotto può utilizzare direttamente. In questo modo l'integrazione è semplicemente sotto forma di una chiamata API. Il disaccoppiamento del modello e del prodotto che lo utilizza rende davvero facile per i nuovi prodotti che ti vengono in mente di utilizzare questi modelli con poca seccatura.
Ora, l'installazione dell'infrastruttura attorno al modello è un'altra storia e richiede un investimento iniziale pesante da parte dei team di progettazione. Una volta che l'infrastruttura è lì, è solo una questione di costruire modelli in un modo che si adatti all'infrastruttura.