D:
In che modo il raschiamento dei dati per l'apprendimento automatico è diventato il collo di bottiglia più laborioso dall'inserimento manuale dei dati nella migrazione legacy?
UN:Uno dei problemi pratici che le aziende potrebbero incontrare durante il tentativo di avviare un progetto di machine learning (ML) è la sfida di acquisire i set di dati di formazione iniziale. Ciò potrebbe includere processi ad alta intensità di lavoro come il web scraping o altri dati.
I termini web scraping e data scraping si riferiscono in gran parte alle attività automatizzate da parte di software per computer, ma per molti progetti di ML, ci saranno casi in cui i computer non hanno la raffinatezza per raccogliere i giusti dati mirati, quindi dovranno essere fatti "a mano." Questo si potrebbe chiamare "web umani / data scraping", ed è un lavoro ingrato. In genere implica uscire e cercare dati o immagini per "alimentare" il programma ML attraverso set di formazione. È spesso piuttosto iterativo, il che lo rende un lavoro noioso, lento e impegnativo.
Download gratuito: Machine Learning e perché è importante |
La raschiatura dei dati per i set di formazione ML rappresenta un collo di bottiglia unicamente problematico nell'apprendimento automatico, in parte perché gran parte dell'altro lavoro è altamente concettuale e non ripetitivo. Molte persone possono trovare una grande idea per una nuova app che esegue attività di apprendimento automatico, ma i dadi e il lavoro pratico possono essere molto più difficili. In particolare, delegare il lavoro di assemblaggio dei set di addestramento può effettivamente essere una delle parti più difficili di un progetto di ML, come esplorato a fondo nel programma televisivo "Silicon Valley" di Mike Judge. In un episodio della quarta stagione, un imprenditore di avvio fa prima bullismo a un partner per svolgere il lavoro ad alta intensità di lavoro, quindi cerca di trasmetterlo agli studenti universitari mascherandolo da compito a casa.
Questo esempio è istruttivo perché mostra quanto non sia apprezzato e apparentemente non importante lo scraping manuale dei dati. Tuttavia, mostra anche che questo processo è necessario per una vasta gamma di prodotti di apprendimento automatico. Sebbene la maggior parte delle persone odi l'inserimento dei dati, i set di addestramento devono essere assemblati in qualche modo. Gli esperti del processo raccomandano spesso di utilizzare un servizio di web scraping - essenzialmente esternalizzando questo lavoro ad alta intensità di lavoro a soggetti esterni, ma ciò potrebbe avere conseguenze sulla sicurezza e causare altri problemi. Quando si tiene in casa la raccolta manuale dei dati, anche in questo caso è necessario prevedere un processo che spesso è molto manuale e richiede molto tempo.
In un certo senso, lo "scraping dei dati umani" per l'apprendimento automatico sembra l'immissione manuale dei dati che a volte doveva essere eseguita nella migrazione legacy. Man mano che il cloud diventava sempre più popolare e le aziende inserivano i loro processi e flussi di lavoro nel cloud, alcuni hanno scoperto di non aver elaborato gli aspetti pratici di come trasferire i dati aziendali da un sistema legacy isolato in applicazioni native del cloud. Di conseguenza, alcune persone che altrimenti erano scienziati dei dati o persone creative con competenze IT essenziali si sono trovate a svolgere spiacevoli attività di immissione dei dati.
Lo stesso è probabile che accada con l'apprendimento automatico. Potresti sentire uno scienziato di dati lamentarsi che "sono una persona creativa" o "Sono dalla parte dello sviluppo", ma qualcuno deve fare il lavoro sporco.
Ancora una volta, se il flusso creativo non è accompagnato da una valutazione pratica della delega del flusso di lavoro, ci sarà una discrepanza nel modo in cui è diretta la gestione delle attività. Quando un'azienda non ha persone per svolgere il lavoro di raccolta dati nella raccolta di set di dati, manca una parte fondamentale della catena di procedure per un progetto di successo. Vale la pena tenerlo a mente ogni volta che un'azienda cerca di realizzare un'idea basata sullo sviluppo di nuove applicazioni di apprendimento automatico.