Casa Audio Perché alcuni progetti di machine learning potrebbero richiedere un numero enorme di attori?

Perché alcuni progetti di machine learning potrebbero richiedere un numero enorme di attori?

Anonim

D:

Perché alcuni progetti di machine learning potrebbero richiedere un numero enorme di attori?

UN:

Quando si pensa all'apprendimento automatico, si tende a pensare a esperti data scientist che lavorano alle tastiere nelle sale computer. C'è un'enfasi estrema sull'analisi quantitativa e sugli algoritmi. Non c'è molto contesto immediato nel mondo reale per molti di questi programmi - almeno, questo è ciò che molti penserebbero.

Tuttavia, alcuni dei più innovativi programmi di machine learning di oggi si avvalgono di veri eserciti di attori umani per strada, nei negozi e ovunque possano modellare attività umane di base come camminare, lavorare o fare shopping.

Download gratuito: Machine Learning e perché è importante

Un articolo Wired di Tom Simonite lo illustra molto bene con il titolo appropriato "Per rendere l'IA più intelligente, gli esseri umani eseguono compiti a basso costo stranissimi".

Utilizzando l'esempio di brevi video girati in un negozio di alimentari Whole Foods, Simonite evidenzia i tipi di lavoro che aiuteranno a costruire alcune delle fasi successive dell'apprendimento automatico.

Questo porta alla domanda sul perché tutte queste persone sono impegnate a filmarsi in brevi e semplici video che documentano azioni rudimentali come muovere un braccio o una gamba.

La risposta fa luce su dove si trova l'apprendimento automatico e dove sta andando.

"I ricercatori e gli imprenditori vogliono vedere l'IA capire e agire nel mondo fisico", scrive Simonite, spiegando perché lui e gli altri stanno rovistando con le telecamere. “Da qui la necessità che i lavoratori recitino scene nei supermercati e nelle case. Stanno generando materiale didattico per insegnare algoritmi sul mondo e le persone in esso. "

Come molti esperti sottolineano, alcune delle più grandi frontiere dell'apprendimento automatico riguardano l'elaborazione delle immagini e l'elaborazione del linguaggio naturale. Queste sono procedure estremamente quantitative - in altre parole, non esiste un ampio spettro di input come in ambienti "performanti" nel mondo reale. Invece, i programmi di apprendimento automatico utilizzano dati visivi e audio in modi molto specifici per costruire modelli. Con l'elaborazione delle immagini, sta selezionando le funzionalità da un campo visivo (finito). Per la PNL, sta assemblando i fonemi.

Andare oltre queste specifiche categorie di input implica qualcosa che potresti chiamare "gap di immagini e parlato" - andando oltre le cose come l'elaborazione delle immagini e il riconoscimento vocale, ti stai spostando in aree in cui i computer devono essere analitici in diversi modi. I set di allenamento saranno sostanzialmente diversi.

Entra nell'esercito dei videografi. In alcuni di questi nuovi progetti di apprendimento automatico, le idee più piccole sulle attività umane sono i set di formazione. Invece di essere addestrati a cercare funzionalità, bordi e pixel che compongono le attività di classificazione, i computer utilizzano invece video di formazione per valutare l'aspetto dei diversi tipi di azione.

La cosa fondamentale è cosa possono fare gli ingegneri con questi dati quando vengono aggregati e caricati e quando il computer viene addestrato su di essi. Presto vedrai i risultati in vari campi - ad esempio, questo renderà la sorveglianza estremamente efficace. I computer saranno in grado di "vedere" nel campo visivo ciò che la gente sta facendo e applicarlo a settori come il marketing e le vendite, o forse, in alcuni casi, il lavoro delle agenzie governative o la giustizia penale.

Le ramificazioni mettono anche in luce il dibattito tra il massimo beneficio e le domande sulla privacy. Gran parte dell'uso di questi video costruirà modelli di apprendimento automatico che funzionano per la sorveglianza, ma per quanto riguarda le persone che non vogliono essere sorvegliate? Quando questi nuovi programmi di apprendimento automatico vengono implementati nello spazio pubblico, quali sono i diritti dell'individuo e dove viene tracciata quella linea?

In ogni caso, le aziende stanno usando questo tipo di risorse umane e video per scavare davvero in alcuni round di avanzamento del machine learning di livello successivo che consentiranno effettivamente ai computer di riconoscere ciò che sta accadendo intorno a loro, piuttosto che classificare le immagini o lavorare con i fonemi di discorso. Si tratta di uno sviluppo estremamente interessante e controverso nell'intelligenza artificiale e che merita la sua parte di attenzione nei media tecnologici e oltre.

Perché alcuni progetti di machine learning potrebbero richiedere un numero enorme di attori?