Casa Audio Sento persone morte? la tecnologia del linguaggio naturale fa rivivere le voci del passato e del presente

Sento persone morte? la tecnologia del linguaggio naturale fa rivivere le voci del passato e del presente

Sommario:

Anonim

In questi giorni, la maggior parte delle voci di computer sono passate. Probabilmente non ti ecciti troppo per i cyborg e i robot quando senti il ​​"droide" sul tuo telefono che ti aiuta con un pagamento della bolletta o ti chiede quale dipartimento vuoi. E se all'improvviso hai sentito Kurt Cobain che ti chiedeva informazioni sulla carta? O John F. Kennedy ti parla delle meraviglie del voto anticipato? O Elvis ottenere il tuo nome e indirizzo prima di entrare in "un pezzo, un pezzo di amore ardente?"


Tutti questi sarebbero … un po 'strani, ma la cosa ancora più affascinante è che la tecnologia è praticamente già qui. Solo una decina di anni fa, siamo rimasti sorpresi dalla capacità di un computer di persino parlare. Ora, stiamo per essere pavimentati da voci generate dal computer che suonano liberamente, proprio come le persone che conosciamo.

Grandi cambiamenti nella PNL

Se stai prestando attenzione al campo dell'elaborazione del linguaggio naturale (NLP), potresti aver sentito parlare di alcuni recenti progressi che vanno oltre i tipi di voci di assistente virtuali in scatola che ora ascoltiamo nei nostri sistemi di posizionamento globale (GPS) e nelle attività automatizzate linee telefoniche.


L'inizio della PNL ha richiesto molte ricerche sulla meccanica generale del linguaggio umano. I ricercatori e gli ingegneri hanno dovuto identificare la fonetica individuale, piegarli in algoritmi più grandi per generare frasi e frasi, quindi provare a gestirli tutti a un livello meta per generare qualcosa che suonasse reale. Nel tempo, i leader della PNL hanno imparato questo e hanno iniziato a costruire algoritmi avanzati per capire cosa dicono gli umani. Mettendo insieme questi due, le aziende hanno inventato i driver per gli assistenti virtuali di oggi e gli impiegati completamente digitali, i cui manierismi - sebbene fastidiosi - sono ancora sorprendenti quando ti fermi a pensare al lavoro che li ha condotti.


Ora, alcune aziende stanno andando oltre la voce virtuale generica per mettere insieme un risultato personalizzato più specifico. Ciò richiede l'esame del lessico di una persona in particolare e la raccolta di grandi quantità di video vocali unici, quindi l'applicazione di questo archivio ai ritmi complessi di fonetica, enfasi, cadenza e tutti gli altri piccoli segnali che i linguisti spesso raggruppano sotto l'ampio vessillo di "prosodia".


Ciò che viene fuori è una voce che gli ascoltatori considerano "posseduta" da una persona in particolare - qualcuno che conoscono e con cui hanno parlato, o qualcuno la cui voce riconoscono a causa della fama della persona.


Da Elvis a Martin Luther King, la voce di chiunque può ora essere "clonata" in questo modo - a condizione che vi sia una notevole registrazione preregistrata del loro discorso. Applicando un'analisi e una manipolazione ancora più dettagliate ai singoli piccoli suoni, le aziende sono in grado di creare una copia carbone virtuale della voce di qualcuno che suona molto come la cosa reale.

Emozionanti creazioni "Text to Voice" su VivoText

VivoText, ad esempio, è un'azienda che sta lavorando per rivoluzionare l'uso di voci umane artificiali per tutti i tipi di campagne, dagli audiolibri alla risposta vocale interattiva (IVR). Al VivoText, i team di ricerca e produzione stanno lavorando a processi che, teoricamente, potrebbero replicare in modo specifico le voci delle celebrità decedute, come lo stesso Ol 'Blue Eyes.


"Per clonare la voce di Frank Sinatra, passeremmo attraverso la sua eredità registrata", afferma Gershon Silbert, CEO di VivoText, parlando di come questo tipo di tecnologia potrebbe funzionare.


In questo momento, VivoText sta lavorando all'archiviazione delle voci di coloro che sono ancora con noi, come il corrispondente NPR Conan, che si è registrato come modello per questo tipo di progetto pionieristico IT. Un video promozionale mostra i lavoratori di VivoText che creano scrupolosamente moduli di codice fonetico utilizzando l'input vocale fornito da Conan. Quindi creano i modelli per gli strumenti di sintesi vocale che evocano un risultato drammaticamente umano e personificato.


Secondo Ben Feibleman, vicepresidente della strategia e dello sviluppo aziendale di VivoText, il computer funziona a livello di fonemi (utilizzando le più piccole parti uniche del discorso) per conformarsi a un modello prosodico per una singola voce umana.


"Sa come parla la voce", dice Feibleman, aggiungendo che usando "selezione unità", il computer sceglie un numero di pezzi per mettere insieme una singola parola breve, come dove la parola "Venerdì" viene data cinque componenti che aiutano a sviluppare una particolare enfasi e risultato tonale.

Voce artificiale nel marketing

Quindi, come funziona nel marketing? I prodotti VivoText potrebbero essere estremamente utili nella creazione di prodotti, come gli audiolibri, che potrebbero raggiungere il pubblico di destinazione. Ad esempio, quanto più efficace sarebbe una voce di Elvis rispetto a una delle voci automatiche, generiche e automatiche di oggi se venisse utilizzata per vendere prodotti legati all'intrattenimento?


Oppure, che ne dici di politica? Feibleman ha lavorato su varie idee per l'utilizzo di progetti come questi per migliorare il marketing per le aziende o altre parti che necessitano di una messaggistica più efficace.


"Se conosci qualche politico candidato alla presidenza, questo potrebbe far sì che 10 milioni di elettori dello stato swing ricevano una chiamata personale da un candidato, ringraziandoli per il loro sostegno, dicendo loro dove devono andare per votare, il tempo e tutte le guarnizioni la notte prima delle elezioni ", ha detto Feibleman.

La tua voce è viva

C'è un'altra ovvia applicazione a tutta questa tecnologia. Le aziende di linguaggio naturale come VivoText potrebbero creare un servizio personale in grado di caricare tutti i dati vocali di un cliente in un prodotto che consentirebbe a quella persona di "parlare per sempre".


L'implementazione pratica solleverebbe probabilmente una serie di domande su come ascoltiamo e interiorizziamo le voci parlate. Ad esempio, cosa serve per far sembrare un flusso audio esattamente come qualcuno? Quanto dobbiamo conoscere una persona per riconoscere una voce particolare? E, cosa interessante, cosa succede se un servizio di linguaggio naturale produce una caricatura grezza, piuttosto che un imitativo convincente?


La valutazione dei risultati, afferma Feibleman, dipende spesso dalla considerazione del contesto. Ad esempio, dice che i bambini di solito non fanno domande su chi sta parlando quando ascoltano una storia. Vogliono solo di più. Inoltre, molti adulti potrebbero non pensare a chi sta parlando con loro, dato uno scenario particolare, come una trasmissione passiva o un messaggio telefonico. Inoltre, è più facile essere ingannati da un computer al telefono perché il suono smorzato può mascherare anomalie o altre discrepanze tra i risultati del computer e una voce umana.


"Non ti viene in mente di sfidare l'autenticità della voce", afferma Feibleman.

Nell'anno 2525

Mentre le aziende avanzano nello sviluppo di prodotti e servizi e rispondendo a queste domande, le tecnologie del "linguaggio vivente" potrebbero farci avanzare verso quella convergenza di tecnologia e mente umana, che è stata classicamente chiamata intelligenza artificiale (AI).


Se i computer possono parlare come noi, potrebbero essere in grado di indurre altri utenti a pensare di pensare come noi, alimentando il più ampio principio di singolarità, come introdotto nel nostro lessico da John von Neumann, un pioniere della tecnologia degli anni '50 evangelizzato dagli scrittori e pensatori come Ray Kurzweil. Il libro di Kurzweil del 2005, "The Singularity Is Near", eccita alcuni e spaventa gli altri. Kurzweil ha predetto che entro il 2045 l '"intelligenza" come fenomeno diventerà fortemente non legata dal cervello umano e migrerà nella tecnologia, confondendo le linee tra le macchine e i loro padroni umani.


Immortalato nei testi di "In the Year 2525" di Zager & Evans (nessuno fa ballate di fantascienza inquietanti come questi ragazzi) …


Nell'anno 4545

Non avrai bisogno dei tuoi denti, non ti serviranno

i tuoi occhi

Non troverai nulla da masticare

Nessuno ti guarderà


Nell'anno 5555

Le tue braccia sono appese ai fianchi

Le tue gambe non hanno niente da fare

Qualche macchina lo sta facendo per te


Le voci dei computer sono un passo in questa direzione? Come nuovo modo di esternalizzare alcune delle funzioni del corpo umano (o più comunemente per simularle), questo tipo di progresso tecnologico è uno dei più grandi - e probabilmente sottostimati - progressi all'orizzonte mentre guardiamo in un futuro singolare . (sulla "singolarità" in I computer saranno in grado di imitare la mente umana?)

Sento persone morte? la tecnologia del linguaggio naturale fa rivivere le voci del passato e del presente