D:
Qual è la differenza tra sintesi vocale e chatbot?
UN:Le numerose differenze significative tra tecnologie di sintesi vocale e chatbot fanno parte di ciò che viene esaminato nella rapida evoluzione dei progetti di chatbot e voicebot.
Una tecnologia di sintesi vocale è semplicemente una tecnologia che converte il discorso verbale in testo su una pagina digitale. Questa è la sua piena funzione, ma non è semplice da progettare. Per convertire il discorso verbale in testo, la tecnologia deve scomporre parole e frasi in singoli fonemi e lavorare con essi secondo algoritmi complessi per creare testi accurati e che rappresentino ciò che l'oratore ha detto.
I chatbot, d'altra parte, sono tecnologie che raggiungono l'obiettivo di comunicare con un essere umano. Esistono due tipi di chatbot: chatbot di testo e voicebot. I chatbot di testo sono in circolazione da molto più tempo, perché non hanno bisogno dell'elemento di sintesi vocale utilizzato dai voicebot.
La differenza principale tra tecnologie di sintesi vocale e chatbot è l'ambito. Come accennato, tutto ciò che la tecnologia di sintesi vocale deve fare è trascrivere il discorso verbale. Il chatbot, d'altra parte, deve prendere la parola in qualunque forma sia fatto, capirlo e fornire risposte che cercano di superare il test di Turing - la prova se una tecnologia può ingannare un essere umano nel pensare che lui o lei sia parlando con un'altra persona.
Con questo in mente, i chatbot sono molto più facili da creare rispetto ai voicebot. Il chatbot contiene il testo dell'essere umano e fornisce una risposta testuale. Persino chatbot relativamente semplici sono stati in grado di fornire risultati interessanti e divertenti per l'uomo dalla fine degli anni '80 e all'inizio degli anni '90.
Il voicebot, d'altra parte, deve recepire il discorso verbale, convertirlo in testo, verificarne l'accuratezza, produrre una risposta e costruire quella risposta dal linguaggio macchina al parlato udibile. Questo gran numero di compiti abbastanza significativi significa che il voicebot richiede molta potenza di elaborazione e un sacco di design per essere costruito.
Progetti come Siri, Cortana e Alexa dimostrano parte dell'avanguardia delle tecnologie voicebot. Illustrano anche che questa tecnologia è ancora agli inizi. Sebbene Alexa e altre tecnologie possano rispondere verbalmente al linguaggio umano, non sono estremamente capaci nel senso che ci associamo al discorso umano verbale in generale. In altre parole, c'è un certo limite alle risposte che queste tecnologie possono fornire. Esiste anche una capacità limitata della generazione odierna di assistenti personali di generare realmente discorsi di testo, ad esempio, allo scopo di trascrivere una e-mail o aiutare qualcuno a scrivere un saggio senza usare le mani. Alcuni dei programmi specifici di sintesi vocale sul mercato lo fanno meglio di Siri o Cortana, probabilmente a causa dell'allocazione delle risorse. Tuttavia, ci sono segni che i progressi del voicebot stanno per decollare - come la piattaforma Lex di Amazon che consente un ambiente di studio per la creazione di questi tipi di tecnologie.
In un saggio intelligente e istruttivo sull'argomento, Tobias Goebel parla della differenza tra queste tecnologie, contrastando il processo di "trascrizione", che fa il discorso al testo, al lavoro di comprensione, che i chatbot dovrebbero fare.
"Mentre eliminare la necessità del riconoscimento vocale rende le cose più facili per un chatbot, la principale sfida per costruire robot funzionanti sta nella comprensione del linguaggio naturale", scrive Goebel.
Goebel identifica anche molti degli attuali attori del settore:
Il leader di mercato per il riconoscimento vocale è Nuance, che si cela dietro noti sistemi come Dragon NaturallySpeaking per la dettatura su un PC, presente negli anni '90, ma anche Siri: l'attività di riconoscimento vocale / trascrizione condotta nel cloud di Apple utilizza Tecnologia Nuance dietro le quinte. Altri sono LumenVox, Verbio o Interactions, ma il riconoscimento vocale è ora offerto anche come servizio cloud tramite API da Amazon, Google, Microsoft e IBM.
Man mano che i chatbot si sviluppano, si presume che la loro comprensione continuerà ad aumentare su alcune traiettorie e si presume inoltre che una maggiore tecnologia dei bot passerà dalle interfacce di testo alle interfacce verbali, richiedendo ulteriori quantità di potenza di elaborazione.