Oggi l'intelligenza artificiale ha fatto grandi progressi riuscendo a conquistare settori un tempo destinati solamente all'essere umano. In questo post mi occuperò del voice-over, dove le voci generate dall'IA stanno prendendo sempre più piede, soprattutto tra le aziende e i professionisti che desiderano ridurre i costi di produzione e/o accelerare i tempi per la produzione dei propri contenuti. La domanda da porsi è: vale davvero la pena sostituire una voce umana con una artificiale?
Una casa di produzione con cui ho parlato recentemente mi ha confermato un aumento della richiesta di voci artificiali italiane per lo speakeraggio di progetti audio/video a loro commissionati. Per quanto sia crescente questa richiesta, l'agenzia ha deciso di non offrire (per ora?) questo servizio, ritenendo che, anche se i progressi tecnologici siano ormai rilevanti, le voci artificiali italiane non possono competere con la precisione e l'espressività degli speaker che offrono servizi di voice-over professionali.
Un aspetto su cui mi sono soffermata a pensare è la necessità , quasi obbligata, di specificare quando si parla di "voce" se si tratta di una voce umana o artificiale. Non è strano dover distinguere tra le due? Questo mi fa riflettere su quanto l'IA stia davvero diventando parte integrante di questo settore, e non solo.
Un caso recente è lo spot della Kia Nuova Picanto, che ha utilizzato per la prima volta una voce creata tramite IA generativa. Ad un primo ascolto la voce sembrava umana e straniera, tanto che pensavo si fossero affidati ad una collega orientale. Tuttavia ad ogni nuovo ascolto percepivo qualcosa di "stonato". Solo dopo aver ascoltato attentamente lo spot e, soprattutto, solo dopo che un collega mi aveva fatto notare la dicitura "voce realizzata tramite AI generativa" ho capito che si trattava di una voce artificiale. Tutti questi aspetti a cui continuavo a prestare attenzione avevano fatto nascere in me sensazioni e pensieri discordanti, distraendomi di conseguenza dal messaggio dello spot.
Molte voci artificiali destinate al mercato italiano, infatti, presentano molto spesso accenti stranieri, prevalentemente americani, il che rappresenta un dettaglio importante da considerare quando ci si indirizza verso questa scelta.
Le voci generate dall'IA per alcuni offrono senz'altro dei vantaggi. Sono disponibili 24h/7gg, possono essere create rapidamente e per progetti di lunga durata, tecnici o informativi rappresentano un'opzione economicamente conveniente.
Tuttavia, come ho accennato sopra, questi vantaggi vanno valutati con attenzione. Le sfumature di accento, la mancanza di espressività , le pronunce spesso irregolari rappresentano un rischio per la comunicazione di chi decide di utilizzarle. Queste nuove voci, per quanto avanzate, tendono a suonare generiche e rischiano di rendere il messaggio impersonale e freddo.
Nonostante i progressi tecnologici, la voce umana rimane insostituibile in molti progetti. Uno speaker professionista può interpretare un testo (video o presentazione aziendale, spot, e-learning, audiolibro, messaggio di segreteria telefonica, …) in un modo che nessuna IA attualmente disponibile è in grado di replicare completamente. La nostra voce è capace di trasmettere originalità , veridicità e una gamma di emozioni che può fare la differenza tra un messaggio che viene ascoltato e uno che viene semplicemente sentito.
Un altro aspetto da considerare è il costo. Anche se l'uso di voci non umane può sembrare più economico, è importante considerare il costo complessivo, che include non solo la produzione, ma anche l'impatto a lungo termine sul marchio e la percezione che l'ascoltatore avrà di esso. C'è da aggiungere poi che le correzioni sul parlato creato con voci IA possono richiedere risorse aggiuntive per ottenere un risultato ottimale, rendendo tutto il processo più complesso rispetto al lavoro di uno speaker professionista, che può facilmente gestire eventuali modifiche con risultati quasi sempre definitivi.
L'intelligenza artificiale sta senza dubbio trasformando il settore dello speakeraggio, ma la scelta tra una voce umana e una artificiale non dovrebbe mai essere presa alla leggera dalle aziende. Ogni progetto è unico e la decisione dipende dalle specifiche esigenze del marchio, dal progetto, dal tipo di messaggio da trasmettere e dal pubblico di riferimento.
In futuro, la sfida sarà quella di saper bilanciare innovazione e "tradizione", mantenendo sempre al centro la qualità e l'autenticità della comunicazione. Siamo umani e, anche se di questi tempi capita di dimenticarcene, abbiamo bisogno di circondarci di umanità .
Spot mipiacecosi su Mediaset, il tizio che parla è palesemente doppiato con la ai, labiale incluso. La differenza si sente, è orribile, non adattato, velocizzato... Un umano avrebbe proposto di adattare meglio il testo, di utilizzare una metrica specifica nel parlato, di offrire un servizio migliore, perché in fondo la voce che si sentirà sarà la sua, quindi in qualche modo c'è in gioco anche la sua reputazione.
Ma viviamo nel periodo dello "sticazzi, chi se ne accorge?".
E parecchi colleghi continuano a lavorare con la mentalità del "tanto chi se ne accorge, mica sono un fonico?", "è scritta male, la leggo male, mica sono revisore di testi?" e via...
Così come l'idraulico che chiede alla signora di essere saldato…
Ciao Cristina, grazie del tuo post, molto interessante. Mi stupisco sempre di come sia alta la disponibilità a ridurre l'aspetto umano nelle produzioni anche a discapito della resa. Maggiori voci che dicono cose senza sapere cosa dicono a cosa servono? Sono destinate a umani, il sentimento vuoto come una lattina di pepsi vuota, arriva. Solo in certi ambiti è ignorata ma per la scarsissima qualità del prodotto che già prima anche gli umani rifiutavano di realizzare. Che sia quello che bolle in pentola? Una enorme quantità di prodotti scadenti che nessun umano avrebbe comunque accettato di realizzare? Oppure il risultato della spinta propagandistica sui sistemi AI che lascia credere come quelle tecnologie siano davvero intelligenti? Non è che stiamo facendo cose…