E-Mail: [email protected]
- Il lancio delle voci ultrarealistiche di ChatGPT è avvenuto con il modello GPT-4o, accessibile inizialmente a un numero limitato di tester.
- OpenAI ha risolto i problemi di sicurezza e somiglianza della voce con quella di Scarlett Johansson prima del lancio pubblico.
- La nuova modalità vocale avanzata sarà disponibile per tutti gli abbonati a ChatGPT Plus entro l'autunno.
OpenAI ha recentemente iniziato la diffusione graduale delle attese voci ultrarealistiche di ChatGPT, una funzionalità innovativa che è stata resa accessibile a un numero limitato di tester, tra cui gli abbonati al piano di abbonamento a pagamento. Le voci sono state presentate al lancio del nuovo modello di linguaggio GPT-4o e hanno sopravvissuto a un piccolo scandalo riguardante la somiglianza delle voci con il timbro dell’attrice Scarlett Johansson.
Nonostante un ritardo dovuto alla necessità di sistemare dettagli sulla sicurezza, il lancio pubblico è previsto per l’autunno. Dopo aver ufficializzato il modello mini di GPT-4o e il motore di ricerca basato su AI SearchGPT, OpenAI mantiene le promesse e riserva un piccolo assaggio delle attesissime voci ultrarealistiche di ChatGPT (advanced voice mode) a un ristretto numero di tester, tra cui gli abbonati al piano di abbonamento Plus ai servizi premium.
Non ci sarà la voce nota come Sky, che sembrava troppo simile a quella di Scarlett Johansson nel film “Her”, dove interpretava un’intelligenza artificiale evoluta. L’attrice aveva paventato un’azione legale e rifiutato il consenso a OpenAI di mantenere la voce, verosimilmente dietro lauto pagamento. Rimarranno altri timbri femminili, maschili e neutri per interagire, con conversazioni naturali come se si stesse conversando con una persona in carne e ossa.
La modalità vocale avanzata di ChatGPT
Secondo le dichiarazioni di OpenAI, la nuova modalità vocale avanzata di ChatGPT è disponibile per un ristretto numero di utenti iscritti a ChatGPT Plus. La caratteristica è stata mostrata per la prima volta durante l’evento di presentazione di GPT-4o, ma ha sollevato dubbi negli utenti per motivi di sicurezza, contribuendo al ritardo nella distribuzione. Ora che la funzione sembra perfezionata, OpenAI è pronta per il lancio nelle prossime settimane.
Le ultime informazioni utili sulla modalità vocale avanzata di ChatGPT risalgono allo scorso maggio, quando il tool è comparso durante la presentazione di GPT-4o, mostrando le sue grandi potenzialità rispetto all’attuale modalità vocale. Il vero punto di forza della caratteristica è stato mostrato dalle “continue interruzioni” dei dipendenti di OpenAI che chiedevano al chatbot, in tempo reale, di raccontare una storia in modi diversi, riadattando il suo tono in base alle richieste. Durante le brevi pause alle interruzioni, in tempi rapidissimi ChatGPT è stato in grado di aggiustare il tiro e adattare le risposte seguendo le richieste.
Nonostante ciò, il tool ha ricevuto critiche dopo l’evento, soprattutto da chi ha affermato che Sky, la “voce umana” del chatbot, somigliasse in modo evidente a quella di Scarlett Johansson. L’attrice, in passato, ha dato voce a un chatbot AI nel film “Her”, una pellicola controversa che ha fatto riflettere sulla strana somiglianza nella voce. Per risolvere il dubbio, OpenAI ha dovuto ritoccare la voce per allontanarla da quella dell’attrice, che ha confermato di aver inviato diverse lettere all’azienda per sapere.
Per risolvere il problema, il chatbot avrà a disposizione quattro voci differenti, create grazie al lavoro congiunto con doppiatori. L’azienda ha dovuto anche “rivedere” le politiche sulla sicurezza, un altro interrogativo sollevato dagli utenti alla presentazione del tool. Sono stati aggiunti filtri che riconosceranno e bloccheranno determinate richieste, come quella di generare musica o altre tipologie di audio protetti da copyright. È stato introdotto anche un limite al tool per non impersonare voci di altre persone, inclusi personaggi noti, bloccando ogni tentativo del genere da parte degli utenti.
Il rilascio della modalità vocale avanzata
OpenAI ha annunciato il rilascio della versione di anteprima della modalità ‘Voice Mode’ di ChatGPT. Un ristretto gruppo di utenti iscritti al piano Plus potrà sperimentare l’interazione vocale naturale con il chatbot. Secondo una nota ufficiale di OpenAI, l’Advanced Voice Mode offre conversazioni naturali in tempo reale, in cui l’IA percepisce e risponde alle emozioni dell’utente.
Nelle prossime settimane, OpenAI espanderà l’accesso a più iscritti Plus con la previsione di estendere la funzionalità a tutti i paganti in autunno. La nuova modalità vocale, presentata a metà maggio, ha suscitato polemiche per la somiglianza del tono e del timbro della voce di ChatGPT con quella dell’attrice Scarlett Johansson, che ha interpretato un’intelligenza artificiale nel film “Her”. La società ha ritirato la voce prima che Johansson chiedesse a OpenAI cosa avesse ispirato “Sky”, il nome dato alla voce.
Secondo il sito The Verge, un portavoce della startup, Taya Christianson, ha spiegato che la nuova modalità userà quattro voci preimpostate, realizzate con doppiatori, per garantire che ChatGPT non possa impersonare voci di altre persone, inclusi personaggi pubblici, bloccando ogni modifica che sblocchi un output diverso da quello previsto.
OpenAI presenta l’Advanced Voice Mode in versione alpha
La nuova modalità vocale è disponibile per un ristretto numero di utenti prima del lancio autunnale. Il 31 luglio 2024, OpenAI ha annunciato l’inizio della distribuzione della versione alpha del nuovo Advanced Voice Mode a un piccolo gruppo di utenti ChatGPT Plus. La nuova funzione implementa conversazioni naturali in tempo reale, con la capacità di interrompere e percepire e rispondere alle emozioni dell’utente.
Nelle prossime settimane, OpenAI espanderà l’accesso a più utenti Plus, con l’obiettivo di rendere disponibile la funzionalità a tutti gli utenti Plus in autunno. I partecipanti alla versione alpha riceveranno un avviso nell’app ChatGPT e un’email con istruzioni. La condivisione di video e schermo non è inclusa nella versione alpha, ma verrà lanciata successivamente.
OpenAI è concentrata sulla qualità e sicurezza delle conversazioni vocali di GPT-4o per garantire un’esperienza ottimale agli utenti di ChatGPT. La capacità del modello di supportare milioni di conversazioni vocali simultanee in tempo reale è stata rafforzata, mantenendo bassa latenza e alta qualità. A giugno, OpenAI ha annunciato miglioramenti nella capacità del modello di rilevare e rifiutare contenuti inappropriati. Negli ultimi due mesi, le capacità vocali del modello sono state testate con oltre 100 red teamer esterni, in 45 lingue e 29 aree geografiche.
Grazie al feedback dei 100 teamer e ai test interni, OpenAI ha implementato misure di sicurezza. L’Advanced Voice Mode utilizzerà quattro voci preimpostate, create con doppiatori, per garantire che ChatGPT non impersoni altre persone, inclusi personaggi pubblici, bloccando output che differiscano. Sono stati aggiunti nuovi filtri per riconoscere e bloccare richieste di generare musica e contenuti audio protetti da copyright. Le tecniche di sicurezza applicate alla modalità testuale sono state estese alle conversazioni vocali, assicurando che GPT-4o sia conforme alle leggi e non generi contenuti dannosi.
Bullet Executive Summary
L’Advanced Voice Mode di ChatGPT rappresenta un significativo passo avanti nel campo delle interazioni vocali con intelligenze artificiali. Questa nuova funzionalità, che sarà disponibile per tutti gli abbonati a ChatGPT Plus entro l’autunno, promette di offrire conversazioni naturali e in tempo reale, con la capacità di percepire e rispondere alle emozioni degli utenti. Nonostante le polemiche iniziali riguardanti la somiglianza della voce con quella di Scarlett Johansson, OpenAI ha lavorato per garantire la sicurezza e la qualità delle conversazioni, introducendo filtri e misure di sicurezza per prevenire abusi e violazioni del copyright.
Una nozione base di tecnologia correlata al tema principale dell’articolo riguarda il concetto di elaborazione del linguaggio naturale (NLP), che è alla base delle capacità di ChatGPT di comprendere e generare testo in modo coerente e contestuale. L’NLP consente alle macchine di interpretare, analizzare e rispondere al linguaggio umano in modo simile a come farebbe un essere umano.
Una nozione di tecnologia avanzata applicabile al tema dell’articolo è il modello multimodale, che permette a ChatGPT di elaborare simultaneamente input di testo e voce, migliorando l’interazione e riducendo la latenza. Questo approccio consente una comunicazione più fluida e naturale, rendendo l’esperienza utente più coinvolgente e realistica.
In conclusione, l’Advanced Voice Mode di ChatGPT non solo rappresenta un’importante innovazione tecnologica, ma solleva anche questioni etiche e legali che richiedono attenzione. È un esempio di come la tecnologia possa avvicinarsi sempre di più all’interazione umana, pur mantenendo la necessità di regolamentazioni e misure di sicurezza per garantire un uso responsabile e sicuro.
- Pagina ufficiale di OpenAI sulla funzionalità di ChatGPT che può vedere, sentire e parlare
- Pagina ufficiale di OpenAI per GPT-4o e strumenti aggiuntivi per utenti gratuiti, con informazioni sulla nuova modalità vocale avanzata
- Sito ufficiale di OpenAI, pagina sul lancio di GPT-4o e modalità vocale avanzata di ChatGPT