arrow_backVoltar

Quase assistente

OpenAI lança evolução do GPT-4 com interação + humana

13.05.24

A OpenAI apresentou nesta segunda-feira, 13, o GPT-4o, nova versão do modelo do ChatGPT. A empresa anunciou a novidade como “um passo em direção a uma interação humano-computador” mais natural. A evolução da tecnologia permite que a máquina aceite combinações de texto, áudio e imagem na entrada e na saída.

Isso quer dizer que o GPT-4o (“o” vem de “omni”) pode, por exemplo, responder com voz a um vídeo feito na hora pela câmera do celular com um tempo de resposta semelhante ao humano.

De acordo com a empresa, o GPT-4o pode responder a entradas de áudio em apenas 232 milissegundos, mas a média é de 320 milissegundos. Já se podia acionar o modo de voz para falar com o ChatGPT antes, mas o tempo de resposta era maior (latência de 5,4 segundos com o GPT-4). É como um assistente pessoal, capaz de falar do estilo de roupas que a pessoa está usando, adivinhar em que ambiente o usuário se encontra e modular seu tom de voz conforme o estado de espírito de seu interlocutor.

Alguns vídeos mostraram como o GPT-4o é habilidoso. Um deles traz Greg Brockman, sócio da OpenAI, promovendo uma conversa "entre dois celulares". Em um deles, a tecnologia emprega uma voz feminina. No outro, o áudio é voz masculina. Os dois modelos conversam entre si. Depois, Greg pede para que a plataforma cante - confira o vídeo mais abaixo.

A empresa explicou como conseguiu acelerar a interação e conferir um ar mais natural à resposta da IA generativa. O modo de voz do ChatGPT envolve três modelos separados. Um transcreve áudio em texto, depois o GPT (3.5 ou 4) recebe texto e gera texto e, por fim, o terceiro converte o texto de volta em áudio. O processo significa que a plataforma perde muitas informações nessa jornada e a máquina, assim, não conseguia captar o tom da fala ou a resposta era prejudicada se havia várias pessoas falando. O modelo também não conseguia produzir risadas ou cantar.

Com a nova versão, a OpenAI foi possível treinar um único modelo, de ponta a ponta, envolvendo texto, visão e áudio. Desse modo, as entradas e saídas são processadas pela mesma rede neural. “Como o GPT-4o é nosso primeiro modelo que combina todas essas modalidades, ainda estamos começando a explorar o que ele pode fazer”, informou a empresa.

Riscos

A modalidade de voz do GPT-4o apresenta uma nova variedade de riscos, admitiu a companhia. O modelo foi avaliado por uma equipe externa formada por mais de 70 especialistas de áreas como psicologia social, vieses e desinformação para identificar eventuais problemas da nova versão.

Para o lançamento, as saídas de áudio foram limitadas a uma seleção de vozes predefinidas. A plataforma obedecerá às políticas de segurança da OpenAI.

Os recursos de texto e imagem do GPT-4o começaram a ser implementados nesta segunda-feira no ChatGPT. Uma parte da nova tecnologia poderá ser experimentada no serviço gratuito. Nas próximas semanas, deverá ser lançada uma versão do modo de voz com GPT-4o.

Quase assistente

/