arrow_backVoltar

Vall-E, ChatGPT

Duas apostas da Microsoft no mundo da IA

11.01.23

A Inteligência Artificial parece mais em voga do que nunca. Do Midjourney ao ChatGPT, o tema tem chamado atenção do público já que essas ferramentas estão disponíveis à experimentação de quem não é exatamente especialista no assunto, o que amplifica as conversas a respeito das soluções de IA. E é claro que as grandes corporações estão atentas à tamanha popularidade.

Investidora desde 2019 da Open AI, a dona do ChatGPT, a Microsoft pretende fazer um aporte bem maior do que fez no primeiro ano. Naquela ocasião, a gigante tecnologia investiu US$ 1 bilhão na startup. Agora, fala-se num montante estimado em US$ 10 bilhões. Com tal quantia, poderia deter 49% das ações. E ainda poderia integrar o ChatGPT a seu buscador, o Bing. Nesse esforço, até a Dall-E entraria na estratégia. As duas ferramentas pertencem à Open AI, com a diferença básica que uma está focada em escrita e a outra, em imagem, tudo gerado pela inteligência artificial.

Robô premium?

Na esteira desse rumor, a Open AI revelou, no Discord, nesta quarta-feira, 11, que está pensando em como monetizar o ChatGPT. A solução é gratuita, mas pode surgir uma versão premium. Greg Brockman, presidente e cofundador da startup (junto com Elon Musk), publicou no Twitter nesta terça-feira (10) que está trabalhando em uma versão profissional do ChatGPT. Segundo esse tweet, ele oferecerá limites mais altos e processamento mais rápido nas respostas oferecidas pela ferramenta.

Emulador da voz humana

Outro movimento recente da Microsoft no uso da IA está no áudio. A companhia investe no desenvolvimento de uma tecnologia capaz de emular a voz humana seguindo instruções de texto. Para isso, basta uma mostra de três segundos de áudio, revelou o site Ars Technica. A ferramenta, que se chama Vall-E, aprende a voz e pode simulá-la para dizer qualquer coisa que se peça.

A ideia é que o Vall-E seja usado por aplicativos de conversão de texto em áudio com resultados de alta qualidade e por programas de edição de áudio que poderiam, por meio da solução, acrescentar ao conteúdo uma fala que não existia antes. Isso permitiria, por exemplo, tornar atendimentos automatizados mais humanos. Ou com vozes menos robóticas.

O Vall-E é definido pela Microsoft como um “modelo de linguagem de codec neural”. Ele é baseado no EnCodec, rede neural com IA empregada pela Meta – e anunciada em outubro do ano passado – que comprime arquivos de áudio sem perder qualidade.

Algumas ferramentas que transformam texto em áudio trabalham sintetizando o áudio por meio da manipulação de formas de onda. O Vall-E gera códigos de codec de áudio discretos a partir de textos e sons, cria tokens e os combina. A IA recorre ao que aprendeu da voz para simular como uma pessoa falaria uma determinada frase, imitando seu timbre e até seu tom emocional.

O Ars Technica aponta que, devido ao potencial do Vall-E ser empregado com más intenções, ele não está disponível para experimentações. Os pesquisadores responsáveis pela ferramenta – que mostram testes feitos com a solução em um site – explicaram que, para mitigar esse risco e evitar falsificações de vozes, é possível desenvolver uma forma de detectar que um arquivo de áudio passou pelo Vall-E.

Vall-E, ChatGPT

/