TECNOLOGIA

‘Irmão’ do ChatGPT: Empresa cria IA para transformar texto em vídeo

A OpenAI, responsável pelo ChatGPT, apresenta novo modelo de inteligência artificial capaz de transformar descrições em cenas de vídeo

  • Foto do(a) author(a) Rede Nordeste, O Povo
  • Rede Nordeste, O Povo

Publicado em 15 de fevereiro de 2024 às 21:30

Conheça Sora, a nova inteligência artificial capaz de criar vídeos por descrição de texto
Conheça Sora, a nova inteligência artificial capaz de criar vídeos por descrição de texto Crédito: Divulgação/OpenAI

A empresa OpenAI, criadora do chatbot online conhecido como ChatGPT, lançou mais uma inovação em inteligência artificial nesta quinta-feira, 15, intitulada Sora. O “irmão” mais novo da IA é capaz de criar cenários em vídeo a partir de instruções em texto.

Os recursos do sistema estão atualmente disponíveis para a avaliação em áreas críticas, na busca por danos ou riscos. “Também estamos concedendo acesso a vários artistas visuais, designers e cineastas para obter feedback”, destaca o anúncio da companhia.

As gravações geradas podem conter até um minuto de duração, prometendo qualidade visual aos usuários. Na prática, o modelo deve entender não apenas o prompt relatado (comando que se faz para a IA criar o produto), mas como essas coisas existem no mundo real.

“A Sora é capaz de gerar cenas complexas com vários personagens, tipos específicos de movimento e detalhes precisos do assunto e do fundo”, completa a OpenAI.

Em seu anúncio da inteligência artificial, a OpenAI apresentou diversos exemplos de vídeos criados por Sora a partir de descrições, incluindo animais, cenas antigas e figuras míticas, como um lobisomem.

A empresa também admite as limitações de sua invenção ao simular com precisão a física de uma cena complexa. A IA também pode não compreender instâncias específicas de causa e efeito. “Por exemplo, uma pessoa pode dar uma mordida em um biscoito, mas depois o biscoito pode não ter marca de mordida”.

Outra possível confusão do sistema está em detalhes espaciais, como misturar direita e esquerda, além de problemas com descrições precisas de eventos que ocorrem ao longo de um espaço de tempo.

A IA também é capaz de produzir vídeos inteiros de uma só vez ou estender os vídeos gerados para torná-los mais longos.

Em adição a vídeos por descrição de texto, o Sora consegue pegar uma imagem estática existente e desenvolver uma gravação, animando o conteúdo apresentado.

“Sora baseia-se em pesquisas anteriores dos modelos DALL-E e GPT. Ele utiliza a técnica de recaptação do DALL-E 3, que envolve a geração de legendas altamente descritivas para os dados de treinamento visual”, completa a empresa sobre os recursos.