A OpenAI apresentou nesta quinta-feira (15), o Sora, seu modelo de IA generativa que transforma texto em vídeo. Imagens realistas e cenas de até um minuto são criadas a partir de textos descritivos.
Segundo a empresa, Sora é capaz de gerar imagens complexas com vários personagens, tipos específicos de movimento e detalhes precisos do assunto e do fundo do vídeo. O modelo entenderia não apenas o que o usuário descreveu, mas como é aquilo no mundo físico. Sora também pode criar várias tomadas em um único vídeo gerado.
Sora pode experimentar vídeos widescreen 1920x1080p, vídeos verticais 1080×1920 e tudo mais. Isso permite que Sora crie conteúdo para diferentes dispositivos diretamente em suas proporções nativas.
Além de poder gerar um vídeo apenas a partir de instruções por meio de texto, o modelo é capaz de pegar uma imagem estática já existente e gerar um vídeo a partir dela. O modelo também pode pegar um vídeo existente e estendê-lo ou preencher os quadros ausentes.
Por outro lado, a empresa ressalta que Sora ainda é um trabalho em curso com “pontos fracos” e pode ter dificuldade em simular com precisão detalhes de profundidade e espaço, podendo confundir esquerda e direita e compreender situações de causa e efeito. Por exemplo: uma pessoa pode pedir para o modelo criar um vídeo de alguém dando uma mordida em um cookie, mas o biscoito pode não ficar com marca de mordida.
Sora está disponível para a avaliação de red teamers – especialistas em áreas como desinformação, conteúdo de ódio e preconceito – à procura de danos ou riscos. A OpenAI oferecerá a ferramenta a artistas visuais, designers e cineastas para testarem a plataforma em troca de feedback sobre como fazer com que o modelo seja mais útil para profissionais criativos.
Confira mais exemplos aqui!