Modelo revolucionário e inovador insere pessoas realisticamente em imagens

Pesquisadores desenvolvem um modelo computacional avançado capaz de inserir pessoas de maneira realista em variados cenários, abrindo novas perspectivas para a indústria criativa

Demonstrando a capacidade do modelo de inserir indivíduos de forma realista em diversas cenas. Os desafios incluem inferir uma pose plausível dado o contexto da cena, reposicionar a pessoa e harmonizar a inserção com relação à iluminação e sombras
Demonstrando a capacidade do modelo de inserir indivíduos de forma realista em diversas cenas. Os desafios incluem inferir uma pose plausível dado o contexto da cena, reposicionar a pessoa e harmonizar a inserção com relação à iluminação e sombras (Foto: Kulal et al)


✅ Receba as notícias do Brasil 247 e da TV 247 no canal do Brasil 247 e na comunidade 247 no WhatsApp.

247 - Demonstrando a notável habilidade do modelo de inserir pessoas de maneira convincente em variadas cenas, pesquisadores enfrentam desafios que incluem inferir uma postura plausível com base no contexto da cena, reposicionar a pessoa e harmonizar a inserção levando em conta a iluminação e sombras. O trabalho é crédito de Kulal e equipe. 

O recente surgimento de modelos generativos, ferramentas computacionais capazes de gerar novos textos ou imagens baseados nos dados em que foram treinados, inaugurou novas possibilidades fascinantes para as indústrias criativas. Por exemplo, eles permitem que artistas e criadores de conteúdo digital produzam de maneira fácil conteúdo de mídia realista que integra elementos de diferentes imagens ou vídeos.

continua após o anúncio
Imagem IA
Apresentando as tarefas auxiliares do modelo no momento da inferência, que incluem alucinar uma pessoa compatível com a cena, gerar uma cena adequada para uma determinada pessoa e trocar de roupa em um ambiente de teste virtual(Photo: Kulal et al)

Inspirados por esses recentes avanços, pesquisadores da Universidade Stanford, UC Berkeley e Adobe Research desenvolveram um novo modelo capaz de inserir de maneira realista pessoas específicas em diferentes cenários, como exercitando-se na academia, assistindo ao pôr do sol na praia e assim por diante.

Essa proposta inovadora, que se baseia em uma classe de modelos generativos conhecidos como modelos de difusão, foi apresentada em um artigo pré-publicado no servidor arXiv e será apresentado na Conferência de Visão Computacional e Reconhecimento de Padrões (CVPR) 2023 em Vancouver neste mês de junho.

continua após o anúncio

"Os sistemas visuais possuem, de maneira inerente, a habilidade de inferir possíveis ações ou interações que um ambiente ou cena permite, um conceito conhecido como 'affordances'," conta Sumith Kulal, um dos pesquisadores responsáveis pelo estudo.

A ideia de Kulal e sua equipe foi aplicar modelos generativos à tarefa de percepção de affordance, esperando obter resultados mais confiáveis e realistas. O estudo concentra-se especificamente no problema de inserir uma pessoa de maneira realista em uma cena dada.

continua após o anúncio

"Nossas entradas incluem uma imagem de uma pessoa e uma imagem de cena com uma região designada, e a saída é uma imagem de cena realista que agora inclui a pessoa", explica Kulal. "Nosso modelo generativo em grande escala, treinado em um conjunto de dados composto por milhões de vídeos, oferece maior generalização para cenas e pessoas novas. Além disso, nosso modelo exibe uma série de habilidades auxiliares intrigantes, como alucinação de pessoas e prova virtual de roupas."

Os pesquisadores avaliaram o modelo generativo em uma série de testes preliminares, alimentando-o com novas imagens de pessoas e cenas, para então observar o quão bem ele colocava essas pessoas nas cenas. Eles descobriram que ele funcionou muito bem, criando imagens editadas que pareciam bastante realistas.

continua após o anúncio

"Estamos empolgados em observar a eficácia do modelo para uma ampla gama de imagens de cenas e pessoas, identificando corretamente as affordances apropriadas na maioria dos casos", comenta Kulal.

Processo IA
Esquema de treinamento auto-supervisionado. Dois quadros aleatórios são extraídos, com a pessoa no primeiro quadro sendo mascarada. A pessoa do segundo quadro é então utilizada como um elemento condicionante para pintar a imagem(Photo: Kulal et al)

No futuro, o modelo desenvolvido por Kulal e seus colegas poderia ser integrado a uma série de ferramentas de software criativo para expandir suas funcionalidades de edição de imagem, apoiando assim o trabalho de artistas e criadores de mídia. Ele também poderia ser adicionado a aplicativos de edição de fotos para smartphones, permitindo aos usuários inserir facilmente e de maneira realista uma pessoa em fotografias.

continua após o anúncio

"Este trabalho oferece várias possíveis avenidas para exploração futura", acrescenta Kulal. "Estamos considerando incorporar maior controlabilidade na pose gerada, com trabalhos recentes como ControlNet fornecendo insights relevantes. Também podemos expandir este sistema para gerar vídeos realistas de humanos se movendo dentro de cenas, em vez de imagens estáticas. Além disso, os métodos apresentados neste artigo não se restringem a humanos; poderíamos generalizar essa abordagem para todos os objetos."

Mais informações sobre o estudo podem ser encontradas no artigo "Putting People in Their Place: Affordance-Aware Human Insertion into Scenes" publicado no arXiv (2023). DOI: 10.48550/arxiv.2304.14406"

continua após o anúncio

Com informações de techxplore.

continua após o anúncio

iBest: 247 é o melhor canal de política do Brasil no voto popular

Assine o 247, apoie por Pix, inscreva-se na TV 247, no canal Cortes 247 e assista:

Comentários

Os comentários aqui postados expressam a opinião dos seus autores, responsáveis por seu teor, e não do 247

continua após o anúncio

Ao vivo na TV 247

Cortes 247