Essa inteligência artificial sabe que gestos você está fazendo apenas ouvindo sua voz

Um dos problemas de falar ao telefone é que não podemos ver toda a linguagem não verbal do nosso interlocutor. Seus gestos com as mãos, como ele abre os olhos, ou como ele os sacode, ou como ele levanta uma sobrancelha com ceticismo, ou se ele sorri ou não.

Nós, humanos, podemos deduzir isso, é claro. No entanto, essa inteligência artificial é capaz de fazer melhor, e eles tentaram isso com várias pessoas, incluindo celebridades da televisão americana.

Linguagem não verbal

Um grupo de pesquisadores coletou 144 horas de vídeo de 10 pessoas conversando, incluindo uma freira, uma professora de química e cinco apresentadores de programas de TV (Conan O'Brien, Ellen DeGeneres, John Oliver, Jon Stewart e Seth Meyers).

Eles usaram um algoritmo existente para produzir figuras esqueléticas que representam as posições dos braços e mãos dos alto-falantes. Em seguida, eles treinaram seu próprio algoritmo com os dados, então eu previa gestos baseados no novo áudio do alto-falante.

Os gestos gerados foram mais próximos da realidade do que aqueles que foram selecionados aleatoriamente no mesmo falante ou nas previsões de um tipo diferente de algoritmo originalmente projetado para antecipar os movimentos das mãos de pianistas e violinistas. Os gestos dos oradores também foram únicos.

Treinar uma pessoa e prever os gestos de outra pessoa não funcionou tão bem. Alimentar os gestos previstos em um algoritmo de geração de imagem existente criou vídeos semi-realistas, como visto no vídeo.

O próximo passo da equipe é prever gestos baseados não apenas no áudio, mas também nas transcrições. Aplicações potenciais incluem a criação de personagens animados, robôs que se movem naturalmente ou assinaturas de movimento de pessoas para identificar vídeos falsos.

Algo necessário nesta corrida armamentista para criar vídeos falsos (falsificações profundas): Os avanços e a democratização das ferramentas de inteligência artificial já permitem que qualquer pessoa com algum conhecimento em programação e edição de vídeo modifique as imagens com tanto realismo que é quase impossível detectar pelo olho humano, o que permite reunião quase perfeita de uma pessoa dizendo coisas que não disse, trocando imagens em cenas pornográficas, gerando notícias falsas e até mensagens políticas inexistentes.

Para alcançar esses vídeos adulterados, o criador alimenta os dados em um programa - FakeApp, o mais conhecido - que usa uma forma de inteligência artificial (IA) conhecida como "aprendizado profundo" para combinar o rosto nas imagens de origem com o vídeo eleito. ** Um exemplo é o seguinte vídeo de Obama **:

Em breve, poderemos ver programas mais inteligentes, capazes de nos enganar melhor.