Este software de IA puede generar vídeos falsos realistas, de clips de audio


Investigadores de la Universidad de Washington han desarrollado una nueva tecnología de aprendizaje profundo que les permitió crear vídeos altamente realistas mediante la superposición de clips de audio a las referencias de vídeo auténtico. Ellos fueron capaces de sincronizar clips de audio del ex presidente de EE.UU. Barrack Obama a cuatro escenarios de vídeo diferentes en los que apareció.

Lip-syncing ‘salvaje’ contenido de vídeo para crear vídeos sintéticos pero realistas

Los intentos previos de sincronizar muestras de audio a videoclips se consideran fácilmente falsos y, la mayoría de las veces, espeluznantes o desagradables de ver. Sin embargo, el nuevo algoritmo desarrollado por la Universidad de Washington fue capaz de sincronizar sin problemas clips de audio y vídeo, que superaron un problema común en la creación de vídeos realistas conocidos como el valle misterioso . Supasorn Suwajanakorn, el principal autor del artículo publicado, señaló la complejidad del proceso de sincronización de labios de un vídeo.

“La gente es particularmente sensible a cualquier área de su boca que no parece realista. Si usted no hace los dientes bien o la barbilla se mueve en el momento equivocado, la gente puede detectarlo de inmediato y va a parecer falsa. Así que tienes que hacer la región de la boca perfectamente para ir más allá del extraño valle “.

Suwajanakorn y su equipo de investigadores utilizaron una técnica de dos pasos para elaborar sus vídeos altamente realistas. Primero, tuvieron que entrenar una red neuronal para procesar vídeos de una persona específica y corresponder varios sonidos de audio en formas básicas de la boca. A continuación, utilizaron una tecnología de una investigación previa de la UW Graphics y Image Laboratory para superponer y combinar las formas de la boca determinado en la parte superior de los vídeos de referencia existentes. Uno de los otros trucos que recogieron fue permitir un pequeño cambio de tiempo para permitir que la red neuronal para predecir lo que el sujeto está a punto de decir. En esencia, Suwajanakorn logró desarrollar algoritmos que tienen la capacidad de aprender de los vídeos que se encuentran a través de Internet.

“Hay millones de horas de vídeo que ya existen de entrevistas, chats de vídeo, películas, programas de televisión y otras fuentes. Y estos algoritmos de aprendizaje profundo tienen mucha hambre de datos, por lo que es un buen partido para hacerlo de esta manera “, dijo el autor principal.

Potencial uso de la tecnología de aprendizaje profundo

Uno de los investigadores en el equipo ha pensado en una aplicación de tipo ciencia ficción para la tecnología. Ira Kemelmacher-Shlizerman, profesor asistente en la Escuela de Ingeniería y Ciencias de la Computación de la Universidad, dijo que el nuevo algoritmo puede ser utilizado tanto para eventos cotidianos como en entornos futuristas.

“La conversión realista de audio a vídeo tiene aplicaciones prácticas como mejorar la videoconferencia para reuniones, como ser capaz de mantener una conversación con una figura histórica en realidad virtual mediante la creación de imágenes a partir de audio. Este es el tipo de avance que ayudará a habilitar los próximos pasos “.

La tecnología de aprendizaje profundo también podría utilizarse para solucionar un problema común de comunicación virtual, donde la transmisión de vídeos en vivo a menudo son rezagadas y frustrantes de soportar. Mientras que la conexión de audio normalmente se transmite en tiempo real sin retraso.

“Cuando ves Skype o Google Hangouts, a menudo la conexión es tétrica y de baja resolución y realmente desagradable, pero a menudo el audio es bastante bueno”, dijo Steve Seitz, coautor del artículo. “Así que si pudieras usar el audio para producir vídeo de mucha mayor calidad, sería fantástico”, agregó.

La tecnología del equipo también podría ser desarrollada y mejorada para equiparla con algoritmos capaces de detectar si un vídeo es auténtico o fabricado. También están buscando avanzar su tecnología para que pueda estudiar y procesar la voz y el habla de un individuo utilizando menos datos. Al hacerlo, reducirá el tiempo de proceso a sólo una hora en lugar de alrededor de 14 horas.

Un documento sobre la investigación del equipo será presentado en la  conferencia SIGGRAPH 2017en Los Ángeles el 2 de agosto de 2017.

Vía |interestingengineering

 

 

log in

reset password

Back to
log in