Новый метод позволяет менять выражение лица в дипфейк-видео

Специалисты разработали новую технику машинного обучения, позволяющую произвольно менять эмоциональное выражение лиц в видео, адаптируя такие недавно появившиеся технологии, как синхронизация движений губ с дубляжем на иностранном языке.

Исследование под названием «Обратимая хмурость: Перевод выражений лица с-видео-на-видео» (Invertable Frowns: Video-to-Video Facial Emotion Translation) является совместной работой специалистов Северо-Восточного университета в Бостоне и лаборатории Media Lab Массачусетского технологического института. Хотя исследователи признают, что в дальнейших исследованиях исходное качество результатов должно быть улучшено, они также утверждают, что разработанный ими метод Wav2Lip-Emotion является первым в своем роде, который напрямую меняет мимику в видеоизображении с помощью нейронной сети.

Кодовая база проекта опубликована на GitHub, а контрольные точки модели будут добавлены в репозиторий с открытым исходным кодом несколько позднее, пообещали исследователи.

Теоретически, подобные манипуляции возможны благодаря полноценному обучению моделей с помощью традиционных репозиториев дипфейков, таких как DeepFaceLab и FaceSwap. Однако стандартная рабочая нагрузка предполагает использование альтернативной личности вместо настоящей. Например, за целевую личность выдавать себя может актер, чья мимика, наряду с другими действиями, будет переноситься на другого человека. Вдобавок, для придания видео достоверности потребуется использовать дипфейк-технологии для подделки голоса.

Более того, само изменение выражения лица в исходном видео с помощью этих популярных репозиториев требует изменения векторов центровки накладываемого лица способами, которые данные архитектуры в настоящее время не облегчают.

Wav2Lip-Emotion эффективно копирует связанные с эмоциями выражения лица из одной части видео и заменяет их в других точках, сберегая исходные данные, что в конечном итоге обеспечит простой и удобный метод манипулирования мимикой.

Позже могут быть разработаны offline-модели, обученные на альтернативных видеоизображениях говорящего и тем самым устраняющие необходимость в том, чтобы видео содержало всю палитру выражений лица.

Источник 📢