Wav2Lip — нейросеть, которая может синхронизировать видео и речь

 

Wav2Lip

Совсем недавно Дидактор сообщал о прорывной технологии по превращению фотографии в говорящее видео. Помимо описания я коснулся также этической проблемы о том, что разработчики технологии  D-ID ввели жёсткие и вполне оправданные фильтры на ненормативную лексику, расистские высказывания и использование изображений известных личностей. Между тем, я продолжил поиски аналогичных технологий и обнаружил другую нейросеть, которая позволяет синхронизировать видео с любым звуком. 

Как бы мы не стремились к ограничениям в использовании так называемых дипфейков, они всё чаще появляются. И нам необходимо знать природу их происхождения для того, чтобы не всегда верить увиденному.

Дипфейк — это видеоролик, в котором лицо одного человека подменяется другим при помощи алгоритмов машинного обучения. В этом слове соединены два понятия: глубокое обучение нейросетей (deep learning) и подделка (fake).

Wav2Lip — это нейросеть, которая адаптирует видео с говорящим лицо под аудиозапись речи. В отличие от ряда аналогичных технологий она довольно точно способна генерировать движения губ как для статичных изображений или видео отдельных людей.

Безусловно, каждая из компаний стремится как можно лучше представить своей проект. Давайте попробуем инструмент в разных условиях.

Результаты апробации

Действительно, мы можем добиться гораздо большего эффекта. К примеру, оживить изображение. Правда, в отличие от технологии D-ID будут шевелиться только губы. Оживление Андрея Вознесенского.

Конечно, гораздо эффектнее когда мы используем видео, заменяя речь персонажа совершенно другим содержанием. Вот как, к примеру, может выглядеть сфальсифицированное видео, когда мы вложим в уста нашего говорливого генсека стихи великого советского поэта Роберта Ивановича Рождественского.

Хотя возможно внедрение любого языка, всё же на английском дипфейки выглядят более достоверно. К примеру, давайте попробуем воспроизвести начало речи М.С. Горбачёва на XXVII съезде КПСС на английском языке.

Как видим, Михаил Сергеевич неплохо изъясняется на английском.

Мы можем помочь поправить «легендарную речь» Виталия Мутко на историческом заседании ФИФА и не смущаться его произношением.

Безусловно, видео и звук следует подбирать крайне тщательно. Прежде всего, по темпу произношения. Большое значение имеет качество видео, отсутствие шума в виде дополнительных персонажей. Если мы хотим использовать музыкальные файлы, то необходимо подбирать, прежде всего с отсутствием инструментовки.

Небольшой пример: Лучано Паваротти поёт голосом Сергея Лемешева.

Долго думал, стоит ли писать и демонстрировать возможности подобных технологий, которые могут восприниматься как популяризация создания дипфейков. Тем более их появление это уже не шуточные файлы, а зачастую явная дезинформация, которая может сыграть явно негативную роль. Однако всегда найдутся желающие сделать это.

В образовательных целях  с помощью данной технологии мы, безусловно, можем создавать озвученные видео для :

  • озвучивания изображений
  • исправления имевшихся в первоначальном видео дефектов речи, ненужных слов и междометий, благодаря внедрённому звуковому файлу
  • увеличения числа виртуальных дикторов за счёт вымышленных или реальных участников событий и т.п.
  • демонстрации различий подлинников и дипфейков

Возможен и ряд других случаев.

Используя код программы с открытым исходным кодом, вы можете попытаться синхронизировать видео с более высоким разрешением или более длинным по времени. Вы сможете настроить параметры вывода и, следовательно, получить гораздо лучший результат для тех же входных данных. Однако для этого вам необходимо много будет потрудиться.

Добавить комментарий

Ваш e-mail не будет опубликован.