Ще у травні канадський стартап Dessa розробив найбільш реалістичний синтезатор голосу на основі штучного інтелекту, який підроблював голос відомого коміка, телеведучого та подкастера Джо Рогана. Система синтезу отримала назву RealTalk і набула шаленої популярності в інтернеті.
Незабаром команді Dessa написав Девід Барстоу, чотирикратний лауреат Пулітцерівської премії, і запропонував у наступній розробці поєднати синтезацію аудіо та відео. Dessa погодилась і вже за 6 місяців презентувала новий проект, в якому перетворила на відео сторонню людину на вищезгаданого Джо Рогана.
Зазначається, що для створення правдоподібного голосу дослідникам довелося «згодувати» штучному інтелекту 8 годин аудіо з 4 тисяч кліпів. Для підробки обличчя інженери використали популярну технологію FaceSwap, яка зараз доступна навіть у соціальних мережах. Це технологія не потребує такої великої кількості інформації, щоб відтворити чиєсь обличчя, що значно пришвидшило процес для розробників. Щоб завершити експеримент, Dessa знайшла «модель» зі схожою на Джо Рогана тілобудовою.
Найскладнішим процесом було поєднання аудіо та відео. Аудіофайл записували окремо, ще до зйомок відео. Після синтезації актор мав вчасно та правильно відкривати рот, щоб слова «Рогана» мали природне звучання.
За словами команди, Dessa - не єдиний стартап, що працює над підробними відео та аудіо. За допомогою свого проекту розробники хотіли привернути увагу громадськості до проблеми діпфейків у сучасному світі та потребі у якісній журналістиці. Саме тому компанія не планує викладати свій код у публічний доступ, адже його можуть використати зі злими намірами.