Еще в мае канадский стартап Dessa разработал наиболее реалистичный синтезатор голоса на основе искусственного интеллекта, который подделал голос известного комика, телеведущего и подкастера Джо Рогана. Система синтеза получила название RealTalk и стала хитом в интернете.
Вскоре команде Dessa написал Дэвид Барстоу, четырехкратный лауреат Пулитцеровской премии, и предложил в следующей разработке совместить синтезацию аудио и видео. Dessa согласился и уже через 6 месяцев презентовал новый проект, в котором превратил на видео постороннего человека в вышеупомянутого Джо Рогана.
Отмечается, что для создания правдоподобного голоса исследователям пришлось «скормить» искусственному интеллекту 8 часов аудио из 4 тысяч клипов. Для подделки лица инженеры использовали популярную технологию FaceSwap, которая сейчас доступна даже в социальных сетях. Это технология не требует такого большого количества информации, чтобы воспроизвести чье-то лицо, что значительно ускорило процесс разработки. Для завершения эксперимента Dessa нашла «модель» с телосложением как у Джо Рогана.
Самым сложным процессом было объединить видео и аудио. Аудиофайл записывали отдельно, еще до съемок видео. После синтезации актер должен был вовремя и правильно открывать рот, чтобы слова «Рогана» звучали естественно.
По словам команды, Dessa - не единственный стартап, работающий над поддельными видео и аудио. С помощью своего проекта разработчики хотели привлечь внимание общественности к проблеме дипфейков в современном мире и потребности в качественной журналистике. Именно поэтому компания не планирует выкладывать свой код в публичный доступ, ведь его могут использовать со злым умыслом.