Недавно украинский AI-стартап Respeecher объявил о привлечении $1 млн инвестиций: деньги в компанию, работающую в области voicetech, вложили предприниматель и IT-пропагандист Гари Вайнерчук, фонды ffVC Poland, SID Venture Partners, Bad Ideas, а также ICU. Несмотря на полномасштабную войну, Respeecher остается в стране и продолжает выполнять заказы для крупнейших голливудских компаний в своем офисе в центре Киева. «Эта война научила нас, как и все украинские бизнесы, что на самом деле означает быть устойчивыми. Собирать средства всегда непросто, и наверняка было бы легче, если бы россия не обстреливала наши города ракетами и беспилотниками. После всего этого я считаю, что вряд ли есть препятствия, которые наша команда не смогла бы преодолеть, или решения, которые мы не смогли бы найти», – говорит Александр Сердюк, CEO Respeecher.
Наиболее известный продукт Respeecher – это синтезирование голоса с помощью искусственного интеллекта. Если говорить более простыми словами, Respeecher может превратить голос обычного человека в голос Дарта Вейдера, Эдит Пиаф и т. д. Сегодня в портфолио компании – более 50 реализованных проектов, в том числе участие в создании сериалов Disney «Оби-Ван Кеноби» и «Мандалорец», работа над компьютерными играми класса AAA: Cyberpunk 2077 и God of War: Ragnarok.
Следующий большой тайтл, над которым работает Respeecher, – биографический мультфильм об Эдит Пиаф от киностудии Warner. Украинская компания воспроизводит голос легендарной французской певицы с помощью старых записей Пиаф, сохранившихся в архивах. «Старые интервью Эдит имели очень низкое качество звука, что делало воспроизведение ее голоса достаточно сложным технически. Мы были полны решимости сделать это идеально, воссоздать именно звучание голоса Эдит – уникального, с множеством различных интонаций и эмоций. Весь этот проект заключается в том, чтобы быть реалистичным и вернуть легенду, поэтому из уважения к культовой артистке и ее наследию мы должны были сделать все правильно. И я рада сказать, что нам это удалось», – прокомментировала сотрудничество с Respeecher Жюли Вейль, автор идеи и сценария ленты об Эдит Пиаф.
На момент записи этого интервью CEO Respeecher Александр Сердюк имел NDA по текущим проектам, поэтому в разговоре они не упоминаются. Но мы поговорили обо всем остальном: в частности, работе с топовыми голливудскими студиями, «злом рынке» локализации, расширении возможностей актеров и мерах против голосовых аферистов.
– Александр, вы начали работать над Respeecher восемь лет назад, когда идти в voicetech было довольно неочевидной идеей. Как возникла идея создать такую компанию?
– Даже сейчас эта технология является не самой популярной в синтезе речи. Просто потому, что она сильно опирается на голосовых актеров, но дает возможность очень глубокого и полного контроля. Началось это с Hackathon Grammarly в 2016 году. Мы тогда с Димой (один из сооснователей Respeecher Дмитрий Белевцов. – MBR) работали в другой компании и пошли на тот Hackathon маленькой командой. Дима предложил идею применить довольно простые machine learning модели, чтобы переделать голос одного человека в голос другого. Это была рандомная идея. Потом начали смотреть вокруг и поняли, что нет в мире синтезированного голоса такого качества, которое бы удовлетворило высококачественный продакшен. Начали общаться с продакшенами – местными, зарубежными. Поняли, что такая технология им точно будет нужна.
Все технологии, бывшие и существующие на рынке сейчас, – это Text-to-Speech (технология синтеза речи, преобразующая печатный текст в звучащую речь. – MBR). А Text-to-Speech-модели используют просто текст на вход, и дальше технология его озвучивает. Но она не умеет кричать, петь, шептать. И мы подумали: в принципе, наш подход имеет право на жизнь, так как мы можем оставить людям то, что они лучше всего делают, – перформить своим голосом. Некоторые актеры именно благодаря своему голосу имеют большой спрос и иногда не могут его удовлетворить. Некоторые не могут говорить голосом, какой у них был двадцать лет назад. У кого-то character voices: например, они делают персонажа, что сильно кричит, поэтому его нельзя играть более 15 минут в день. И дать им возможность иметь большое разнообразие голосов, которыми они будут владеть, довольно интересно. Студии увидели, что голоса могут «отделяться» от людей, ими обладающих, и можно, например, сделать молодого Люка Скайуокера именно так, как он звучал 40 лет назад.
Основатели Respeecher (слева направо): Дмитрий Белевцов, Грант Рибер и Александр Сердюк
– Насколько изменился рынок VoiceTech? Еще пару лет назад вы говорили, что на вашем поле конкурентов почти нет, а как сегодня?
– Этот рынок активизируется. Если два года назад мы видели сэмплы от новых компаний раз в квартал, то теперь раз в пару недель что-то слушаем. Если мы говорим о технологии Speech-to-Speech, есть несколько компаний, развивающихся в ту сторону. Но мы не видели еще в Голливуде компаний, делающих это. У нас есть опыт, который не отнять, – это пять лет работы с реальными данными, голливудскими клиентами. Четыре года построения не только технологии, но и команды, сочетающей знание звука с технологическими знаниями. Мы к конкуренции относимся в целом нормально: понимаем, что вырастили свой бренд и бренд дорогого стоит. Были кейсы, когда клиенты приходили к конкурентам и те разводили руками, а для Respeecher это были не очень сложные проекты.
– То есть можно сказать, что у вас все еще нет явных конкурентов?
– На голливудском рынке нет. Было несколько фильмов, где использовали не нашу технологию: документалки об Энтони Бурдене и Энди Уорхоле, еще «Топ Ган» был. От одного из этих проектов мы отказались, нам он не понравился. О втором мы не знали, но отказались бы, потому что там не было разрешения на использование голоса. В третьем был нужен text-to-speech. И все эти проекты в целом использовали text-to-speech, там был слышен роботизированный голос. Мы же с такими голосами принципиально не работаем и не создаем их.
– А насколько изменилась технология вашей компании с момента основания?
– Она системно изменилась. Когда мы начинали, нашей задачей было пробить этот потолок качества. Мы видели, что качество синтезированного звука упирается в свой максимум, а ожидания клиентов находятся гораздо выше. Мы ориентировались только на качество звука и где-то в 2020 году уже имели то, что нас более-менее удовлетворяло. В тот момент начали больше внимания уделять другим аспектам технологии, стали ее оптимизировать в сторону юзабилити, robustness (надежности) и скорости.
Юзабилити – это о том, сколько времени клиент должен потратить на то, чтобы начать работать с технологией и получить результат. Robustness – это о том, что нашими продуктами пользуются маленькие инди-студии, не имеющие супермодного оборудования: они даже иногда не имеют звукоизоляционной кабины, но технология все равно выдает достаточно качественный результат. Скорость – это темпы тренировки и конвертации. Сейчас мы конвертируем двумя способами. Один – старый офлайновый способ, занимающий 1–2 минуты, другой способ – real time.
В конце прошлого года мы добавили акценты – то есть можем на речь человека с любым акцентом наложить другой акцент. И это важная функция для киноиндустрии. Если мы вспомним сериал The Crown, там американских актеров нужно было научить Royal British accent, которому трудно научиться. Не все справились. С новой системой конвертации акцента американцы говорят с американским акцентом, а мы потом можем наложить британский.
Еще одно интересное направление, появившееся в прошлом году, – реставрация данных. Есть запись, например, сделанная 50 лет назад. И качество этой записи – не очень. Сейчас у нас есть проект, где мы конвертируем плохие записи голоса человека в лучшее качество этого звука.
В прошлом году также запустили healthcare – направление, побуждающее нас двигаться и развиваться. Здесь мы занимаемся людьми, которые частично потеряли голос, но все равно могут говорить. Поэтому у них есть возможность использовать технологию, чтобы улучшить свое звучание. Также у нас есть voice-banking: когда люди потеряли голос полностью или начинают его терять, мы можем для них натренировать определенную модель и дать возможность использовать ее позже. Бизнес из этого мы пока не делаем.
Александр Сердюк и его песик Плюх
– Вы помните события 24 февраля? Ваша компания готовилась к полномасштабному вторжению россии?
– Немного готовились. Часть команды вывезли, в частности из таких городов, как Мариуполь и Бердянск. Более половины киевской команды до 24 февраля уже была не в Киеве. И все, кто находился восточнее, переехали на Запад Украины. Кто-то все же остался, но тех, кто находился на юге или восточнее, мы настойчиво просили уехать. После 24 февраля пребывание части команды в безопасных местах помогло нам уберечь коммуникацию с клиентами: например, человек, отвечавший за проект «Оби-Ван Кеноби», был во Львове в бомбоубежище – прямо там отслушивал данные и пересылал клиенту.
– Как вы адаптировались к проблемам, вызванным отключениями света из-за обстрелов инфраструктуры россиянами?
– К началу проблем со светом мы также успели подготовиться: закупили генераторы, дополнительные батареи. Заметил, что, когда происходят массированные обстрелы, все начинают еще сильнее фигачить, так как понимают, что выполнять свою работу – лучшее, что могут делать. И все в целом работают гораздо больше.
Нам может быть ощутимо сложнее работать, если, например, света не будет три дня. Но и на этот случай у нас есть план.
– А как иностранные заказчики относились к этим обстоятельствам? Шли ли на уступки – например, в дедлайнах?
– Мы даже не допускаем таких разговоров, поскольку всегда работаем качественно и вовремя. Были кейсы, что кто-то предлагал подвинуть проект «на позже», но мы отказывались. Лучшее, что мы можем делать, – это продолжать работать, расти, приносить деньги в эту страну. Поэтому никаких поблажек мы не ожидаем, не просим. Все время слышим слова поддержки от клиентов, но они не понимают, как мы справляемся, у них это не укладывается в голове.
– Как у вас распределены функции в команде?
– Respeecher разделен на четыре основные команды. Первая – это R&D, те, кто занимается разработкой самой технологии и постоянным ее улучшением. Вторая – delivery, самая большая команда сейчас. Эта команда состоит из профессиональных звукачей, знающих звук и понимающих, как работать с нашими моделями. Именно эта команда отвечает за самые известные голливудские проекты компании. Третья команда – это apps. Они полностью сфокусированы на Voice Marketplace, который предлагает людям и компаниям, создающим контент, но не имеющим значительных бюджетов, пользоваться нашей библиотекой голосов. Это продукт Respeecher, который мы всегда хотели запустить. И четвертая команда – это бизнес-команда, в первую очередь занимающаяся B2B-продажами. Нас немного: четверо в активных продажах, пиаре, коммуникациях и партнерствах. Но это позволяет нам расти и обеспечивать значительную часть выручки.
Большая часть команды Respeecher находится в Украине: Киеве, Львове, под Хмельницким, под Винницей, в Тернопольской и Киевский областях. Остальные – в Польше, Греции, Великобритании, Великобритании, Канаде, США
– Насколько трудно было найти всех этих специалистов?
– В целом не было такой проблемы. У нас очень сильная школа machine/deep learning. Звукорежиссеры в Украине также топовые. Единственная проблема, возможно, что английский не у всех звукачей на уровне, необходимом для работы над нашими проектами.
– В каких сферах в целом на сегодня используются технологии Respeecher?
– Дубляж/локализация, в кино- и ТВ-продакшенах, мы также работаем с анимационными студиями. Но параллельно у нас еще есть проекты в YouTube. Мы работаем с определенными Theme-Parks (как Disneyland). Как я уже упоминал, это здравоохранительная и коммуникационная сферы. Сейчас мы очень внимательно смотрим в направлении security defence – у нас есть проекты по голосовой анонимизации. Когда, например, человек идет в суд и нужно свидетеля анонимизировать. Или то же самое в документальных фильмах, где определенные свидетели не хотят, чтобы люди их узнавали. Все это можно делать с помощью наших технологий.
– Вы работали над God of War: Ragnarok и Cyberpunk 2077. Насколько работа над видеоиграми класса ААА отличается от работы над голливудскими фильмами? Что нового было в этих проектах для вас?
– Системно разница между видеоиграми и продакшеном ТВ и кино заключается в объемах. В видеоиграх на одного персонажа может быть 40–60 часов озвучки. А потом все еще нужно перевести на разные языки. Это долго, тяжело – и мы можем это немного оптимизировать. Плюс мы можем решить те же проблемы, что и в кино: например, восстановить голос персонажа таким, каким он был раньше. Есть у нас один проект с большой студией: там очень важный актер несколько лет назад перенес сердечный приступ, и разработчикам нужно этот голос сохранить для следующих игр. Отдельный прецедент – это то, что в титрах God of War: Ragnarok издатель добавил не только Respeecher, но и отдельно выделил нашего Synthetic Speech Artist Валерия, работавшего над игрой. Это произошло впервые в мире.
– Кто был первым вашим заказчиком из крупных мировых студий?
– Disney была первой крупной голливудской студией, которая начала с нами работать. Начиная с 2018 года мы активно искали клиентов, имея очень сырую технологию. Кто-то рассказал о нас [компании] Industrial Light & Magic. Так же о нас рассказали Skywalker Sound (американское подразделение Lucasfilm, занимающееся звуковыми эффектами. – MBR), а они уже напрямую нам написали. В то время мы были в Калифорнии, смогли с ними встретиться – буквально в тот же день нам предложили проект. Сейчас работаем со всеми топовыми голливудскими студиями.
– Так что можно сказать, что в Голливуде вас уже хорошо знают?
– Да. Там даже новый глагол используют – «риспич». Это значит, что нужно что-то сделать с голосом.
– Вы также делали проект для крупного американского испаноязычного телеканала Telemundo. Что это был за кейс?
– Баскетбол – популярный вид спорта в Латинской Америке. Несколько лет назад женская баскетбольная команда Пуэрто-Рико добилась больших успехов на Олимпийских играх. У пуэрториканцев с баскетболом ассоциируется голос одного комментатора – Маноло, который давно умер. И страна хотела сделать что-то особенное в честь девушек-баскетболисток. Идея заключалась в трансляции матча с комментированием голосом Манолы. Тогда для нас это был очень серьезный вызов. Но все получилось хорошо.
– В 2021 году вы получили «Эмми», главную награду в мировой ТВ-индустрии. Как это повлияло на вашу профессиональную узнаваемость?
– Не так часто люди из технологических компаний получают такие награды. Мне кажется, это единственные «Эмми», которые физически находятся в Украине. Есть клиенты, отмечающие факт, что у нас есть «Эмми», как нечто особенное, но их не большинство. Это просто еще одно доказательство того, что у нас есть уникальная технология и мы умеем делать топовые проекты – такая себе валидация.
– Локализация – это новый мировой тренд, сегодня в ней нуждаются производители почти всех видов развлекательного контента. Как ваша технология развивает эту сферу?
– Мы с рынком локализации начали работать где-то год назад, потому что раньше технология не могла выйти на объемы, необходимые клиентам. Локализация – это злой рынок: там маленькая маржа, и за нее конкурируют. Компании должны все делать быстро и соответствовать качеству. Когда-то люди верили вообще в автоматизированную локализацию: нажал кнопку, система перевела все и озвучила.
Что мы можем сделать – это дать возможность актерам эффективнее работать. Потому что есть ограничения по количеству доступных актеров озвучки в разных странах. Например, в Чехии с этим большая проблема. Контент задерживается с выходом на несколько месяцев, поскольку там просто не успевают все локализовать. Наша система может дать одному актеру возможность говорить разными голосами, использовать для озвучки контента, в котором сотни голосов, десятки актеров, а не искать сто актеров. И делать это быстрее.
А еще этническое разнообразие. Например, есть американский сериал, где десять персонажей говорят с грузинским акцентом. Теперь это нужно перевести и дублировать, скажем, где-то в Индонезии. Где мы в Индонезии возьмем десять актеров дубляжа с натуральным грузинским акцентом? Теперь можно добавить акцент с помощью Respeecher. И это дает возможность сохранять качество контента на оригинальном уровне. То же касается сексуального разнообразия.
– У вас были интересные кейсы с голосами, записанными более 50 лет назад, или с голосами, существующими только в плохом качестве. С какими еще вызовами вы сталкивались?
– Был интересный проект: актриса в фильме не могла петь. Клиент пригласил певицу, исполняющую песню своим профессиональным голосом как надо для кино, и мы конвертируем этот поющий голос в голос актрисы. Чтобы именно она исполняла песню как надо.
– Вы уже упоминали Voice Marketplace, расскажите подробнее об этом проекте.
– Сейчас у нас есть более сотни голосов, не только людей, кстати. Есть также животные. Идея этого маркетплейса – дать возможность маленьким студиям, работающим над анимацией, видео, музыкой, вывести свой контент на уровень, где он начнет конкурировать с голливудским контентом, у которого есть бюджеты на озвучку.
Это демократизация, это то, куда наш мир движется. Мы видим, что музыканты используют. Даже клипы снимают. Ну и, конечно, им пользуются актеры озвучки, ведь так они могут значительно больше.
– Есть ли в этом Voice Marketplace голоса известных людей?
– Пока что там голоса обычных людей: мы их записали, заплатили деньги и получили разрешение на использование. Известные голоса – уже следующий уровень, на который мы выйдем позже. Нужно будет добавить два новых уровня – компенсация и кастомная модерация. Но там вызовом для нас будет создание для человека, владеющего своим голосом и желающего поставить его на маркетплейс, возможности модерировать тип контента, который можно сделать с его голосом. Это технически непростая задача.
Схема роялти будет, когда появятся известные голоса. Тогда люди смогут получать заработок в зависимости от того, как их голос будет использоваться.
– Voice market уже используется в дубляже. Насколько велика вероятность, что в будущем tech-voice заменит «живых» актеров озвучки?
– Вот простой пример. Где-то три года назад, если бы я написал десяти голосовым актерам, девять из них сказали бы, что не хотят даже со мной разговаривать. Потому что мы крадем их работу. Сейчас я пишу десяти актерам – и девять хотят пообщаться, узнать больше. Мы никогда не говорили, что их элиминируем, потому что технологически это невозможно. Мы на них полагаемся. Потому что, если голосовой актер качественно делает свою работу, наша система лучше работает. Это то, что всегда используется «в комплекте» с голосовым актером. Я не думаю, что мир движется к тому, что озвучка будет делаться машиной – это очень трудно. Объяснить машине, что надо немножко теплоты добавить именно на этом моменте, а эту фразу нужно немножко высвистеть, будет сложно. Объемы озвучки контента растут последние десять лет, а количество актеров не растет. И их работа будет все более востребованной.
Есть известный голосовой актер Сэм Уитвер, который классно объяснил в своем твиттере, чем наша технология ценна актерам. Он написал, что лучше всего наш продукт можно описать как «моделирование голосовых связок».
– Еще один кейс – это случай с Мэй Маск, когда она заговорила на украинском. Расскажите, как это произошло.
– Мы запустили инициативу Speak Ukrainian с самого начала полномасштабного вторжения. Идея инициативы – дать возможность известным в мире людям, которые хотят проявить свою поддержку Украине, сделать это напрямую, говоря своим голосом, но на нашем языке. Мэй Маск была не первой, кто откликнулся. Первой были актриса Эбигейл Сэведж из сериала «Оранжевый – хит сезона». Она надела вышиванку, которую мы отправили ей еще в 2021 году в качестве презента, и записала обращение. С Мэй Маск мы коммуницировали через издателя ее книги в Украине (Vivat. – MBR).
Посмотреть эту публикацию в Instagram
– В Голливуде вас уже знают, вы строите там бренд. А как в Украине используются ваши умения и технологии?
– Мы пытались инициировать несколько проектов в Украине с известными голосами. Хорошие проекты, но пока ни один из них не стартовал, по разным причинам. В Украине эта индустрия только становится на ноги. У нас невероятные голосовые актеры, а качество озвучки – бесподобное. Но мы сейчас только подписали контракт с крупным украинским продакшеном.
В целом, если у нас появляются украинские проекты, мы уделяем им много внимания. Готовы на большие скидки или даже инвестировать в них. И надеюсь, что украинских проектов будет больше. Я очень надеюсь, что будет больше документалок о важных украинских деятелях, будет больше интересных историй, которые мы будем рассказывать на весь мир.
Ну и все документальные или журналистские расследования, где нужна голосовая анонимизация, если это касается преступлений россии против Украины, мы делаем бесплатно. Это для нас важно.
– Насколько дорогие ваши услуги?
– Такие вещи мы не комментируем. Но если попадается качественный проект, где есть понимание, как использовать нашу технологию, и у него, например, нет бюджета, мы все равно пытаемся найти способ реализовать этот проект. Мы открыли отдельную программу Small creators: раз в месяц, иногда чуть чаще, берем проект, в котором почти нет бюджета. Люди нам его питчат. И если нам интересно, мы его берем и инвестируем вместе с клиентом.
– На середину 2022 года, по вашим словам, компания еще не была прибыльной. Когда планируете выйти на уровень прибыльности?
– В 2022 году с тем, что заработали, мы покрыли более 75% наших расходов. Это довольно неплохой результат. С учетом того, что наша команда сильно выросла, мы больше тратим, ведь должны развиваться быстрее. Это задача стартапа. Выйти на прибыльность не является ультимативной задачей на нашей стадии – есть задача вырастить компанию до уровня предсказуемости и стабильности.
– Многие переживают по поводу вашей технологии имитации голоса. Какие меры безопасности против аферистов и преступников, которые захотят использовать эту технологию в своих целях, вы принимаете?
– Лучшее, что мы можем сделать сейчас, – объяснять как можно больше, как именно работает наша технология. Например, сейчас людей фотошопом не обманешь, но когда он только появился, его все боялись. Концепция использования имитации голоса в преступных целях не нова. От этого мы должны защищаться.
Respeecher не может быть использован, если нет разрешения на голос или если этот кейс может оказаться вредным. Мы защищаем наши продукты. В Voice Marketplace никто не может добавить новый голос в систему. Мы работаем над детекцией синтезированной речи. Пытаемся также объединить лидеров рынка, чтобы больше делать в этом направлении. Кроме того, работаем над watermark для голоса, который будет в звуке. Это тоже неновая концепция, например Sony такое уже 20 лет делает. Они вообще под разные кинотеатры разные вотермарки добавляют, и, когда появляется «пиратка», компания сразу знает, где она была сделана. Мы работаем в том же направлении. Но это довольно непросто, потому что нужно наложить вотермарку на очень короткую запись, и чтобы вотермарка не ухудшила звучание голоса и в то же время ее было бы сложно удалить.
Respeecher строит базис. И этот базис – уникальная технология и уникальная команда, которая может создавать продукты на базе этой технологии, предоставлять уникальный сервис. Возможности для построения интересных системных проектов, меняющих мир, очень большие. Наша задача – сделать максимум за минимум времени.