Нещодавно український AI-стартап Respeecher оголосив про залучення $1 млн інвестицій: гроші у компанію, що працює в галузі voicetech, вклали підприємець та IT-пропагандист Гері Вайнерчук, фонди ffVC Poland, SID Venture Partners, Bad Ideas, а також ICU. Попри повномасштабну війну, Respeecher залишається в країні та продовжує виконувати замовлення для найбільших голлівудських компаній у своєму офісі в центрі Києва. «Ця війна навчила нас, як і всі українські бізнеси, що насправді означає бути стійкими. Збирати кошти завжди непросто, і напевно було б легше, якби росія не обстрілювала наші міста ракетами та безпілотниками. Після всього цього я вважаю, що навряд чи є перешкоди, які наша команда не змогла б подолати, або рішення, яких ми не змогли б знайти», – каже Олександр Сердюк, CEO Respeecher.
Найвідоміший продукт Respeecher – це синтезування голосу за допомогою штучного інтелекту. Якщо говорити простішими словами, Respeecher може перетворити голос звичайної людини на голос Дарта Вейдера, Едіт Піаф тощо. Сьогодні в портфоліо компанії – понад 50 реалізованих проектів, зокрема участь у створенні серіалів Disney «Обі-Ван Кенобі» та «Мандалорець», робота над компʼютерними іграми класу AAA: Cyberpunk 2077 та God of War: Ragnarok.
Наступний великий тайтл, над яким працює Respeecher, – біографічний мультфільм про Едіт Піаф від кіностудії Warner. Українська компанія відтворює голос легендарної французької співачки за допомогою старих записів Піаф, що збереглися в архівах. «Старі інтерв'ю Едіт мали дуже низьку якість звуку, що робило відтворення її голосу доволі складним технічно. Ми були сповнені рішучості зробити це ідеально, відтворити саме звучання голосу Едіт – унікального, з безліччю різних інтонацій та емоцій. Весь цей проект полягає в тому, щоб бути реалістичним і повернути легенду, тому з поваги до культової артистки та її спадщини ми мали зробити все правильно. І я рада сказати, що нам це вдалося», – прокоментувала співпрацю з Respeecher Жюлі Вейль, авторка ідеї та сценарію стрічки про Едіт Піаф.
На момент запису цього інтервʼю CEO Respeecher Олександр Сердюк мав NDA щодо поточних проектів, тому в розмові про них не згадується. Але ми поговорили про все решта: зокрема, роботу з топовими голлівудськими студіями, «злий ринок» локалізації, розширення можливостей акторів і заходи проти голосових аферистів.
– Олександре, ви почали працювати над Respeecher вісім років тому, коли йти у voicetech було доволі неочевидною ідеєю. Як виник задум створити таку компанію?
– Навіть зараз ця технологія є не найпопулярнішою в синтезі мовлення. Просто тому, що вона сильно спирається на голосових акторів, але дає можливість дуже глибокого та повного контролю. Почалося це з Hackathon Grammarly 2016 року. Ми тоді з Дімою (один зі співзасновників Respeecher Дмитро Бєлєвцов. – MBR) працювали в іншій компанії та пішли на той Hackathon маленькою командою. Діма запропонував ідею застосувати досить прості machine learning моделі, щоб переробити голос однієї людини на голос іншої. Це була рандомна ідея. Потім почали дивитися навколо та зрозуміли, що немає у світі синтезованого голосу такої якості, яка б задовольнила високоякісний продакшен. Почали спілкуватися з продакшенами – місцевими, закордонними. Зрозуміли, що така технологія їм точно буде потрібна.
Усі технології, що були та є на ринку зараз, – це Text-to-Speech (технологія синтезу мовлення, яка перетворює друкований текст на мовлення, що звучить. – MBR). А Text-to-Speech-моделі використовують просто текст на вхід, і далі технологія його озвучує. Але вона не вміє кричати, співати, шепотіти. І ми подумали: в принципі, наш підхід має право на життя, позаяк ми можемо залишити людям те, що вони найкраще роблять, – перформити своїм голосом. Дехто з акторів саме завдяки своєму голосу має великий попит та іноді не може його задовольнити. Деякі не можуть говорити голосом, що в них був двадцять років тому. В когось character voices: наприклад, роблять персонажа, що дуже сильно кричить, тому його не можна грати понад 15 хвилин на день. І дати їм можливість мати велике різноманіття голосів, якими вони володітимуть, досить цікаво. Студії побачили: голоси можуть «відділятися» від людей, що ними володіють, і можна, наприклад, зробити молодого Люка Скайвокера саме так, як він звучав 40 років тому.
Засновники Respeecher (зліва направо): Дмитро Бєлєвцов, Грант Рибер та Олександр Сердюк
– Якою мірою змінився ринок VoiceTech? Ще кілька років тому ви казали, що на вашому полі конкурентів майже немає, а як сьогодні?
– Цей ринок активізується. Якщо два роки тому ми бачили семпли від нових компаній раз на квартал, то нині раз на два тижні щось слухаємо. Коли ми говоримо про технологію Speech-to-Speech, є кілька компаній, котрі в той бік розвиваються. Але ми не бачили ще в Голлівуді компаній, що це роблять. У нас є досвід, якого не позбавити, – це пʼять років роботи з реальними даними, голівудськими клієнтами. Чотири роки побудови не лише технології, а й команди, що поєднує знання звуку з технологічними знаннями. Ми до конкуренції ставимося загалом нормально: розуміємо, що зростили свій бренд і бренд дорогого коштує. Були кейси, коли клієнти приходили до конкурентів, і ті розводили руками, а для Respeecher це були не дуже складні проекти.
– Тобто можна сказати, що у вас усе ще немає явних конкурентів?
– На голлівудському ринку немає. Було кілька фільмів, де використовували не нашу технологію: документалки про Ентоні Бурдена й Енді Воргола, ще «Топ Ґан» був. Від одного з цих проектів ми відмовилися, нам він не сподобався. Про другий ми не знали, але відмовились би, бо там не було дозволу використання голосу. У третьому був потрібен text-to-speech. І всі ці проекти загалом використовували text-to-speech, там було чутно роботизований голос. Ми ж з такими голосами принципово не працюємо та не створюємо їх.
– А як змінилася технологія вашої компанії з моменту заснування?
– Вона системно змінилася. Коли ми починали, нашим завданням було пробити цю стелю якості. Ми бачили, що якість синтезованого звуку впирається у свій максимум, а очікування клієнтів перебувають набагато вище. Ми орієнтувалися тільки на якість звуку та десь 2020 року вже мали ту, що нас більш-менш задовольняла. У той момент почали більше уваги приділяти іншим аспектам технології, стали її оптимізувати в бік юзабіліті, robustness (надійності) та швидкості.
Юзабіліті – це про те, скільки часу клієнт має витратити на те, щоб почати працювати з технологією та дістати результат. Robustness – це про те, що нашими продуктами користуються маленькі інді-студії, які не мають супермодного обладнання, вони навіть іноді не мають звукоізоляційної кабіни, але технологія однаково видає доволі якісний результат. Швидкість – це темпи тренування та конвертації. Зараз ми конвертуємо у два способи. Один – старий офлайновий спосіб, який забирає 1–2 хвилини, інший спосіб – real time.
Наприкінці минулого року ми додали акценти – тобто можемо на мовлення людини з будь-яким акцентом накласти інший акцент. І це важлива функція для кіноіндустрії. Якщо ми згадаємо серіал The Crown, там американських акторів треба було навчити Royal British accent, якого важко навчитися. Не всі впоралися. З новою системою конвертації акценту американці говорять з американським акцентом, а ми потім можемо накласти британський.
Ще один цікавий напрям, який зʼявився торік, – реставрація даних. Тобто є запис, наприклад, зроблений 50 років тому. І якість цього запису – не дуже. Зараз у нас є проект, де ми конвертуємо погані записи голосу людини у кращу якість того звуку.
Минулого року також запустили healthcare – напрям, що спонукає нас рухатись і розвиватися. Тут ми опікуємося людьми, що частково втратили голос, але однаково можуть говорити. Тож вони мають можливість використовувати технологію, щоб покращити своє звучання. Також у нас є voice-banking: коли люди втратили голос повністю або починають його втрачати, ми можемо для них натренувати певну модель і дати можливість використовувати її пізніше. Бізнес із цього ми наразі не робимо.
Олександр Сердюк і його песик Плюх
– Ви памʼятаєте події 24 лютого? Ваша компанія готувалася до повномасштабного вторгнення росії?
– Трохи готувалися. Частину команди вивезли, зокрема з таких міст, як Маріуполь і Бердянськ. Понад половину київської команди до 24 лютого вже була не в Києві. І всі, хто перебував східніше, переїхали на Захід України. Хтось усе ж залишився, але тих, що перебували на півдні або східніше, ми дуже наполегливо просили виїхати. Після 24 лютого перебування частини команди у безпечних місцях допомогло нам уберегти комунікацію з клієнтами: наприклад, людина, що відповідала за проект «Обі-Ван Кенобі», була у Львові в бомбосховищі – просто там відслуховувала дані та пересилала клієнту.
– Як ви адаптувалися до проблем, спричинених відключеннями світла через обстріли інфраструктури росіянами?
– До початку проблем зі світлом ми також устигли підготуватися: закупили генератори, додаткові батареї. Помітив, що, коли відбуваються масовані обстріли, всі починають іще сильніше фігачити, адже розуміють, що виконувати свою роботу – найкраще, що можуть робити. І всі загалом працюють набагато більше.
Нам може бути відчутно складніше працювати, якщо, наприклад, світла не буде три дні. Але і на цей випадок у нас є план.
– А як іноземні замовники ставилися до цих обставин? Чи йшли на поступки – наприклад, у дедлайнах?
– Ми навіть не допускаємо таких розмов, оскільки завжди працюємо якісно та вчасно. Були кейси, що хтось пропонував посунути проект «на пізніше», та ми відмовлялися. Найкраще, що ми можемо робити, – це продовжувати працювати, зростати, приносити гроші в цю країну. Тому жодних поблажок ми не очікуємо, не просимо. Весь час чуємо слова підтримки від клієнтів, але вони не розуміють, як ми справляємось, у них це не вкладається в голові.
– Як у вас розподілені функції в команді?
– Respeecher поділений на чотири основні команди. Перша – це R&D, ті, хто розробляє саму технологію та повсякчасно її покращує. Друга – delivery, найбільша команда зараз. Ця команда складається з професійних звукачів, котрі знають звук і розуміють, як працювати з нашими моделями. Саме ця команда відповідає за найвідоміші голлівудські проекти компанії. Третя команда – це apps. Вони цілковито сфокусовані на Voice Marketplace, який пропонує людям і компаніям, що створюють контент, але не мають значних бюджетів, користуватися нашою бібліотекою голосів. Це продукт Respeecher, який ми завжди хотіли запустити. І четверта команда – це бізнес-команда, що насамперед опікується B2B-продажами. Нас небагато: четверо в активних продажах, піарі, комунікаціях і партнерствах. Але це дає нам змогу зростати та забезпечувати значну частину виторгу.
Більша частина команди Respeecher перебуває в Україні: Києві, Львові, під Хмельницьким, під Вінницею, у Тернопільській та Київській областях. Решта – у Польщі, Греції, Великій Британії, Канаді, США
– Наскільки важко було знайти всіх цих спеціалістів?
– Загалом не було такої проблеми. У нас дуже сильна школа machine/deep learning. Звукачі в Україні також топові. Єдина проблема, можливо, що англійська не в усіх звукачів на рівні, який потрібен для роботи над нашими проектами.
– У яких сферах загалом на сьогодні використовуються технології Respeecher?
– Дубляж/локалізація, у кіно- та ТБ-продакшенах, ми також працюємо з анімаційними студіями. Але паралельно у нас іще є проекти в YouTube. Ми працюємо з певними Theme-Parks (як Disneyland). Як я вже згадував, це здоровоохоронна та комунікаційна сфери. Зараз ми дуже уважно дивимося в напрямі security defence – у нас є проекти з голосової анонімізації. Коли, наприклад, людина йде в суд і треба свідка анонімізувати. Або те саме в документальних фільмах, де певні свідки не хочуть, аби люди їх упізнавали. Все це можна робити за допомогою наших технологій.
– Ви працювали над God of War: Ragnarok та Cyberpunk 2077. Якою мірою робота над відеоіграми класу ААА відрізняється від роботи над голлівудськими фільмами? Що нового було в цих проектах для вас?
– Системно різниця між відеоіграми та продакшеном ТБ і кіно полягає в обсягах. У відеоіграх на одного персонажа може бути 40–60 годин озвучення. А потім усе ще треба перекласти різними мовами. Це довго, важко – і ми можемо це трохи оптимізувати. Плюс ми можемо розв'язати ті самі проблеми, що і в кіно: наприклад, відновити голос персонажа таким, яким він був раніше. Є в нас один проект із великою студією: там дуже важливий актор кілька років тому мав серцевий напад, і розробникам треба цей голос зберегти для наступних ігор. Окремий прецедент – це те, що у титрах God of War: Ragnarok видавець додав не лише Respeecher, а й окремо виділив нашого Synthetic Speech Artist Валерія, що працював над грою. Це сталося вперше у світі.
– Хто був першим вашим замовником серед великих світових студій?
– Disney була першою великою голлівудською студією, яка почала з нами працювати. Починаючи з 2018 року ми активно шукали клієнтів, маючи дуже сиру технологію. Хтось розповів про нас [компанії] Industrial Light & Magic. Так само про нас розказали Skywalker Sound (американський підрозділ Lucasfilm, що працює зі звуковими ефектами. – MBR), а вони вже напряму нам написали. В той час ми були у Каліфорнії, змогли з ними зустрітися – буквально того самого дня нам запропонували проект. Зараз працюємо з усіма топовими голлівудськими студіями.
– Тож можна сказати, що в Голлівуді вас уже добре знають?
– Так. Там навіть нове дієслово використовують – «ріспіч». Це означає, що треба щось зробити з голосом.
– Ви також робили проект для великого американського іспаномовного телеканалу Telemundo. Що це був за кейс?
– Баскетбол у Латинській Америці – популярний вид спорту. Кілька років тому жіноча баскетбольна команда Пуерто-Рико досягла великих успіхів на Олімпійських іграх. У пуерториканців із баскетболом асоціюється голос одного коментатора – Маноло, який давно помер. І країна хотіла зробити щось особливе на честь дівчат-баскетболісток. Ідея полягала у транслюванні матчу з коментуванням голосом Маноли. Тоді для нас це був дуже серйозний виклик. Але все вийшло добре.
– 2021 року ви отримали «Еммі», найголовнішу нагороду у світовій ТБ-індустрії. Як це вплинуло на вашу професійну впізнаваність?
– Не так часто люди з технологічних компаній здобувають такі нагороди. Мені здається, це єдині «Еммі», які фізично перебувають в Україні. Є клієнти, які відзначають факт, що в нас є «Еммі», як щось особливе, але їх не більшість. Це просто ще один доказ того, що у нас є унікальна технологія і ми вміємо робити топові проекти – така собі валідація.
– Локалізація – це новий світовий тренд, сьогодні її потребують виробники майже всіх видів розважального контенту. Як ваша технологія розвиває цю сферу?
– Ми з ринком локалізації почали працювати десь рік тому, бо раніше технологія не могла вийти на обсяги, що хотіли клієнти. Локалізація – це злий ринок: там маленька маржа і за неї конкурують. Компанії мають усе робити швидко та відповідати якості. Колись люди взагалі вірили в автоматизовану локалізацію: натиснув кнопку, система переклала все й озвучила.
Що ми можемо зробити – це дати можливість акторам ефективніше працювати. Бо є обмеження за кількістю доступних акторів озвучування в різних країнах. Наприклад, у Чехії з цим велика проблема. Контент затримується з виходом на кілька місяців, оскільки там просто не встигають усе локалізувати. Наша система може дати одному акторові можливість говорити різними голосами, використовувати для озвучення контенту, в якому сотні голосів, десятки акторів, а не шукати сто акторів. І робити це швидше.
А ще етнічне розмаїття. Наприклад, маємо американський серіал, де десять персонажів говорять із грузинським акцентом. Тепер це треба перекласти та дублювати, скажімо, десь в Індонезії. Де ми в Індонезії візьмемо десять акторів дубляжу, що мають натуральний грузинський акцент? Нині можна додати акцент за допомогою Respeecher. І це дає можливість зберігати якість контенту на оригінальному рівні. Те саме стосується sexual diversity.
– У вас були цікаві кейси з голосами, записаними понад 50 років тому, або з голосами, що існують лише у поганій якості. З якими ще викликами ви стикалися?
– Був цікавий проект: акторка у фільмі не могла співати. Клієнт запросив співачку, котра своїм професійним голосом виконує пісню як потрібно для кіно, і ми конвертуємо цей співочий голос у голос акторки. Щоб саме вона виконувала пісню як треба.
– Ви вже згадували Voice Marketplace, розкажіть детальніше про цей проект.
– Зараз у нас є понад сотню голосів, не тільки людей, до речі. Є також тварини. Ідея цього маркетплейсу – дати можливість маленьким студіям, які працюють над анімацією, відео, музикою, вивести свій контент на рівень, де він почне конкурувати з голлівудським контентом, у якого є бюджети на озвучування.
Це демократизація, це те, куди наш світ рухається. Ми бачимо, що музиканти використовують. Навіть кліпи знімають. Ну і, звісно, ним користуються актори озвучення, адже так вони можуть значно більше.
– Чи є в цьому Voice Marketplace голоси відомих людей?
– Наразі там голоси звичайних людей: ми їх записали, заплатили гроші й отримали дозвіл на використання. Відомі голоси – вже наступний рівень, на який ми вийдемо пізніше. Треба буде додати два нові рівні – компенсація та кастомна модерація. Але там викликом для нас буде створення для людини, що володіє своїм голосом і хоче поставити його на маркетплейс, можливості модерувати тип контенту, який можна зробити з її голосом. Це технічно непросте завдання.
Схема роялті буде, коли зʼявляться відомі голоси. Тоді люди отримуватимуть заробіток залежно від того, як їхній голос використовуватиметься.
– Voice market уже використовується в дубляжі. Якою великою є імовірність, що в майбутньому tech-voice замінить «живих» акторів озвучування?
– Ось простий приклад. Десь три роки тому, якби я написав десяти голосовим акторам, девʼять із них сказали б, що не хочуть навіть зі мною розмовляти. Бо ми крадемо їхню роботу. Зараз я пишу десяти акторам – і девʼять хочуть поспілкуватися та дізнатися більше. Ми ніколи не казали, що їх елімінуємо, бо технологічно це неможливо. Ми на них покладаємося. Бо, коли голосовий актор якісно робить свою роботу, наша система краще працює. Це щось, що завжди використовується «в комплекті» з голосовим актором. Я не думаю, що світ рухається до того, що озвучення робитиметься машиною – це дуже важко. Пояснити машині, що треба трошки теплоти додати саме на цьому моменті, а цю фразу треба трошки відсвистіти, буде складно. Обсяги озвучування контенту зростають протягом останніх десяти років, а кількість акторів не зростає. І їхня робота буде дедалі затребуванішою.
Є відомий голосовий актор Сем Вітвер, який класно пояснив у своєму твіттері, чим наша технологія цінна акторам. Він написав, що найкраще наш продукт можна описати як «моделювання голосових звʼязок».
– Ще один кейс – це випадок із Мей Маск, коли вона заговорила українською. Розкажіть, як це сталося.
– Ми запустили ініціативу Speak Ukrainian від самого початку повномасштабного вторгнення. Ідея ініціативи – дати можливість відомим у світі людям, які хочуть виявити свою підтримку Україні, зробити це напряму, говорячи своїм голосом, але нашою мовою. Мей Маск була не першою, хто відгукнувся. Першою були акторка Ебігейл Севедж із серіалу «Помаранчевий – хіт сезону». Вона вдягла вишиванку, яку ми відправили їй ще 2021 року як презент, і записала звернення. З Мей Маск ми комунікували через видавця її книжки в Україні (Vivat. – MBR).
Посмотреть эту публикацию в Instagram
– У Голлівуді вас уже знають, ви будуєте там бренд. А як в Україні використовуються ваші вміння та технології?
– Ми намагались ініціювати кілька проектів в Україні з відомими голосами. Добрі проекти, але поки жоден із них не стартував, із різних причин. В Україні ця індустрія лише стає на ноги. У нас неймовірні голосові актори, а якість озвучування – незрівнянна. Але ми зараз тільки підписали контракт із великим українським продакшеном.
Загалом, якщо в нас з'являються українські проекти, ми приділяємо їм багато уваги. Готові на великі знижки або навіть інвестувати в них. І сподіваюся, що українських проектів буде більше. Я дуже сподіваюся, що буде більше документалок про важливих українських діячів, буде більше цікавих історій, які ми розповідатимемо на весь світ.
Ну й усі документальні або журналістські розслідування, де потрібна голосова анонімізація, якщо це стосується злочинів росії проти України, ми робимо безкоштовно. Це для нас важливо.
– Якими дорогими є ваші послуги?
– Таких речей ми не коментуємо. Але коли трапляється якісний проект, де є розуміння, як треба використовувати нашу технологію, і в нього, наприклад, немає бюджету, ми однаково намагаємося знайти спосіб реалізувати цей проект. Ми відкрили окрему програму Small creators: раз на місяць, іноді трохи частіше, беремо проект, в якому майже немає бюджету. Люди нам його пітчать. І якщо нам цікаво, ми його беремо й інвестуємо разом із клієнтом.
– На середину 2022 року, за вашими словами, компанія ще не була прибутковою. Коли плануєте вийти на рівень прибутковості?
– 2022 року з тим, що заробили, ми покрили понад 75% наших витрат. Це досить непоганий результат. З огляду на те, що наша команда сильно виросла, ми більше витрачаємо, адже маємо розвиватися швидше. Це завдання стартапу. Вийти на прибутковість не є ультимативним завданням на нашій стадії – є завдання виростити компанію до рівня передбачуваності та стабільності.
– Багато хто переживає щодо вашої технології імітації голосу. Яких заходів безпеки проти аферистів і злочинців, що захочуть використати цю технологію у своїх цілях, ви вживаєте?
– Найкраще, що ми можемо зробити зараз, – пояснювати якнайбільше, як саме працює наша технологія. Наприклад, зараз людей фотошопом не надуриш, та, коли він тільки зʼявився, його всі боялися. Концепція використання імітації голосу в злочинних цілях не нова. Від цього ми маємо захищатися.
Respeecher не може бути використаний, якщо немає дозволу на голос або якщо цей кейс може виявитися шкідливим. Ми захищаємо наші продукти. У Voice Marketplace ніхто не може додати новий голос у систему. Ми працюємо над детекцією синтезованої мови. Намагаємося також обʼєднати лідерів ринку, аби більше робити в цьому напрямі. Крім того, працюємо над watermark для голосу, що буде у звуці. Це також ненова концепція, наприклад Sony таке вже 20 років робить. Вони взагалі під різні кінотеатри різні вотермарки додають, і, коли зʼявляється «піратка», компанія одразу знає, де вона була зроблена. Ми працюємо в тому самому напрямі. Але це доволі непросто, бо треба накласти вотермарку на дуже короткий запис, а також треба, щоб вотермарка не погіршила звучання голосу і водночас її було б складно видалити.
Respeecher будує базис. І цей базис – унікальна технологія та унікальна команда, що може створювати продукти на базі цієї технології, надавати унікальний сервіс. Можливості для будування цікавих системних проектів, які змінюють світ, дуже великі. Наше завдання – зробити максимум за мінімум часу.