Facebook AI презентувала нову систему машинного перекладу M2M-100, яка здатна переводити з однієї мови на іншу, не використовуючи англійську як проміжну.
Незалежно від того, з якого регіону користувач входить в систему, Facebook може перекласти практично будь-який письмовий контент за допомогою автоматичного машинного перекладу. Тільки для новинної стрічки Facebook щодня виконує близько 20 млрд перекладів. Ці системи зазвичай використовують англійську мову як проміжний крок, ажде набори даних про переклади на англійську і з англійської є величезними і широко доступними. Мінус у тому, що це знижує загальну точність перекладу. Нова система M2M-100 має вирішити цю проблему.
У компанії заявили, що M2M-100 стала першою багатомовної моделлю машинного перекладу. Вона здатна здійснювати переклади між парами зі ста мов. Розробники використовували інструмент CommonCrawl, який підтримує відкритий репозиторій даних веб-сканування, і систему класифікації текстів FastText. Щоб отримати потрібні дані в великих масштабах, команда розробників в значній мірі покладалася на систему LASER.
Використовуючи це, дослідницька група підготувала універсальну модель перекладу з більш ніж 15 млрд параметрів, «яка збирає інформацію з пов'язаних мов і відображає більш різноманітний сценарій мов і морфологію», - йдеться в блозі компанії.
Згідно метрик BLEU, нова система на 10 балів випереджає попередню, де англійська мова була проміжною.
Ще невідомо, чи призведе це до створення універсального цифрового перекладача, здатного без втрат переводити з майже 6200 розмовних мов світу. Кінцевий успіх цього проекту залежить від кількості ресурсів, які може використовувати ІІ. Facebook надав спільноті розробників набір даних, моделі, навчальні та оціночні установки у вигляді відкритого вихідного коду, щоб сприяти подальшому розвитку. Компанія також планує продовжити самостійну розробку системи, щоб нарешті впровадити цю технологію у свою повсякденну діяльність.