Facebook AI представила новую систему машинного перевода M2M-100, способную переводить с одного языка на другой напрямую, не используя английский в качестве промежуточного.
Независимо от того, из какого региона пользователь входит в систему, Facebook может перевести практически любой письменный контент с помощью автоматического машинного перевода. Только для новостной ленты Facebook ежедневно выполняет около 20 млрд переводов. Эти системы обычно используют английский язык в качестве промежуточного шага, так как наборы данных о переводах на английский и с английского огромны и широко доступны. Минус в том, что это снижает общую точность перевода. Новая система машинного перевода M2M-100 должна решить эту проблему.
В компании заявили, что M2M-100 стала первой многоязычной моделью машинного перевода. Она способна осуществлять переводы между парами из ста языков. При разработке использовали инструмент CommonCrawl, который поддерживает открытый репозиторий данных веб-сканирования, и систему классификации текстов FastText. Чтобы получить нужные данные в больших масштабах, команда разработчиков в значительной степени полагалась на систему LASER.
Используя это, исследовательская группа подготовила универсальную модель перевода с более чем 15 млрд параметров, «которая собирает информацию со связанных языков и отражает более разнообразный сценарий языков и морфологию», - говорится в сообщении в блоге компании.
Согласно метрикам BLEU, новая система на 10 баллов опережает предшественника, где английский язык был промежуточным.
Еще неизвестно, приведет ли это к созданию универсального цифрового переводчика, способного без потерь переводить с 6200 с лишним разговорных языков мира. Конечный успех этого проекта зависит от количества ресурсов, которые может использовать ИИ. Facebook предоставил исследовательскому сообществу набор данных, модели, обучающие и оценочные установки в виде открытого исходного кода, чтобы способствовать дальнейшему развитию. Компания также планирует продолжить самостоятельную разработку системы и в итоге внедрить эту технологию в свою повседневную деятельность.