Проект

Softline помогла запустить русско-татарский нейросетевой машинный переводчик «Института прикладной семиотики АН Татарстана»

Заказчики: Институт прикладной семиотики Академии наук Татарстана

Казань; Образование и наука

Подрядчики: Softline (Софтлайн)
Продукт: Nvidia DGX Суперкомпьютеры

Дата проекта: 2019/11 — 2020/03
Технология: Суперкомпьютер
подрядчики - 55
проекты - 115
системы - 112
вендоры - 68

2020: Запуск русско-татарского нейросетевого машинного переводчика

25 марта 2020 года компания Softline сообщила, что помогла запустить русско-татарский нейросетевой машинный переводчик Института прикладной семиотики АН Татарстана.

По информации компании, Институт прикладной семиотики Академии наук Татарстана занимается изучением широкого круга вопросов, связанных с применением технологии искусственного интеллекта. Для популяризации, сохранения и развития татарского языка и культуры организация разрабатывает и выпускает широкий спектр программных продуктов, среди которых — синтезатор татарской речи, приложения для мобильных устройств, электронный корпус татарского языка, общественно-политический тезаурус и электронный атлас народных говоров. Для реализации более масштабных проектов и задач, таких как машинный перевод, системы синтеза и анализа речи на основе искусственных нейронных сетей, требовались существенные вычислительные ресурсы, позволяющие эффективно обрабатывать большие массивы данных и оперативно получать результаты.

Предложенный Softline суперкомпьютер для искусственного интеллекта NVIDIA DGX-1 стал лучшим решением данного вопроса. Этот программно-аппаратный комплекс позволяет значительно сократить сроки реализации проектов в области искусственного интеллекта. Благодаря наличию готового к использованию программного стека NVIDIA для глубокого обучения, заказчик может начать работу с алгоритмами глубокого обучения всего за один день и при этом не расходовать временные ресурсы на интеграцию и настройку необходимой инфраструктуры.

Используя систему NVIDIA DGX-1, учёные Института прикладной семиотики АН РТ при участии специалистов машинного обучения Университета Иннополис и в партнерстве с АО «СМП-Нефтегаз» разработали и запустили общедоступный сервис translate.tatar, предназначенный для машинного перевода с русского языка на татарский и наоборот. В основе подхода лежит архитектура нейросети encoder-decoder-attention. Сама система постоянно развивается. Для ее совершенствования недавно были построены модели на базе архитектуры Transformer, применялись алгоритмы внедрения языковых моделей в нейросеть. Впервые для русско-татарской пары были проведены эксперименты по использованию параллельных данных для других языков с целью переноса знаний (transfer learning).

В качестве основных обучающих данных использовался созданный в институте параллельный корпус общим объемом 983 319 пар русско-татарских предложений, включающий тексты новостной тематики, литературу, переводы законов и нормативных актов.

«
Возможности портала позволяют переводить тексты в русско-татарском и татарско-русском направлениях, озвучивать результаты перевода на обоих языках и оценивать его качество. Кроме того, сервис снабжен двуязычным интерфейсом, благодаря чему круг пользователей постоянно расширяется.

рассказал Ринат Гильмуллин, заместитель директора Института прикладной семиотики Академии наук Татарстана
»

«
Получив первоначальный запрос от Института прикладной семиотики АН Татарстана, мы, прежде всего, должны были определить круг тех задач, которые можно решить с помощью оборудования и программного обеспечения, предлагаемого компанией Softline. Выяснив, что ученым предстоит заниматься задачами, связанными с разработкой нейросетей для машинного перевода, мы оценили масштаб работ и предложили руководству института рассмотреть программно-аппаратный комплекс для высокопроизводительных вычислений и ускорения обучения нейросетей NVIDIA DGX-1. Мы подключили специалистов NVIDIA, которые провели интервью с представителями заказчика и подтвердили, что задачи, стоящие перед институтом, можно успешно решить при помощи DGX-1. Выбирая оборудование, ученые приняли во внимание возможность потенциального наращивания вычислительной мощности комплекса. При необходимости институт может горизонтально масштабировать вычислительные мощности системы путем сборки кластера из модулей DGX-1, соединенных интерконнектом InfioniBand. Также на выбор решения повлияло наличие у NVIDIA репозитория оптимизированного ПО NVIDIA GPU Cloud — большой библиотеки фреймворков и готовых моделей нейросетей, оптимизированных для GPU и поставляемых в виде контейнеров Docker.

рассказал Егор Демин, менеджер по продаже аппаратных решений Softline
»