Проект

Softline помогла запустить русско-татарский нейросетевой машинный переводчик «Института прикладной семиотики АН Татарстана»

Заказчики: Институт прикладной семиотики Академии наук Татарстана

Казань; Образование и наука

Подрядчики: Softline (Софтлайн)

Продукт: Nvidia DGX Суперкомпьютеры

Дата проекта: 2019/11 — 2020/03

Технология: Суперкомпьютер

подрядчики - 55
проекты - 115

системы - 113
вендоры - 69

2020: Запуск русско-татарского нейросетевого машинного переводчика

25 марта 2020 года компания Softline сообщила, что помогла запустить русско-татарский нейросетевой машинный переводчик Института прикладной семиотики АН Татарстана.

По информации компании, Институт прикладной семиотики Академии наук Татарстана занимается изучением широкого круга вопросов, связанных с применением технологии искусственного интеллекта. Для популяризации, сохранения и развития татарского языка и культуры организация разрабатывает и выпускает широкий спектр программных продуктов, среди которых — синтезатор татарской речи, приложения для мобильных устройств, электронный корпус татарского языка, общественно-политический тезаурус и электронный атлас народных говоров. Для реализации более масштабных проектов и задач, таких как машинный перевод, системы синтеза и анализа речи на основе искусственных нейронных сетей, требовались существенные вычислительные ресурсы, позволяющие эффективно обрабатывать большие массивы данных и оперативно получать результаты.

Предложенный Softline суперкомпьютер для искусственного интеллекта NVIDIA DGX-1 стал лучшим решением данного вопроса. Этот программно-аппаратный комплекс позволяет значительно сократить сроки реализации проектов в области искусственного интеллекта. Благодаря наличию готового к использованию программного стека NVIDIA для глубокого обучения, заказчик может начать работу с алгоритмами глубокого обучения всего за один день и при этом не расходовать временные ресурсы на интеграцию и настройку необходимой инфраструктуры.

Используя систему NVIDIA DGX-1, учёные Института прикладной семиотики АН РТ при участии специалистов машинного обучения Университета Иннополис и в партнерстве с АО «СМП-Нефтегаз» разработали и запустили общедоступный сервис translate.tatar, предназначенный для машинного перевода с русского языка на татарский и наоборот. В основе подхода лежит архитектура нейросети encoder-decoder-attention. Сама система постоянно развивается. Для ее совершенствования недавно были построены модели на базе архитектуры Transformer, применялись алгоритмы внедрения языковых моделей в нейросеть. Впервые для русско-татарской пары были проведены эксперименты по использованию параллельных данных для других языков с целью переноса знаний (transfer learning).

В качестве основных обучающих данных использовался созданный в институте параллельный корпус общим объемом 983 319 пар русско-татарских предложений, включающий тексты новостной тематики, литературу, переводы законов и нормативных актов.

Возможности портала позволяют переводить тексты в русско-татарском и татарско-русском направлениях, озвучивать результаты перевода на обоих языках и оценивать его качество. Кроме того, сервис снабжен двуязычным интерфейсом, благодаря чему круг пользователей постоянно расширяется.

рассказал Ринат Гильмуллин, заместитель директора Института прикладной семиотики Академии наук Татарстана

Получив первоначальный запрос от Института прикладной семиотики АН Татарстана, мы, прежде всего, должны были определить круг тех задач, которые можно решить с помощью оборудования и программного обеспечения, предлагаемого компанией Softline. Выяснив, что ученым предстоит заниматься задачами, связанными с разработкой нейросетей для машинного перевода, мы оценили масштаб работ и предложили руководству института рассмотреть программно-аппаратный комплекс для высокопроизводительных вычислений и ускорения обучения нейросетей NVIDIA DGX-1. Мы подключили специалистов NVIDIA, которые провели интервью с представителями заказчика и подтвердили, что задачи, стоящие перед институтом, можно успешно решить при помощи DGX-1. Выбирая оборудование, ученые приняли во внимание возможность потенциального наращивания вычислительной мощности комплекса. При необходимости институт может горизонтально масштабировать вычислительные мощности системы путем сборки кластера из модулей DGX-1, соединенных интерконнектом InfioniBand. Также на выбор решения повлияло наличие у NVIDIA репозитория оптимизированного ПО NVIDIA GPU Cloud — большой библиотеки фреймворков и готовых моделей нейросетей, оптимизированных для GPU и поставляемых в виде контейнеров Docker.

рассказал Егор Демин, менеджер по продаже аппаратных решений Softline

Источник — «https://www.tadviser.ru/index.php/%D0%9F%D1%80%D0%BE%D0%B5%D0%BA%D1%82:%D0%98%D0%BD%D1%81%D1%82%D0%B8%D1%82%D1%83%D1%82_%D0%BF%D1%80%D0%B8%D0%BA%D0%BB%D0%B0%D0%B4%D0%BD%D0%BE%D0%B9_%D1%81%D0%B5%D0%BC%D0%B8%D0%BE%D1%82%D0%B8%D0%BA%D0%B8_%D0%90%D0%BA%D0%B0%D0%B4%D0%B5%D0%BC%D0%B8%D0%B8_%D0%BD%D0%B0%D1%83%D0%BA_%D0%A2%D0%B0%D1%82%D0%B0%D1%80%D1%81%D1%82%D0%B0%D0%BD%D0%B0_(Nvidia_DGX_%D0%A1%D1%83%D0%BF%D0%B5%D1%80%D0%BA%D0%BE%D0%BC%D0%BF%D1%8C%D1%8E%D1%82%D0%B5%D1%80%D1%8B)»