Название базовой системы (платформы): | Искусственный интеллект (ИИ, Artificial intelligence, AI) |
Разработчики: | Сбербанк, СберДевайсы (SberDevices), Облачные технологии (SberCloud СберКлауд) |
Дата премьеры системы: | 2021/11/02 |
Дата последнего релиза: | 2021/12/15 |
Технологии: | Big Data |
Содержание |
Основные статьи:
2022: В основе модели Kandinsky
Сбер 14 июня 2022 года представил модель генерации изображений по текстовому описанию на русском языке — Kandinsky. Это улучшенная версия мультимодальной нейросети ruDALL-E, которая генерирует картинки по описанию на русском языке. Подробнее здесь.
2021
Доступность на платформе ML Space
15 декабря 2021 года Сбер сообщил о том, что Нейросеть ruDALL-E, которая генерирует изображения по описанию на русском языке, стала доступна на платформе ML Space.
Промышленная версия нейронной сети ruDALL-E от SberDevices и Sber AI, которая создает изображения на основе текстового описания на русском языке, появилась в доступе на платформе ML Space в хабе предобученных моделей и датасетов DataHub от SberCloud. Она содержит 12 миллиардов параметров и подходит для создания коммерческих материалов: иллюстраций для рекламы, архитектурного и промышленного дизайна, векторных и стоковых изображений.
ruDALL-E — мультимодальная нейросеть, которая генерирует оригинальные изображения по заданному русскоязычному описанию, моделируя совместное распределение текстов и изображений. Проект по обучению ruDALL-E стал самым большим нейросетевым вычислительным проектом в России и СНГ. Модель существует в двух вариантах: сверхбольшой — ruDALL-E XL с 1,3 миллиарда параметров — можно воспользоваться бесплатно, загрузив её код и набор параметров с Github; и гигантской нейросети ruDALL-E 12B XXL с 12 миллиардами параметров, которая доступна в подборке ruGPT-3 & family DataHub ML Space и позволяет создавать неограниченное число новых изображений по заданному описанию с меньшей степенью абстракции и более высокого качества.
Изображение создается в несколько этапов: сперва нейросеть принимает описание на вход и генерирует заданное число картинок, затем другая выбирает максимально подходящие под описание, после чего они увеличиваются в размере без потери качества.
Два месяца назад мы выложили в открытый доступ модель ruDALL-E XL, сделали демо-сайт и навык для ассистентов Салют, чтобы с ней можно было «поиграть», создавая любые картинки по запросу. Теперь же внешняя аудитория может воспользоваться и XXL-версией модели, которая позволяет получать не только абстрактные изображения, но и любое количество качественных уникальных иллюстраций, которые можно применять в разных сферах, - отметил Давид Рафаловский, CTO Сбербанк Груп, исполнительный вице-президент. |
Возможность генерировать картинки по описанию на иностранных языках
11 ноября 2021 года компания «Сбербанк Груп» сообщила, что сайт открытой нейронной сети ruDALL-E, генерирующей изображения на основе текстового описания, теперь может работать с текстами не только на русском, но и на других языках. В мобильном приложении «Салют» и на устройствах Sber создать картинку можно даже по голосовому запросу, перевод на английский получил и демо-сайт, на котором можно попробовать модель.
По информации компании, за неделю с момента релиза ruDALL-E пользователи по всему миру сгенерировали более 3 млн изображений при помощи ruDALL-E, используя для формирования русскоязычных запросов различные системы машинного перевода, а теперь смогут делать запросы на английском и других языках. При вводе текста модель самостоятельно определяет язык ввода и генерирует соответствующее изображение.
Прототипом для создания ruDALL-E стала нейросеть DALL-E для английского языка, которая была представлена OpenAI в 2021 году. При этом исследователи из американской компании не стали выкладывать модель в открытый доступ, ограничившись общим описанием архитектуры и широким набором примеров работы модели, отобранных вручную. На основе публикации OpenAI команды SberDevices и Sber AI при содействии SberCloud создали аналогичное решение и запустили обучение нейросети на платформе ML Space на базе суперкомпьютера Christofari, получив аналогичный результат для русского языка, а позднее и мультиязычный вариант.Обзор российского рынка банковской цифровизации: импортозамещение, искусственный интеллект и собственные экосистемы
Модель существует в двух вариантах: ruDALL-E XL, содержащая 1,3 миллиарда параметров, и ruDALL-E XXL с 12 миллиардами параметров. Возможностями меньшей можно воспользоваться бесплатно, загрузив её с сервиса Github и Hugging Face. Обе модели также можно найти в ML Space в хабе предобученных моделей и датасетов DataHub от SberCloud.
Большая модель может послужить для создания вариантов дизайна интерьера, стоковых изображений или векторных иллюстраций, материалов для рекламы, копирайтинга, в то время, как уменьшенный вариант в приложении «Салют» и на демо-сайте призван скорее развлечь пользователей и показать им возможности нейросети. Чтобы создать изображение на устройствах Sber или в приложении «Салют» достаточно сказать: «Открой Далли» или «Запусти художника».
«После запуска ruDALL-E мы увидели большой интерес к модели со стороны аудитории. Поэтому мы решили создать мультиязычный вариант сервиса, который упростит пользователю путь к созданию изображения. На 11 ноября 2021 года моделью может воспользоваться практически любой желающий по всему миру. Поставить задачу нейросети можно и голосом, вызвав его в приложении «Салют» и на устройствах Sber», - говорит Давид Рафаловский, «Сбербанк Груп», исполнительный вице-президент. |
Создание ruDALL-E
Сбер 2 ноября 2021 года сообщил TAdviser о создании нейронной сети ruDALL-E, которая способна создавать изображения на основе текстового описания на русском языке. Использовать ее можно для создания вариантов дизайна интерьера, стоковых изображений или векторных иллюстраций, материалов для рекламы, копирайтинга, архитектурного и промышленного дизайна.
Нейросеть одновременно обучается на двух видах данных — картинках и текстах, и позволяет создавать неограниченное число изображений по заданному описанию. Есть два варианта модели:
- ruDALL-E XL, содержащая 1,3 миллиарда параметров;
- ruDALL-E 12B с 12 миллиардами параметров.
Моделью ruDALL-E XL можно воспользоваться бесплатно, загрузив её с сервиса GitHub. Обе модели также вскоре будут доступны на платформе ML Space в хабе предобученных моделей и датасетов DataHub от SberCloud.
Создание изображений при помощи ruDALL-E происходит в три этапа: сначала одна нейросеть принимает текст на вход и генерирует заданное число картинок, затем следующая выбирает, какие из них наиболее удачны и максимально соответствуют описанию, а третья увеличивает их в размере без потери качества. Таким образом можно получить неограниченное количество новых изображений, подходящих под указанные характеристики.
Архитектура модели DALL-E для английского языка была впервые представлена OpenAI в 2021 году, однако эта модель так и не была полностью выложена в открытый доступ. На основе публикации OpenAI команды SberDevices и Sber AI при содействии SberCloud воспроизвели код и запустили обучение нейросети на платформе ML Space на базе суперкомпьютера Кристофари, получив аналогичный результат для русского языка. В результате получилась модель, работающая с русским языком: обучение заняло 23 тысячи GPU-часов на массиве данных из 120 миллионов пар текст-изображение. Проект по обучению ruDALL-E стал самым большим нейросетевым вычислительным проектом в России и СНГ, отметили в Сбере.
Помимо вклада в прогресс в области ИИ, генерация изображений закрывает две важных потребности бизнеса — возможность получить уникальную картинку под собственное описание, а также в любой момент создавать необходимое количество licence-free-иллюстраций. При этом создание «мультимодальных» нейронных сетей, которые обучаются сразу на нескольких видах данных, даже в эпоху big data и огромных возможностей поиска, будет очень востребованным, поскольку решает задачи на принципиально ином уровне. Технология пока совсем молодая, первые шаги в этом направлении были сделаны только в 2020 году, а еще в 2018—2019 годах даже постановку такого рода задачи нельзя было себе представить. ruDALL-E можно считать настоящим прорывом для русскоязычной индустрии, сказал Давид Рафаловский, исполнительный вице-президент Сбербанка, CTO Сбера, руководитель блока «Технологии».
|
Ссылки
Название решения | Разработчик | Количество проектов | Технологии |
---|---|---|---|
Сбер Kandinsky Нейросеть для генерации изображений по описанию | Сбербанк | 0 | Big Data |
Подрядчики-лидеры по количеству проектов
БизнесАвтоматика НПЦ (120)
Большая Тройка (46)
Умная Логистика (14)
Сбербанк (14)
Доверенная среда (13)
Другие (482)
Доверенная среда (5)
Большая Тройка (4)
Цифра (4)
Ростелеком (3)
БизнесАвтоматика НПЦ (3)
Другие (54)
БизнесАвтоматика НПЦ (12)
OneFactor (Уанфактор) ЕдиныйФактор (3)
РИР (Росатом Инфраструктурные решения) (3)
Сбербанк (2)
Яндекс (Yandex) (2)
Другие (44)
Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров
БизнесАвтоматика НПЦ (2, 119)
Большая Тройка (2, 46)
Умная Логистика (2, 14)
Триафлай (1, 13)
Сбербанк (10, 10)
Другие (255, 138)
Триафлай (1, 5)
Большая Тройка (2, 4)
Цифра (1, 4)
БизнесАвтоматика НПЦ (1, 3)
Умная Логистика (2, 2)
Другие (6, 8)
БизнесАвтоматика НПЦ (1, 12)
РИР (Росатом Инфраструктурные решения) (2, 3)
Мегапьютер Интелидженс (Megaputer Intelligence) (1, 2)
МегаФон (2, 1)
Нетрика Медицина (1, 1)
Другие (7, 7)
БизнесАвтоматика НПЦ (1, 5)
РИР (Росатом Инфраструктурные решения) (3, 4)
Сбербанк (2, 2)
Цифра (1, 2)
DataCatalog (ДатаКаталог) (1, 2)
Другие (17, 18)
БизнесАвтоматика НПЦ (1, 7)
Сбербанк (3, 3)
Цифра (1, 2)
Retail Rocket (Ритейл Рокет) (1, 2)
TData (ТДата) (1, 2)
Другие (18, 21)
Распределение систем по количеству проектов, не включая партнерские решения
Visary BI Платформа бизнес-аналитики - 119
Большая Тройка: АИС Редактор территориальных схем - 39
Триафлай BI-платформа - 13
ZIIoT Платформа для работы с промышленными данными - 10
Luxms BI - 8
Другие 135
Триафлай BI-платформа - 5
ZIIoT Платформа для работы с промышленными данными - 4
Visary BI Платформа бизнес-аналитики - 3
Большая Тройка: АСУ Управление отходами - 2
Цифровая Траектория: Action Track (ATC) - 2
Другие 10
Visary BI Платформа бизнес-аналитики - 12
Росатом Цифровое теплоснабжение - 2
PolyAnalyst Платформа визуальной разработки сценариев анализа данных и текстов - 2
N3.Аналитика - 1
МегаФон: Аналитика городской среды - 1
Другие 6