MTS AI: Cotype (Большая языковая модель, LLM)

Продукт
Название базовой системы (платформы): Искусственный интеллект (ИИ, Artificial intelligence, AI)
Разработчики: МТС ИИ, MTS AI (Центр искусственного интеллекта МТС)
Дата последнего релиза: 2024/09/10
Технологии: Речевые технологии

Содержание

Основные статьи:

2024

Развертывание MTS AI Cotype Plus в Технологической песочнице АФТ

В Технологической песочнице АФТ развернута GPU-ориентированная инфраструктура для высокопроизводительных матричных и векторных операций в целях пилотирования решений с использованием технологий искусственного интеллекта. Об этом Ассоциация сообщила 12 сентября 2024 года. В частности, на данной инфраструктуре уже развернута большая языковая модель МТС AI Cotype Plus. Подробнее здесь.

Оптимизация для текстов на татарском языке

MTS AI разработал обновленную версию большой языковой модели Cotype Lite для работы с текстами на татарском языке. Об этом компания сообщила 10 сентября 2024 года.

LLM способна обрабатывать документы объемом до 8 тысяч токенов (примерно 5 листов A4), извлекать и суммаризировать данные за несколько секунд.Как DevOps-сервис помогает «разгрузить» высоконагруженные системы BPMSoft 2.3 т

Cotype Light может использоваться в архивах, библиотеках, в государственных и частных организациях — везде, где есть потребность в обработке информации и анализе документов на татарском. Например, с помощью большой языковой модели можно ускорить обработку заявлений в государственные органы.

Cotype извлечет ключевую информацию, такую как тематика запроса, местоположение и личные данные заявителя, и передаст их в соответствующую базу данных. Как и другие модели семейства Cotype, эта версия может устанавливаться в контуре организации, что позволяет исключить утечки информации.

«
Создавая большую языковую модель на татарском, разработчики MTS AI преследовали несколько целей. Во-первых, мы хотели поддержать многообразие языков, существующих в России, помочь им развиваться и быть востребованными в цифровую эпоху. Во-вторых, этот проект показал, что мы умеем адаптировать наши модели под любые научные и бизнес-задачи, в том числе и такие нетривиальные как обработка информации на языках народов России, - сказал исполнительный директор MTS AI Дмитрий Марков.

»

Чтобы модель Cotype Light смогла понимать незнакомый язык, разработчики собрали датасет и перевели его с русского на татарский. После все данные и ответы модели проверили специалисты-тюркологи и носители языка. Обучение Cotype Light происходит на мощностях МТС Web Services.

По словам разработчиков, Cotype Light входит в число лучших LLM в своем классе: она содержит 8 млрд. параметров. При необходимости MTS AI может создать LLM на татарском с большим количеством параметров - до 70 млрд параметров, а также большим контекстным окном до 32 тысяч токенов, — чтобы модель умела выполнять такие задачи как перевод и генерация длинных текстов. Также компания MTS AI готова адаптировать модели семейства Cotype для других региональных языков России.

Возможность обработать длинный пользовательский контекст

MTS AI выпустил обновленную версию своей большой языковой модели для бизнеса Cotype PRO. Данная модель может обработать длинный пользовательский контекст - до 20 страниц, что позволяет выдавать персонализированные и точные ответы при низком потреблении вычислительных мощностей. Об этом компания сообщила 28 августа 2024 года.

Cotype — большая языковая модель, созданная MTS AI специально для работы с корпоративными данными. Она обучена на большом объеме деловой переписки, должностных инструкций, документации и прочих текстов, что обеспечивает высокую экспертизу LLM в этой области и позволяет использовать ИИ в бизнес-процессах. Cotype входит в топ-3 русскоязычных моделей, согласно бенчмарку MERA.

«
Увеличенный объем запоминания контекста без потери данных — функция Cotype Pro, которую используется в более чем 10 пилотных проектах корпоративного сектора и госструктур для создания системы сквозного поиска по внутренней документации и базам данных, генерации технических инструкций и корпоративных писем, SEO-оптимизации материалов на сайте и анализа и суммаризации результатов встреч — сказал Сергей Пономаренко, старший менеджер LLM-продуктов MTS AI.
»

Cotype PRO была создана с помощью уникального двухэтапного метода дообучения и собственных бенчмарков, разработанных специалистами MTS AI. Такой подход позволил достичь высокого качества работы большой языковой модели, которая работает всего на одной видеокарте NVIDIA A100, в отличие от конкурентных решений, которым необходимо 4 видеокарты.

Большое контекстное окно дает языковой модели Cotype PRO возможность за один раз обрабатывать значительный объем информации. То есть пользователь может загрузить договор или другой документ на 20 страниц. Благодаря чему, модель лучше понимает, о чем идет речь, и дает более точные ответы, что крайне важно, когда идет речь об анализе корпоративных документов и регламентов.



СМ. ТАКЖЕ (2)


Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Группа компаний ЦРТ (Центр речевых технологий) (44)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (29)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (27)
  SteadyControl (18)
  Naumen (Наумен консалтинг) (15)
  Другие (191)

  Группа компаний ЦРТ (Центр речевых технологий) (5)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (4)
  SteadyControl (4)
  3iTech (ранее 3i Technologies) (2)
  Naumen (Наумен консалтинг) (2)
  Другие (17)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (12)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (7)
  Naumen (Наумен консалтинг) (3)
  Voice Systems Robotics (VSR, VS Robotics) (3)
  SteadyControl (2)
  Другие (14)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (9)
  Группа компаний ЦРТ (Центр речевых технологий) (8)
  SteadyControl (6)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (5)
  Naumen (Наумен консалтинг) (4)
  Другие (29)

  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (6)
  SteadyControl (5)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (3)
  Robovoice (Робовойс) (3)
  SberDevices (СалютДевайсы, ранее СберДевайсы) (3)
  Другие (26)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Группа компаний ЦРТ (Центр речевых технологий) (17, 46)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (3, 30)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (12, 29)
  SteadyControl (1, 23)
  SteadyControl HoReCa (1, 23)
  Другие (353, 210)

  Группа компаний ЦРТ (Центр речевых технологий) (2, 5)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (1, 5)
  SteadyControl HoReCa (1, 4)
  SteadyControl (1, 4)
  SberDevices (СалютДевайсы, ранее СберДевайсы) (2, 2)
  Другие (9, 13)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (2, 12)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
  SteadyControl HoReCa (1, 3)
  Voice Systems Robotics (VSR, VS Robotics) (1, 3)
  Naumen (Наумен консалтинг) (1, 3)
  Другие (12, 16)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 9)
  Группа компаний ЦРТ (Центр речевых технологий) (4, 7)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
  SteadyControl HoReCa (1, 7)
  SteadyControl (1, 7)
  Другие (17, 29)

  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
  SteadyControl HoReCa (1, 5)
  SteadyControl (1, 5)
  СалютДевайсы (ранее SberDevices) (2, 4)
  Сбербанк (2, 4)
  Другие (20, 33)

Распределение систем по количеству проектов, не включая партнерские решения

За всю историю
2021 год
2022 год
2023 год
Текущий год

  МТТ VoiceBox - 24
  SteadyControl Система контроля и управления персоналом - 23
  BSS Digital2Speech - 21
  Voice2Med Система распознавания речи в медицине - 14
  Naumen Erudite - 13
  Другие 199

  BSS Digital2Speech - 5
  SteadyControl Система контроля и управления персоналом - 4
  Voice2Med Система распознавания речи в медицине - 4
  Naumen Erudite - 2
  3i TouchPoint Analytics - 2
  Другие 11

  МТТ VoiceBox - 11
  BSS Digital2Speech - 6
  SteadyControl Система контроля и управления персоналом - 3
  Naumen Erudite - 3
  VS Robotics: VS Робот-оператор - 3
  Другие 14

  МТТ VoiceBox - 9
  SteadyControl Система контроля и управления персоналом - 7
  EXpress Защищенный корпоративный мессенджер - 6
  BSS Digital2Speech - 6
  SmartLogger II - 4
  Другие 23

  SteadyControl Система контроля и управления персоналом - 5
  BSS Digital2Speech - 4
  YandexGPT (YaLM 2.0) - 3
  EXpress Защищенный корпоративный мессенджер - 3
  BSS: Виртуальный голосовой ассистент - 3
  Другие 25