Логотип
Баннер в шапке 1
Баннер в шапке 2

ВШЭ: Технология идентификации текстов, сгенерированных ИИ любого типа

Продукт
Разработчики: Высшая школа экономики (НИУ ВШЭ)
Дата премьеры системы: 2024/07/22
Технологии: Речевые технологии

Основные статьи:

2024: Процесс создания технологии идентификации текстов, сгенерированных ИИ любого типа

Ученые НИУ ВШЭ работают над созданием приложения, которое позволяет установить, написан текст человеком или сгенерирован искусственным интеллектом. Подход, на который опирается приложение, носит универсальный характер и позволяет «ловить» самых разных ботов, построенных на разной архитектуре. Об этом ВШЭ сообщила 22 июля 2024 года. В ближайшее время запланировано тестирование прототипа в широком диапазоне текстов. Предполагается, что платформа будет доступна пользователям в 2025 году.

Развитие технологий искусственного интеллекта привело к тому, что объем текстов, сгенерированных ИИ, увеличивается лавинообразно. При этом тексты, которые генерируют боты, уже сложно отличить от тех, которые пишут люди. Николай Кныш, технологический директор «Леруа Мерлен» на TAdviser SummIT — о «граблях» цифровой трансформации 4.8 т

Существующие на июль 2024 года подходы к идентификации текстов, сгенерированных ботами, зачастую базируются на работе с несколькими конкретными архитектурами бота, что существенно снижает диапазон их применения и делает уязвимыми перед будущими поколениями ботов. Цель проекта Вышки — создание эффективной системы обнаружения текстов, написанных разными программами, в широком классе ботов для различных языков.

«
Наша разработка отличается от разработок конкурентов. Подавляющее большинство аналогичных проектов посвящено задаче идентификации конкретных архитектур генеративных языковых моделей. Это приводит к неизбежному устареванию таких наработок по мере развития инструментов генерации текстов и (или) возникновения новых типов ботов, а также вынуждает потенциальных потребителей использовать на практике сразу несколько моделей, ответственных за обнаружение ботов с различными архитектурами. Мы «ловим» всех ботов, а не только одного или нескольких, находящихся в нашем распоряжении, - сказал Василий Громов, руководитель проекта, профессор департамента анализа данных и искусственного интеллекта факультета компьютерных наук НИУ ВШЭ.
»

Разрабатываемая система опирается на несколько различных областей математического знания: теория хаотических динамических систем, топологический анализ данных, теория размерности, теория кластеризации (четкой и нечеткой), нейронные сети и др. Это обеспечивает робастность системы: бот может «подделать» одну или даже несколько характеристик, но «подделать» их все крайне трудно.

«
Нами проведены широкомасштабные вычислительные эксперименты с использованием различных методов анализа данных и искусственного интеллекта, что позволило определить наборы характеристик, наиболее подходящих для различения пространств и траекторий ботов и людей, и разработать прототип программного обеспечения, - отметил Василий Громов, руководитель проекта, профессор департамента анализа данных и искусственного интеллекта факультета компьютерных наук НИУ ВШЭ.

»

В ближайшее время запланировано тестирование прототипа в широком диапазоне текстов — от художественных произведений, сгенерированных ботами, до выпускных конкурсных работ студентов НИУ ВШЭ. Планируется, что широкому кругу пользователей платформа будет доступна в 2025 году. Сначала она сможет «ловить» ботов на русском и английском языках, но ученые уже работают над увеличением числа языков, с которыми может взаимодействовать система. Это прежде всего языки стран БРИКС и языки народов России.



Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Группа компаний ЦРТ (Центр речевых технологий) (44)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (28)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (25)
  SteadyControl (18)
  Naumen (Наумен консалтинг) (14)
  Другие (176)

  Группа компаний ЦРТ (Центр речевых технологий) (5)
  SteadyControl (4)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (4)
  Voice Systems Robotics (VSR, VS Robotics) (2)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (2)
  Другие (17)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (12)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (7)
  Voice Systems Robotics (VSR, VS Robotics) (3)
  Naumen (Наумен консалтинг) (3)
  Мегапьютер Интелидженс (Megaputer Intelligence) (2)
  Другие (14)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (9)
  Группа компаний ЦРТ (Центр речевых технологий) (8)
  SteadyControl (6)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (6)
  Unlimited Production (Анлимитед Продакшен, eXpress) (4)
  Другие (28)

  SteadyControl (5)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (3)
  SberDevices (СалютДевайсы, ранее СберДевайсы) (2)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (2)
  Яндекс (Yandex) (2)
  Другие (14)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Группа компаний ЦРТ (Центр речевых технологий) (17, 46)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (3, 29)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (12, 27)
  SteadyControl (1, 23)
  SteadyControl HoReCa (1, 23)
  Другие (325, 191)

  Группа компаний ЦРТ (Центр речевых технологий) (2, 5)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (1, 5)
  SteadyControl HoReCa (1, 4)
  SteadyControl (1, 4)
  SberDevices (СалютДевайсы, ранее СберДевайсы) (2, 2)
  Другие (9, 13)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (2, 12)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
  SteadyControl HoReCa (1, 3)
  Voice Systems Robotics (VSR, VS Robotics) (1, 3)
  Naumen (Наумен консалтинг) (1, 3)
  Другие (12, 16)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 9)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 8)
  Группа компаний ЦРТ (Центр речевых технологий) (4, 7)
  SteadyControl (1, 7)
  SteadyControl HoReCa (1, 7)
  Другие (16, 28)

  SteadyControl (1, 5)
  SteadyControl HoReCa (1, 5)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 4)
  Яндекс (Yandex) (1, 3)
  SberDevices (СалютДевайсы, ранее СберДевайсы) (2, 2)
  Другие (15, 18)

Распределение систем по количеству проектов, не включая партнерские решения

За всю историю
2021 год
2022 год
2023 год
Текущий год

  МТТ VoiceBox - 24
  SteadyControl Система контроля и управления персоналом - 23
  BSS Digital2Speech - 20
  Voice2Med Система распознавания речи в медицине - 14
  SmartLogger II - 12
  Другие 184

  BSS Digital2Speech - 5
  SteadyControl Система контроля и управления персоналом - 4
  Voice2Med Система распознавания речи в медицине - 4
  3i TouchPoint Analytics - 2
  МТТ VoiceBox - 2
  Другие 11

  МТТ VoiceBox - 11
  BSS Digital2Speech - 6
  VS Robotics: VS Робот-оператор - 3
  SteadyControl Система контроля и управления персоналом - 3
  Naumen Erudite - 3
  Другие 14

  МТТ VoiceBox - 9
  BSS Digital2Speech - 7
  SteadyControl Система контроля и управления персоналом - 7
  EXpress Защищенный корпоративный мессенджер - 6
  SmartLogger II - 4
  Другие 22

  SteadyControl Система контроля и управления персоналом - 5
  YandexGPT (YaLM 2.0) - 3
  Robovoice Пользовательская no-code платформа для разработки ИИ-ботов - 2
  BSS: Виртуальный голосовой ассистент - 2
  BSS Digital2Speech - 2
  Другие 13