2019/04/10 13:08:45

Вредоносное машинное обучение:
чем оно опасно и как защититься

Что такое Adversarial Machine Learning (вредоносное машинное обучение) и какую опасность может нести эта технология? В материале, подготовленном специально для TAdviser, на эти вопросы отвечает журналист Леонид Черняк.

Одним из самых серьезных препятствий на пути к предсказываемому массовому внедрению умных систем, снабженных элементами искусственного интеллекта (ИИ), может оказаться непредвиденное обстоятельство – эти системы пока не настолько умны, чтобы обладать способностью к противостоянию злому умыслу или жульничеству со стороны человека. Масштаб последствий такого обмана непредсказуем, он зависят лишь от того, насколько ответственны функции, переданные системе, снабженной ИИ.

В технологической истории возникновение таких препятствий далеко не единичный случай – пока та или иная новация пребывает в зародышевом состоянии, об ее возможных негативных последствиях не задумываются. Но рано или поздно наступает момент, когда непредвиденное ранее выступает на первый план. На заре автомобилизма вопрос безопасности не стоял, а теперь он важнейший. В сфере программирования никто не мог представить возможность существования вредоносного ПО (malware) вплоть до создания сети ARPANET (предшественницы Интернета), но с середины восьмидесятых malware во всех его ипостасях стало серьезной угрозой для персональных, а позже и других компьютеров. Точно так же, с конца пятидесятых годов XX века и практически до самого последнего времени создатели технологий машинного обучения (ML) не принимали во внимание возможность какой-либо угрозы. Однако и здесь она возникла, в данном случае со стороны Adversarial Machine Learning (AML) - боковой ветви ML, ставшей теоретической основой для разработки инструментов, способных создавать помехи в работе систем на основе ML. Термин Adversarial Machine Learning пока редко встречается в русскоязычных текстах, его переводят как «состязательное машинное обучение», но точнее для слова adversarial подходят значения из ряда антагонистическое, конфронтационное или противоборствующее, поэтому по аналогии с malware будем переводить его «вредоносным машинным обучением». Открытие теоретической возможности существования AML и первые публикации на эту тему относят к 2004 году. Историю AML и анализ текущего состояния дел можно найти в статье «Wild Patterns: Ten Years After the Rise of Adversarial Machine Learning» двух итальянских исследователей Battista Biggioa и Fabio Rolia, опубликованной в 2018 году^[1].

Adversarial Machine Learning - боковая ветвь Machine Learning, ставшая теоретической основой для разработки инструментов, способных создавать помехи в работе систем на основе машинного обучения

На протяжении первых десяти лет существования AML, то есть до того времени, пока системы на основе ML не получили заметного распространения, отношение к AML носило теоретический характер. Однако ситуация резко изменилась после того, как несколько лет назад Иан Гудфеллоу, вундеркинд из Стэнфордского университета, одним из первых публично заговорил о реальности атак на ML с использованием AML. Прочитанная им лекция, посвященная теории этого вопроса, выложена в Сети^[2], есть написанная им с соавторами статья «Explaining and harnessing adversarial examples»^[3].

Для перевода ее названия необходимо уточнить ключевой термин adversarial example. Аdversarial example (AE) есть ни что иное как собственно инструмент атаки, это он оказывает вредоносное воздействие на нейронную сеть с целью вызвать ошибки в ее поведении. Вредоносное воздействие AE является аналогом воздействию malware, но в приложении не к коду, а к ML.Открыта регистрация на конференцию Data Fusion 2025 5.5 т

Что такое AE проще всего пояснить на наиболее часто используемом примере систем из компьютерного зрения, где средствами AML удается вызвать оптические иллюзии. Это значит, что атакованная система «видит не то, что есть на самом деле». В статье Гудфеллоу приведен классический лабораторный случай, когда «подмешивание» специально созданного враждебного шума (Adversarial Noise) к исходному изображению панды, распознаваемому с вероятностью 57,7 %, приводит к распознаванию его же, но уже как гиббона и с более высокой вероятностью 99,3 %. Область действия AML не ограничена машинным зрением, она может затрагивать самые разные сферы применения ML, все, где приходится решать задачи распознавания (текст, звук …). Такими средствами можно обойти функцию Face ID в смартфоне iPhone X или иных биометрических средствах защиты.

Атакованная средствами AML система «видит не то, что есть на самом деле»

Существование AML, как антипода, помогает лучше понять природу ML. Очевидно, что технологии ML – это вовсе никакой не «искусственный интеллект», а всего лишь подход, являющийся альтернативой программированию, он более гибок в части передачи знаний компьютеру. Не более того. И, если программе, как простому (если не тривиальному) носителю знаний, может противодействовать другая программа, в которую программистом заложены свои собственные знания, то обучаемой ML вред может нанести только другая, но тоже обучаемая технология. Иначе говоря, против программы действует другая программа, а против системы на основе ML действует другая система на основе ML, называемая AML.

Для того, что атаковать, AML-система должна обладать сведениями о жертве, так называемыми «вредоносными знаниями» (Adversarial Knowledge, AK), то есть иметь представление о том, как готовятся и из каких источников берутся данные для обучение, каковы эти данные, каковы основные функции атакуемой системы, по каким алгоритмам она работает, каковы результаты и т.д. Знания об объекте нападения AK определяют возможную стратегию атаки. Все AML-атаки удается разделить на два типа – отравляющие (poisoning) и искажающие (evasion). Отравляющие атаки нацелены на процесс обучения модели, а искажающие атаки нарушают функционирование ранее обученной модели, уже встроенной в ту или иную систему. В том и другом случае для создания соответствующего оружия в форме AE требуется получить AK и противопоставить их знаниям, полученным в процессе обычного ML. То есть одни знания выступают против других знаний. Если воспользоваться терминологией, принятой специалистами по информационной безопасности, то для отравляющих атак больше подходит стратегия «белого ящика», а искажающих – «черного ящика», хотя одно и не исключает другого.

Лица, осуществляющие отравляющую атаку, стремятся получить доступ к данными и процессу обучения модели с тем, чтобы ее отравить, и чтобы в последующем она проявила себя неадекватно. С этой целью они могут использовать различие сетевые средства проникновения и деформации. Целью искажающих атак является неадекватное поведение уже готового продукта со встроенной в него моделью, созданной средствами ML. Если злоумышленник получает доступ к такому продукту, то он может рассматривать его в большей мере как черный ящик, выясняя его характеристики и не вникая в его устройство.

Усилиями маркетологов в качестве объекта искажающей атаки обычно рассматривают автомобили-беспилотники, хотя и все другие устройства в равной мере могут стать жертвами. Атака начинается с момента, когда автомобиль становится доступен для злоумышленников, использующих AML. Их действия относят к так называемой обратной разработке (реверс-инжинирингу). В данном случае под реверс-инжинирингом понимается исследование обученной модели и выявление ее уязвимостей. Для анализа поведения подсистемы машинного зрения автомобиля на ее вход могут в огромном количестве подаваться слегка видоизмененные изображения дорожных знаков. Модель не идеальна, рано или поздно удается найти слабые места и использовать их во зло. Как показывают эксперименты, проведенные в Принстонском университете, когда свойства модели изучены, достаточно нанести несложные искажения на знак ограничения скорости, чтобы система восприняла его как знак обязательной остановки. Легко представить себе к чему приведет внезапное торможение на шоссе. Эти процедуры детально описаны в статье «Введение в заблуждение автономных автомобилей зараженными знаками»^[4].

Факт существования таких угроз вызвал незамедлительную реакцию многих вендоров. Компания Nvidia, работающая в сотрудничестве с Mercedes-Benz опубликовала отчет SELF-DRIVING SAFETY REPORT 2018,^[5] в котором описаны прилагаемые ею инфраструктурные решения для защиты автомобилей. Компании, специализирующиеся на безопасности самолетов, предлагают распространить на автомобили разработанные ими технологии, например Communication Lockdown (Блокировка коммуникаций), которой комплектуются строящиеся по заказу истребители Израиля F-35I и F-16I.

Однако, на нынешнем уровне развития не существует каких-либо готовых теоретических подходов для создания средств противодействия искажающим атакам, поэтому потенциальные угрозы с их стороны остаются важнейшим тормозом на пути дальнейшего распространения автономных автомобилей. Об этом говорила профессор Массачусетского Технологического Института (МТИ) Дан Сонг 25 марта 2019 года в своем выступлении на конференции EmTech Digital, прошедшей в Сан-Франциско^[6].