Содержание |
Основная статья: Генеративный искусственный интеллект
2018
ИИ от Nvidia создает изображения человеческих лиц, на 100% похожих на реальные
В декабре 2018 года специалисты Nvidia Теро Каррас (Tero Karras), Самули Лэйн (Samuli Laine) и Тимо Айла (Timo Aila) опубликовали документ и сопроводительный видеоролик, демонстрирующий, на что способен их искусственный интеллект при создании человеческих лиц.
Документ, опубликованный в arXiv, описывает новую архитектуру для создания и смешивания изображений, в частности человеческих лиц, которая «дает лучшие интерполяционные свойства, а также лучше считывает скрытые вариации».
Это означает, что система более осведомлена о важных отличиях между изображениями и разных масштабах. Например, предыдущая система могла создать два «непохожих» лица, которые по большей части были одинаковыми, за исключением того, что уши на одном были невидны, а рубашки были разного цвета. Это не отличительные черты, но система не знала, на каких именно деталях нужно сосредоточиться.Обзор российского рынка банковской цифровизации: импортозамещение, искусственный интеллект и собственные экосистемы
В новой архитектуре большое внимание уделено передаче стиля, когда важные стилистические аспекты, например, картины извлекаются и применяются для создания другого образа. В данном случае «стиль» - это не столько мазки или цветовое пространство, сколько композиция (по центру, взгляд влево или вправо и т. д.) и физические характеристики лица (оттенок кожи, веснушки, прическа). Черты также могут иметь разный масштаб. На детальном уровне это индивидуальные черты лица, на среднем уровне - общая композиция кадра, на высшем уровне - такие аспекты, как цветовая палитра. Внося изменения сразу на всех уровнях, система полностью меняет изображение, в то время как настройка только отдельных уровней может привести к изменению цвета волос или наличию веснушек или волос на лице.
Помимо лиц ИИ от Nvidia также способен генерировать изображения автомобилей, кошек и пейзажи, так как в их основе лежит во многом аналогичный алгоритм выделения черт низшего, среднего и высшего уровней.
Подход Nvidia направлен на создание генеративно-состязательной сети (GAN), где обучение происходит для создания совершенно новых изображений, которые имитируют появление реальных фотографий.[1][2]
Как зарождались генеративно-состязательные сети
В истории технологий известны многочленные прецеденты, когда выдающееся изобретение вопреки воле автора начинают использоваться во вред, причем существенно раньше, чем во благо. И это скорее правило, чем исключение. Причем, если прежде эта закономерность прослеживалась главным образом в военных приложениях, что давало повод политикам и генералам утверждать будто война двигатель прогресса, то сегодня, благодаря информационным технологиям, область действия подобного рода низкопробных приемов заметно расширилась.
Не составляют исключения алгоритмы генеративно-состязательных сетей (Generative adversarial network, GAN), которые радикально усилили потенциал машинного обучения. За несколько лет сети GAN стали предметом исследования большого числа научных коллективов, из чего следует, что получение практических результатов не за горами, но пока с опережающей скоростью распространяется извращенное использование GAN в форме deepfakes (глубокие фейки).
Средствами deepfakes можно порождать фальшивые изображения и видео, неотличимые от натуральных, и их помощью вызывать различного рода скандалы, вплоть до политических. Выражая свое неодобрение deepfakes, приходится признать, не будь этих технологий, трансформирующих физиономии политических лидеров и обнаженные тела кинозвезд, GAN оставались скрытыми в глубине академических и корпоративных исследований, результаты докладывались на научных конференциях и публиковались в специальных журналах.
Сети GAN возникли в результате инсайта, осенившего аспиранта Монреальского университета, «хорошего товарища», что следует из его фамилии Goodfellow, в 2014 году. Симптоматично, что случился этот инсайт в пивной, а, как известно, пивные играют особую роль в компьютерной истории. В Сан-Матео была такая, где собирались создатели первых ПК, члены Homebrew Computer Club.
Итак, сидя за кружкой пива в известном монреальском кабачке «Три пивоварни», приятели Яна Гудфеллоу (Ian Goodfellow) посетовали ему на сложности, которые у них возникли при попытках генерировать достоверные изображения человеческих лиц, картинки получались размытыми, а порой в них даже отсутствовали такие немаловажные детали, как глаза или уши. Чтобы улучшить качество, они планировали использовать информацию, полученную в результате статистического анализа огромного количества реальных фотографий. Гудфеллоу огорчил друзей, заметив, что им потребуются огромные вычислительные мощности, а значит ничего у них работать не будет. Он предложил идти другим путем, а именно, использовать вторую нейронную сеть с тем, чтобы «стравить» обе сети так, чтобы в диалоге они формировали изображения требуемого качества.
Друзья на слово не поверили, тогда, разозлившись, немедленно по возвращении домой, в ту же ночь Гудфеллоу придумал не имеющий аналогов алгоритм машинного обучения без учителя, получивший позже название «генеративно-состязательная сеть» (Generative adversarial network, GAN). В нем две сети работают в паре, одна генерирует образцы, а другая стремится отличить правильные образцы от неправильных. Далее в процессе совместного обучения достигается состояние равновесия, когда обе сети значительно улучшили качество картинки и теперь сгенерированные изображения могут выглядеть практически как настоящие.
Ключевая мысль, заложенная Гудфеллоу в GAN, заключается в том, что в них не одна, как принято, а сразу две сети тренируются на одном и том же наборе данных. Первую, называют генератором, она создает по возможности реалистичные изображения, в то время как вторая – дискриминатор сравнивает их с исходными и фильтрует неудачные. Полученные дискриминатором результаты далее используются для обучения генератора. Очень важно, чтобы усилия обеих сетей были сбалансированы. Такое единство креативного и критического начала очень типично для творческих партнеров, например, автор и редактор, художник и критик.
Можно сказать, что GAN добавила к распознавательным способностям машин еще способность, условно говоря, к воображению. Сети GAN переводят машинное обучение на новый уровень, сегодня сети обучаются с учителем (supervised learning) на колоссальном объеме учебных данных, а создание GAN стало серьезным шагом к обучению без учителя (unsupervised learning). В будущем автомобиль-робот сможет не просто анализировать текущую ситуацию и реагировать на нее, следуя указаниям заранее обученной сети, а еще плюс к тому самостоятельно накапливать знания в процессе движения и даже стоя на стоянке, черпая данные из сети.
Заметим, что в русскоязычных материалах, например в Википедии, процесс обучения назван «конкурентным». Это ни что иное, как перевод с точностью до наоборот. Concurrent не имеет ничего общего с конкуренцией, так называют нечто сходящиеся в точке, или имеющее общую точку, или пересекающееся в точке. Что же до слова adversarial, то его в данном контексте следует понимать как состязательный, по образу и подобию судебного процесса, где две стороны продуктивно противодействуют друг другу в процессе поиска истины.
Идея GAN, предложенная Гудфеллоу, была мгновенно подхвачена его близкими коллегами. Признанный авторитет в области машинного обучения Янн Лекун, ныне главный исследователь ИИ, работающий в Facebook, назвал GAN самой выдающейся идеей из предложенных в этой сфере за последние 20 лет. Через пару месяцев инсайта в пивной вышла статья группы сотрудников Монреальского университета[3], посвященная GAN. Она вызвала взрыв последующих исследований и стимулировала лавинообразный рост числа статей.
В итоге, как в сказке, за ночь аспирант превратился в культовую фигуру ИИ (AI celebrity), теперь его именуют GANfather (отец GAN), не взирая на его скромность и молодость.
Своим успехом Ян Гудфеллоу обязан не только яблоку, принявшему в данном случае форму пивной кружки, но и тому обстоятельству, что он работал на «малой родине» глубинного обучения, под непосредственным руководством Джошуа Бенджо, входящего наряду с Янном Лекуном, Эндрю Ыном и Джефри Хинтоном в состав руководства той самой «канадской мафии», которая совершила научный переворот в области машинного обучения, предложив deeplearning.
Сейчас Гудфеллоу процветает, работает в команде Google Brain, он все еще не пережил изменение своего статуса и больше всего его беспокоит то, что теперь основные усилия ему приходится тратить на борьбу со злонамеренным использованием GAN, в то числе и с deepfakes.
Уже сегодня GAN используют в крупнейших ядерных центрах для прогнозирования поведения частиц. Есть еще множество иных серьезных направлений, но на данный начальный момент популярны два:
- Улучшение качества изображений, что критично в тех случаях, когда сложно получить требуемое качество в процессе съемки, например в медицине (Photo-Realistic Single Image Super-Resolution).
- Создание изображений по текстовым описаниям (Text to Image Synthesis).
Технологии deepfakes представляют главную угрозу со стороны GAN, причем похоже, что в России кроме порно ничего не замечают, достаточно посмотреть такое, казалось бы, неглупое издание как Meduza.[4] Действительно, если сделать поиск в Яндексе, то в первую очередь вывалятся страницы со словом порно.
В США отношение к угрозам, создаваемым посредством GAN, куда более серьезное. Достаточно сказать, что издаваемый 160 лет журнал Atlantic, где, например, в 1945 году была опубликована одна из важнейших для компьютинга статья «As we may think» («Как мы можем думать») Ванневара Буша, откинулся на происходящее материалом «The End of Reality» («Конец реальности»). Это в известной степени философская статья, где автор размышляет о последствиях для общества факта потери документальных форм представления реальности. Фальшивые, но реалистичные видео (Fake-but-realistic video), запущенные в телевидение могут привести к непредсказуемым последствиям.[5]
О реальной опасности ложных новостей в 2016 году писала газета The New York Times.[6] Поддавшись ложному сообщению о подготовке к ядерной нападению со стороны Израиля, министр обороны Пакистана вполне серьезно в твиттере заявил о своей готовности нанести ракетно-ядерный удар по ничего не подозревавшей стране. Потом социальную сеть почистили, как говорится: «ложечки нашлись, но осадок остался».
На уровне Министерства обороны США борьбу со злонамеренным использование технологий машинного обучение возглавило агентство DARPA. В 2016 году оно открыло специальную программу MediFor, нацеленную на противодействие таким угрозам. Но, похоже на то, что она оказалась не слишком успешной. Нынешним летом DARPA проводит новый конкурс, а скорее мозговой штурм, AI fakery contest, куда приедут ведущие эксперты. Они будут создавать ролики, аудиозаписи и средства для обнаружения подделок. Но, по словам одного из участников, время упущено и пора начинать новую гонку вооружений.
Защита демократии определяет срочность, - сказал он. |
Примечания
- ↑ These face-generating systems are getting rather too creepily good for my liking
- ↑ A Style-Based Generator Architecture for Generative Adversarial Networks
- ↑ [1]
- ↑ Deepfakes: порно, в которое нейросеть добавляет лица знаменитостей. Его запрещают все крупные сервисы, даже PornHub
- ↑ The Era of Fake Video Begins
- ↑ MediFor