Попытка VMware восстановиться после выхода из строя нового сервиса облачных вычислений на следующий день вызвала второе отключение, сообщила компания.
Новый облачный сервис Cloud Foundry, который все еще находится в режиме бета-тестирования, на прошедшей неделе пострадал от двухдневного простоя вскоре после получившего более широкую огласку отключения Elastic Compute Cloud компании Amazon.
Сервис Cloud Foundry - платформа-как-услуга, предлагает разработчикам создавать и размещать веб-приложения. Запуск сервиса был анонсирован 12 апреля, а остановлен - в результате «сбоев в работе сервиса» 25 и 26 апреля.
Первый инцидент простоя был вызван отключением электроэнергии в помещении хранилища. Приложения продолжали работать, но разработчики не могли исполнять основные задачи, такие как регистрация в приложении или создание новых приложений. Отключение продолжалось около 10 часов, и было устранено во второй половине дня. Однако днем позже сотрудники VMware при разработке плана раннего обнаружения и предотвращения проблем подобных тем, что обрушились на сервис днем ранее, случайно вызвали второе отключение.
Представитель VMware Декел Танкел (Dekel Tankel) пояснил, что отключение электроэнергии 25 апреля - «то, что может произойти, и будет происходить время от времени». По его словам, VMware должна гарантировать устойчивость ее программного обеспечения, систем мониторинга и оперативного применения для предотвращения сбоев в подаче электроэнергии и работы клиентских систем в автономном режиме.Игорь Лейпи, ГК Softline: Объем поставок российских операционных систем в ближайшие годы увеличится как минимум вдвое
С этими намерениями на следующий день VMware начала разработку «полной оперативной схемы раннего выявления, профилактики и восстановления». «26 апреля в 8 утра работа началась с четкого указания - к полудню разработать схему наших официальных мероприятий и планов инженерной группы, - сказал Танкел. - Это должно быть только на бумаге до рассмотрения плана, без исполнения сценариев. К сожалению, в 10:15 один из дежурных инженеров, разрабатывающих схему, взялся за клавиатуру. Это привело к полному выходу из строя сетевой инфраструктуры, работающей на подступах к Cloud Foundry».
Это событие захватило все системы балансировки нагрузки, маршрутизаторы и межсетевые экраны, вызвало частичное отключение внутренней инфраструктуры DNS, а также привело к полной потере внешнего подключения к сервису Cloud Foundry.
Второй день отключения был более тяжелым. «Это было наше первое тотальное отключение, на время которого мы вынуждены были выдать страницу о проведении мероприятий по восстановлению, - отметил Танкел. – Во время этого отключения все приложения и компоненты систем продолжали работать. Однако сеть фронт-энд интерфейсов упала, а мы были единственными, кто знал – система продолжает работать. К 11:30 работоспособность этого сегмента была полностью восстановлена».
Происшествие второго дня с сервисом VMware является иллюстрацией влияния фактора человека в облачных сетях. В случае с Amazon, ошибки, сделанные в ходе обновления системы, привели к неприятностям, на устранение которых потребовалось несколько дней.
VMware, более известная своими технологиями виртуализации серверов, является новым игроком на рынке предоставления общедоступных облачных сервисов. Ранее VMware продавала технологии, с помощью которых клиенты и поставщики услуг могут создавать свои собственные «облака».
Cloud Foundry новая платформа, и влияние упомянутых событий на клиентов не было столь значительным, как случившееся с Amazon, чье отключение вывело в оффлайн множество сайтов, увязанных на инфраструктуру сервисов провайдера. Но зато VMware вкусила, каково это - быть провайдером сервисов, когда дела идут плохо.