В «облаке» VMware произошел серьезный сбой

width:200px

03.05.11, Вт, 17:21, Мск,

Недавно стартовавший облачный сервис Cloud Foundry от компании VMware постигла судьба «облака» Amazon – человеческий фактор привел к двухдневному простою. Компания вышла на этот рынок впервые и сразу перенесла хорошую встряску.

Попытка VMware восстановиться после выхода из строя нового сервиса облачных вычислений на следующий день вызвала второе отключение, сообщила компания.

Новый облачный сервис Cloud Foundry, который все еще находится в режиме бета-тестирования, на прошедшей неделе пострадал от двухдневного простоя вскоре после получившего более широкую огласку отключения Elastic Compute Cloud компании Amazon.

Сервис Cloud Foundry - платформа-как-услуга, предлагает разработчикам создавать и размещать веб-приложения. Запуск сервиса был анонсирован 12 апреля, а остановлен - в результате «сбоев в работе сервиса» 25 и 26 апреля.

Первый инцидент простоя был вызван отключением электроэнергии в помещении хранилища. Приложения продолжали работать, но разработчики не могли исполнять основные задачи, такие как регистрация в приложении или создание новых приложений. Отключение продолжалось около 10 часов, и было устранено во второй половине дня. Однако днем позже сотрудники VMware при разработке плана раннего обнаружения и предотвращения проблем подобных тем, что обрушились на сервис днем ранее, случайно вызвали второе отключение.

Представитель VMware Декел Танкел (Dekel Tankel) пояснил, что отключение электроэнергии 25 апреля - «то, что может произойти, и будет происходить время от времени». По его словам, VMware должна гарантировать устойчивость ее программного обеспечения, систем мониторинга и оперативного применения для предотвращения сбоев в подаче электроэнергии и работы клиентских систем в автономном режиме.Игорь Лейпи, ГК Softline: Объем поставок российских операционных систем в ближайшие годы увеличится как минимум вдвое

С этими намерениями на следующий день VMware начала разработку «полной оперативной схемы раннего выявления, профилактики и восстановления». «26 апреля в 8 утра работа началась с четкого указания - к полудню разработать схему наших официальных мероприятий и планов инженерной группы, - сказал Танкел. - Это должно быть только на бумаге до рассмотрения плана, без исполнения сценариев. К сожалению, в 10:15 один из дежурных инженеров, разрабатывающих схему, взялся за клавиатуру. Это привело к полному выходу из строя сетевой инфраструктуры, работающей на подступах к Cloud Foundry».

Это событие захватило все системы балансировки нагрузки, маршрутизаторы и межсетевые экраны, вызвало частичное отключение внутренней инфраструктуры DNS, а также привело к полной потере внешнего подключения к сервису Cloud Foundry.

Второй день отключения был более тяжелым. «Это было наше первое тотальное отключение, на время которого мы вынуждены были выдать страницу о проведении мероприятий по восстановлению, - отметил Танкел. – Во время этого отключения все приложения и компоненты систем продолжали работать. Однако сеть фронт-энд интерфейсов упала, а мы были единственными, кто знал – система продолжает работать. К 11:30 работоспособность этого сегмента была полностью восстановлена».

Происшествие второго дня с сервисом VMware является иллюстрацией влияния фактора человека в облачных сетях. В случае с Amazon, ошибки, сделанные в ходе обновления системы, привели к неприятностям, на устранение которых потребовалось несколько дней.

VMware, более известная своими технологиями виртуализации серверов, является новым игроком на рынке предоставления общедоступных облачных сервисов. Ранее VMware продавала технологии, с помощью которых клиенты и поставщики услуг могут создавать свои собственные «облака».

Cloud Foundry новая платформа, и влияние упомянутых событий на клиентов не было столь значительным, как случившееся с Amazon, чье отключение вывело в оффлайн множество сайтов, увязанных на инфраструктуру сервисов провайдера. Но зато VMware вкусила, каково это - быть провайдером сервисов, когда дела идут плохо.