2020/06/30 10:20:02

Чек-лист:
Что должна включать система мониторинга ИТ-инфраструктуры?


Содержание

Большинство процессов в бизнесе сейчас опирается на приложения и ИТ-инфраструктуру. В этом фундаменте могут быть слабые места. Находить их, устранять и тем самым предотвращать потерю денег и репутации помогает мониторинг. Пошаговый план действий, как правильно организовать такой процесс, мы составили вместе с Алексеем Акопяном, руководителем направления мониторинга «Инфосистемы Джет».

Подготовка

Без системы мониторинга поиск причины плохо работающего сервиса напоминает блуждание в темной комнате. Перед ее внедрением следует:

Осознать необходимость использования систем мониторинга

«
Логистическая компания мигрировала с одной платформы на другую, а в результате «пострадал» портал для заказа услуг. Клиенты оформляли контейнерные перевозки, но заказы слетали. Поиск проблемы зашел в тупик. Задействовано было несколько подрядчиков, и никто из них не брал на себя ответственность за случившееся. После внедрения системы мониторинга был разработан сценарий синтетических тестов, эмулирующих типовые действия пользователя на портале при заказе услуги, и информативный dashboard для вывода результатов тестов. Мы видели, как обрабатывался каждый шаг этого сценария, где он «зависал» – регулярно подтормаживала отправка данных в платежную систему. Так нам удалось сузить круг поиска проблемы. В итоге вскрылось несколько существенных изъянов, и заказчик потребовал от подрядчика доработать портал, предъявив объективные доказательства проблемы.
Алексей Акопян, руководитель направления мониторинга «Инфосистемы Джет»
»

Проанализировать процессы компании

Система строится от бизнес-сервиса, иначе она лишь фиксирует факт «пожара» на ограниченном участке, но не показывает причины и результатов сбоя.

«
Отсутствие сервисного подхода – одна из самых критичных ошибок. Без него тот или иной компонент ИТ-инфраструктуры рассматривается сам по себе, в отрыве от бизнес-функции, которую он поддерживает, – поясняет Алексей Акопян. – Более действенно, если система мониторинга строится от бизнес-сервиса. Например, компания хочет понимать, как работает ее документооборот или финансовое приложение. Тогда, опираясь на структуру сервиса, система мониторинга «покрывает» компоненты ИТ-инфраструктуры, поддерживающее эти сервисы, отслеживает их доступность и качество.
»

Разработать архитектуру

Оптимальное решение должно учитывать: Геораспределенность инфраструктуры, Количество и типы целевых объектов, Число пользователей системы и их роли, Объем, частоту сбора и длительность хранения входных данных.

«
При создании системы мониторинга используется золотое врачебное правило «Не навреди». Порой данные собираются с помощью специализированных агентов, устанавливаемых на объекты мониторинга. Важно контролировать дополнительную нагрузку, которую агенты оказывают на «поднадзорную» систему, их оптимальная настройка требует особого внимания, – подчеркивает Алексей Акопян. – У некоторых решений мониторинга есть встроенные механизмы защиты от перегрузки: агенты выключаются, если начинают потреблять больше ресурсов, чем определено лимитом.
»

Подготовить физическую инфраструктуру

Ошибка в этом может привести к тому, что львиная доля усилий потом будет посвящена оптимизации системы мониторинга, а не настройке ее функционала.

«
В проектах часто мы имеем дело с оборудованием, которое не «умеет» отдавать данные для мониторинга по стандартным протоколам. Например, устаревшие телефонные станции или инженерное оборудование, – рассказывает Алексей Акопян. – Это требует доработки и иногда установки дополнительного оборудования: физических конвертеров или специализированных контроллеров.
»

Подготовить системы сбора данных

Система мониторинга должна иметь широкие возможности по сбору данных: специализированные агенты, стандартный набор протоколов взаимодействия, открытый API. Особое внимание нужно обратить на тип базы данных для хранения данных мониторинга. База данных может быть: классическая реляционная; база данных временных рядов (по сути это ответ вендоров на все возрастающий объем обрабатываемых метрик); их комбинация.

«
Самое главное – отказаться от практики «давайте мониторить все, собирать максимальное число метрик, а потом отсечем ненужное», – рекомендует Алексей Акопян. – Лучше изначально продумать, какая информация от мониторинга будет пригодна, а что только создаст шум.
»

Представить структуру сервиса

Его можно разложить на компоненты и воплотить графически – приложения front-end, back-end, базы данных и пр.

Пример визуализации сервисной модели

Поставить триггеры

Желательно поставить триггеры на каждый из элементов и посмотреть, как компоненты влияют друг на друга. Это поможет понять взаимосвязь компонентов сервиса, и система сама будет определять важность того или иного события. Например, если упал веб-сервер, но он зарезервирован и в целом сервис не пострадал, то нет смысла генерировать инцидент с высоким приоритетом.

Выбор решения

Компании часто поддаются соблазну решить задачу мониторинга ИТ-инфраструктуры, внедрив определенный ИТ-инструмент. Но это не гарантирует предотвращения чрезвычайных ситуаций. Универсальных инструментов, которые выявили бы настоящие и потенциальные проблемы, к сожалению, не существует.

На выбор решения влияют:

Задачи мониторинга и специфика бизнеса Решения класса Application Performance Monitoring (APM) подойдут компаниям, которые в основном используют интерактивные инструменты взаимодействия с клиентами (порталы, мобильные приложения) — им важно находить проблемы в многокомпонентных приложениях на уровне транзакций и видеть зависимость между состоянием ИТ-инфраструктуры и производительностью работы приложений. Решение класса AIOps будет востребовано в том случае, если компания уже инвестировала в системы мониторинга и теперь захлебывается от потока некоррелированных событий. Ей нужна единая точка агрегации всех событий и с помощью алгоритмов машинного обучения система быстро выявит основные причины аварий.

Структура собственности бизнеса

Государственные и окологосударственные компании, для которых актуальна тема импортозамещения, выбирают решения на открытых программных платформах.

Возможности системы мониторинга

Сегодня от систем мониторинга можно ожидать: Постоянное увеличение количества обрабатываемых метрик. Использование динамического baseline: оно позволяет системе накапливать данные по тем или иным метрикам и определять для них нормальное поведение на основе статистики, учитывая фактор сезонности.

Пример динамического baseline

Использование машинного обучения и искусственного интеллекта: системы мониторинга «учатся» автоматически строить взаимосвязи между событиями, отсекать ненужные «шумы», определять возможные причины; в итоге значительно сокращается время поиска проблемы и ее локализации. Применение предиктивной аналитики: например, если наблюдается постоянное повышение утилизации процессора, функция прогнозирования покажет, что через неделю утилизация достигнет 100%, и в этом месте мы получим проблему – проактивный подход к мониторингу предотвращает многие инциденты.

Пример визуализации топологии приложения.

Бюджет Но его размер не должен быть решающим фактором.

«
Правильнее рассматривать несколько вариантов, проверяя их на пилотных проектах и оценивая не набор функциональности, а ценность для бизнеса, – рекомендует Алексей Акопян. – В моей практике были случаи, когда после такого «тест-драйва» заказчики инициировали проекты с бо́льшими бюджетами, чем предполагалось.
»

Внедрение

Для успешного внедрения важно:

Интегрировать систему мониторинга в процессы компании

Она должна быть синхронизирована с системами учета оборудования, управления инцидентами и «обвязана» соответствующими регламентами. Выявленные системой мониторинга слабые стороны ИТ-инфраструктуры должны регистрироваться как инциденты в Service Desk и прорабатываться.

Разбить проект на небольшие этапы

Когда реализация сложных проектов затягивается, усталость от ожидания наступает раньше, чем удается увидеть итог. Поэтому лучше нацеливаться на быстрые результаты – quick wins, определив законченные этапы внедрения.

Настроить нотификации

Система мониторинга обязана адресно сигнализировать о какой-либо проблеме, например, в Telegram, с помощью SMS, электронной почты и пр.

Подключить визуализацию

Бизнесу не интересно разбираться в массивных отчетах, данные должны быть представлены информативно и эстетично, в интуитивно понятном интерфейсе.

Настроить веб-интерфейс

Толстые клиенты проигрывают: они ограничены по своей гибкости и функциональности. И в целом смотрятся как атавизм.

Постоянно совершенствовать систему

После внедрения все изменения в инфраструктуре должны постоянно отражаться в правилах и схемах мониторинга. Только при таком подходе компания будет защищена от потери денег из-за сбоев ИТ-инфраструктуры.