Оптимальный ИТ-мониторинг сегодня и в будущем: опыт ВТБ Лизинг
Растущие объемы цифровизации бизнеса предъявляют новые требования к устойчивости ИТ-систем, надежности и качеству их функционирования. Это утверждение в полной мере относится к компании ВТБ Лизинг: она активно внедряет электронные услуги, и это развитие требует специальных усилий для увеличения производительности и доступности корпоративных информационных систем. Решая эту задачу, специалисты компании эффективно комбинируют лучшие практики использования свободного ПО с собственной разработкой решений ИТ-мониторинга.
Содержание |
В лизинговой компании понимают, что растущая зависимость бизнес-процессов от информационных технологий требует усиления контроля за функционированием программно-аппаратных комплексов и информационных систем на всех «этажах» ИТ-среды - от инфраструктуры до приложений. Поэтому ИТ-департамент компании создает систему сквозного мониторинга, которая охватывает все уровни ИТ-систем: компьютерное «железо», системное ПО, прикладные программные системы, работающие на уровне бизнес-процессов. При этом контроль корпоративного цифрового пространства осуществляется исходя из требований максимальной гибкости мониторинговых механизмов – это отвечает потребностям постоянного наращивания цифровых активов, удобства для персонала и экономичности, с точки зрения затрат.
TAdviser расспросил ИТ-специалистов ВТБ Лизинг, чтобы узнать, какие методы применяет компания для создания эффективного многоуровневого ИТ-мониторинга.
Переход на новую архитектуру мониторинга ИТ-инфраструктуры
В прошлом году в ВТБ Лизинг общее количество узлов инфраструктуры, подлежащих мониторингу, – компьютерное и сетевое оборудование, виртуальные машины и даже многофункциональные устройства (МФУ) в офисах – превысило тысячу. Это стало своеобразной точкой перелома в развитии системы мониторинга, и дальнейшее добавление аппаратных ресурсов в связи с расширением перечня объектов мониторинга стало слишком затратным, рассказал Михаил Воронов, главный специалист отдела ИТ-инфраструктуры ВТБ Лизинг.
В этой ситуации было целесообразно перейти на более производительную архитектуру мониторинга, которая дает нам возможность эффективнее использовать уже имеющиеся мощности, а не приобретать дополнительные,- пояснил он. |
Новая архитектура мониторинга подразумевает, что помимо основного сервера, в каждом ЦОДе работают proxy-серверы, на которых дублируются базы данных мониторинга.
Даже если что-то случится с каналами передачи данных между ЦОДами, мы не потеряем данные по важным для нас метрикам, – подчеркивает Михаил Воронов. |
Кроме того, инфраструктурная часть мониторинга структурно отделена от мониторинга приложений.
Еще один важный элемент перехода к новой архитектуре мониторинга - миграция с СУБД Microsoft MySQL на отечественную СУБД Postgres. ИТ-специалисты ВТБ Лизинг отмечают в числе несомненных достоинств Postgres, помимо развитой функциональности, отличную документацию, большое количество качественных учебных курсов, а также хорошее глобальное сообщество разработчиков, что помогает быстро получать ответы на самые разные вопросы.«Трансформация 2.0». Опыт роста технологической зрелости ритейлера «Лента» представлен на TAdviser SummIT
Сегодня мониторинг охватывает все уровни инфраструктуры: «железо», гипервизоры, операционную систему, углубленный мониторинг базы данных и часть важных приложений, в первую очередь, CRM.
Для лучшего анализа проблем инфраструктура в системе мониторинга разделена на группы. Так, для различных сервисов выделена своя группа, а ИТ-среды разделены на тестовую, предпродуктовую и продуктовую. Отдельно выделены группы под СУБД: MS SQL, Oracle, Postgres.
Это разделение дает возможность гибко разграничить права сотрудников, у которых есть доступ к системе мониторинга, - отмечает Михаил Воронов. |
Отдельный раздел системы мониторинга занимается наблюдением за доменной инфраструктурой пользователей и почтовыми ящиками компании. Например, система мониторинга инфраструктуры следит, чтобы общекорпоративные почтовые ящики типа info@ или support@ не переполнялись, и при обнаружении такого риска происходит автоматическое оповещение ответственных сотрудников. Подобное автоматическое оповещение получают сотрудники ИТ-департамента в случае блокировки учетной записи пользователя и буквально в реальном времени начинают заниматься решением проблемы.
После того, как в рамках новой архитектуры были добавлены новые уровни мониторинга, мы стали гораздо быстрее находить проблемы и «узкие места» в инфраструктуре, быстрее исправлять замеченные недостатки. Значительно повысилась скорость реагирования на те или иные проблемы – это очень важно для бизнеса, - подчеркивает Михаил Воронов. |
Кроме того, сведения о проблемных точках в инфраструктуре поступают разработчикам ИТ-сервисов, и они используют эту информацию для того, чтобы еще на этапе разработки создать наиболее эффективное ПО.
Важнейший элемент системы мониторинга – метрики, то есть те сведения, которые система получает от узлов мониторинга. Чем больше метрик удается реализовать, тем более детальное и разностороннее представление о функционировании объекта мониторинга можно получить, а значит, более гибко и оперативно реагировать на изменения в доступности информационных систем.
По словам Михаила Воронова, всего в системе мониторинга ИТ-инфраструктуры ВТБ Лизинг реализовано более 150 тыс. различных метрик. Среди них есть достаточно простые, например, время работы сервера с момента включения или доступность узла сети. Есть и достаточно сложные метрики, требующие для своей реализации подготовки специальных скриптов. Как рассказывает Михаил Воронов, нередко инициаторами разработки таких метрик являются сотрудники, ответственные за те или иные участки ИТ-систем. Например, администратор базы данных может попросить создать специальную метрику, которая позволит ему оценить механизм получения данных от приложения до базы данных. А разработчику веб-сервера будут полезны сведения о статистике ошибок тех или иных типов.
Функционал мониторинга доступности прикладных программных систем в рамках новой архитектуры выделен в отдельную подсистему мониторинга. Это позволило ИТ-департаменту ВТБ Лизинг реализовать централизованную работу мониторингового ПО с различными прикладными системами. При этом включение новой информационной системы в «периметр» мониторинга происходит очень легко.
Особо важное направление – мониторинг доступности приложений
Этому направлению ИТ-департамент ВТБ Лизинг уделяет особое внимание, ведь проблема с доступностью прикладной системы является, по сути, проблемой для бизнеса.
Традиционный мониторинг качества ИТ-сервисов обычно предполагает регистрацию обращений пользователей по поводу замеченных проблем первой линией техподдержки. При этом эффективность последующих действий зависит от времени реакции разработчиков. В компании ВТБ Лизинг решили не доводить ситуацию до такой стадии, когда проблемы становятся заметны бизнес-пользователям.
Мониторинг приложений нужен для того, чтобы мы могли замечать инциденты еще до того, как их заметит пользователь, - рассказывает Тимофей Баканов, ведущий специалист по направлению автоматизации тестирования ВТБ Лизинг. - В этом смысле мониторинг подобен датчику дыма: он показывает, что пожар уже разгорается, но еще можно решить проблему до того, как огонь заметят пользователи. |
Система мониторинга приложений реализована в компании в формате синтетического мониторинга. Это подразумевает проверку доступности с помощью набора интерфейсных UI-роботов, повторяющих действия человека, но непрерывно, 24 часа в сутки. Фактически это автотесты, которые выполняют действия пользователя системы и тестируют определенные аспекты программного обеспечения. Для их разработки используется стандартный и понятный большинству автоматизаторов программный стек Java + Selenium. Однако при написании автотестов для мониторинга доступности требуется очень тщательная проработка их структуры, ведь тесты должны «ходить» со 100% стабильностью и не допускать ложных срабатываний, подчеркивают в ИТ-департаменте ВТБ Лизинг.
Идеальное сочетание: open source + собственная разработка
Для графического отображения результатов автотестов приложений используется свободное ПО (СПО) Grafana - open source продукт, который позволяет проводить анализ полученных данных. А для мониторинга ИТ-инфраструктуры выбрано свободное ПО Zabbix – этот продукт полностью удовлетворяет высоким корпоративным требованиям по нескольким ключевым параметрам. Во-первых, это развитая функциональность продукта: помимо собственно мониторинга, данное решение поддерживает инвентаризацию ИТ-систем, отчетность, а также обеспечивает возможность расчета параметра уровня обслуживания (SLA). Во-вторых, компании требовалась высокая гибкость настроек мониторинга и системы уведомлений. При этом само решение бесплатное, на коммерческих условиях предоставляются только услуги техподдержки. Однако благодаря мощному глобальному сообществу пользователей Zabbix большую часть возникающих технических вопросов удается разрешить без обращения в официальную поддержку вендора.
Сегодня под управлением продукта мониторинга Zabbix работает внушительная инфраструктура ВТБ Лизинг на базе трех ЦОДов, охватывающая филиалы компании не только в различных городах России (их сегодня более 60), но и за рубежом: в Белоруссии, Ирландии и на Кипре.
А вот для критически важного для повседневной работы бизнеса направления мониторинга приложений сотрудники ИТ-департамента пишут соответствующее ПО сами. Ведь только таким образом можно достичь тщательности проработки автотестов, которая обеспечивает их бесперебойную круглосуточную работу при любых изменениях в корпоративной ИТ-среде.
Например, критически важная часть синтетического мониторинга доступности приложений – единый интерфейс прикладного программирования (API) для приема данных от тестов. Это ПО собственной разработки, написанное на языке Python.
Этот интерфейс выполняет роль единой точки входа в базу данных мониторинга: в тот момент, когда тот или иной автотест собирается передать свои данные в базу данных мониторинга, он проверяет корректность новых данных. Ведь если в базу запишутся некорректные данные, содержимое всей базы может быть испорчено, а это очень опасно.
Еще один важнейший программный модуль, написанный для мониторинга приложений,- сервис расчета процента доступности приложения (доля от 100% - абсолютной доступности). Он не только производит сам расчет, но и передает данные для наглядного отображения процентов доступности в ПО Grafana, в которой такой функциональности изначально не предусмотрено. Если процент доступности приближается к некоторому пороговому значению, которое определено как риск снижения доступности приложения для бизнес-пользователей, специальный Telegram-бот автоматически отсылает оповещение о событии всем сотрудникам, подписанным на мониторинг данного сервиса.
Теперь мы действуем проактивно: в большинстве случаев бизнес-пользователь из нашей компании не наткнется на неработающий сервис, так как мы уже знаем, что у сервиса возникли проблемы, и успеваем его починить, - подчеркивает Тимофей Баканов и резюмирует: Лучшее обращение в техподдержку – это несозданное обращение. |
По словам Тимофея Баканова, при создании модуля расчета доступности приложения ИТ-департамент сразу заложил требование высокой гибкости: «Его легко модифицировать, например, добавлять некоторые правила, меняющие логику расчета». Скажем, однажды обнаружилось, что автотесты показывают нулевую доступность. А причина была в том, что в это время производилось официальное обновление соответствующего ПО и, конечно, прикладная система была недоступна для пользователей. Буквально за несколько часов в логику расчета была добавлена возможность учитывать технологические «окна», во время которых приложение недоступно на 100%, но это не является риском, на который необходимо реагировать.
Сегодня для проверки доступности приложений используются порядка 65 автотестов, и это количество постоянно растет. Причем, каждый из них работает на двух машинах: если один из серверов с тестами выйдет из строя, то второй продолжит мониторинг. Поскольку тестирование происходит круглосуточно, причем в рабочей среде, такой уровень ответственности предъявляет нетривиальные требования к качеству разработки автотестов. В этих условиях наиболее оптимальный подход к их разработке и совершенствованию – собственная команда разработчиков.
Больше тестов, хороших и разных
В ИТ-департаменте ВТБ Лизинг направление мониторинга доступности приложений находится в фазе активного развития. Например, недавно добавлена функция, отображающая количество ложных срабатываний тестов в сутки. Предполагается усложнение функционала мониторинга для дальнейшего повышения эффективности информационных систем компании.
В свою очередь, увеличение количества и усложнение автотестов сказывается на производительности системы мониторинга. Поэтому сегодня сотрудники ИТ-департамента работают над задачей ускорения мониторинга.
Возможно, это будет асинхронный код для каждого сервиса, либо сервис расчета для каждого приложения будет производиться в отдельном docker-контейнере, – делится соображениями Тимофей Баканов. |
И, конечно, к автотестированию будут подключаться новые информационные сервисы и системы. Сегодня основной ИТ-сервис, чью доступность постоянно измеряют программные инструменты, - CRM. Но уже идет работа над углубленным мониторингом учетной системы 1С.
В перспективе мы хотим мониторить весь наш ИТ-ландшафт и все информационные системы,- отмечает Тимофей Баканов. |
Это, в свою очередь, открывает новые перспективы использования данных системы мониторинга. Например, можно вводить метрики для оценки качества работы сотрудников над тем или иным сервисом и формировать на их основе систему поощрений.
Тогда ИТ-специалисты будут реально заинтересованы в том, чтобы повысить доступность, например, приложения CRM с нынешних 96,6% до, скажем, 99,5%, - поясняет Тимофей Баканов. |
Это будет означать, что прикладные системы ВТБ Лизинг практически не допускают простоев даже минимального масштаба, незаметного обычным бизнес-пользователям. Так мечты об идеальной работоспособности информационных систем становятся реальностью.