Александр Виноградов, VK Tech: Data Mesh и LakeHouse позволяют лучше справляться с растущими объемами и разнообразием данных
В интервью TAdviser Александр Виноградов, директор направления сервисов по работе с данными в VK Data Platform и VK Cloud, рассказал о запуске платформы данных от VK Tech и о том, почему это решение необходимо рынку и переходе на экономику данных.
Виноградов
На днях VK Tech запустила новый продукт — VK Data Platform. Расскажите, что представляет собой новая платформа и чем она отличается от других аналогичных продуктов на рынке?
Александр Виноградов: VK Data Platform — это комплексное решение, которое позволяет закрыть полный цикл работы с данными: от хранения и обработки данных до решения аналитических задач и процесса разработки моделей машинного обучения.
Важным преимуществом VK Data Platform является возможность развернуть любую требуемую конфигурацию программного обеспечения и вычислительных ресурсов из шаблона с помощью простого интерфейса. Дальше система сама следит за производительностью и отказоустойчивостью в рамках SLA. В отличие от аналогичных продуктов, мы разворачиваем не просто базы данных или отдельные инструменты, а комплексы программного обеспечения, уже преднастроенные и интегрированные друг с другом.
Платформа автоматизирует управление инфраструктурой данных и программным обеспечением, что позволяет сократить операционные расходы и TCO. При этом VK Data Platform можно запустить на любой инфраструктуре: в публичных и частных облаках, а также на собственных серверах компании. Основные компоненты платформы также доступны в VK Cloud как готовые сервисы: Cloud Storage (S3-хранилище), Cloud Kafka, Cloud Spark, Cloud Flink, Cloud ML Platform и другие.
Как появилась VK Data Platform? Какие технологии легли в ее основу?
Александр Виноградов: История создания VK Data Platform начинается с нашей работы над Tarantool — системой, разработанной 15 лет назад для работы с OLTP-нагрузками. Tarantool показал свою эффективность во внутренних проектах VK, а затем де-факто стал индустриальным стандартом в банках, крупном ритейле и телекоммуникациях. Tarantool помогает объединять данные из разных систем в «Альфа-Банке», внедрять кэш для горячих данных объемом от 2 ТБайт для ВТБ, ускоряет сервисы «Мегафона» и «Газпромбанка».
Разработка S3-совместимого объектного хранилища на базе Tarantool стала следующим важным этапом. Мы заметили, что люди начали отходить от использования Hadoop-стека и применения различного рода MapReduce-систем в пользу S3-хранилищ. Это позволило хранить данные в более гибкой и масштабируемой среде. Данные становились все более гетерогенными, и их нужно было сгружать в единое экономически эффективное хранилище. Эта идея стоит в основе архитектурных паттернов Data Lake и LakeHouse, которые значительно повлияли на итоговый образ VK Data Platform. На текущий момент в облаке в S3-хранилище клиенты VK Cloud хранят более 39 петабайт данных, а среднее количество запросов к хранилищу — до 20 000 в секунду.
Второй слой, который мы назвали Data Fabric, позволяет нативно обращаться к хранилищу для работы с метаданными и улучшения качества данных. Это делает доступными такие процессы, как каталогизация данных, Data Quality, Data Lineage.
Отдельно стоит выделить инструментарий для эффективной разработки и обучения моделей машинного обучения — MLOps-сервисы на базе MLflow, а также интерфейсы Jupyter-ноутбуков. MLOps-направление уже несколько лет развивается как сервис Cloud ML Platform в облаке VK Cloud.
Третий слой — Data Reflector — включает в себя BI и другие бизнес-ориентированные сервисы. В дальнейшем мы добавим инструменты Cognitive Intelligence, с помощью которых можно запрашивать аналитические отчеты на естественном языке.
Из обсуждений с заказчиками стало ясно, что нужен единый слой управления платформой. Мы решили организовать его на Kubernetes, так как это наиболее популярное на российском рынке решение и у нас уже был большой опыт развития технологии в рамках VK Cloud. В итоге у нас появились оркестратор, мониторинг, инструменты бэкапирования и единый интерфейс для управления всеми базами данных, инструментами, пользователями и ролевая модель доступа.
Почему вы решили выбрать подходы Data Mesh и LakeHouse?
Александр Виноградов: Эти подходы позволяют лучше справляться с растущими объемами и разнообразием данных. Ранее данные хранились в монолитных системах, таких как Oracle, что создавало сложности. Data Mesh позволяет децентрализовать управление данными, предоставляя больше гибкости и масштабируемости. Это особенно важно для крупных организаций с разветвленной структурой, где данные принадлежат разным департаментам и требуют гибкого управления. LakeHouse обеспечивает структурированное хранение больших объемов данных, что делает их доступными для анализа и обработки.
Какие отрасли вы видите основными пользователями VK Data Platform и как платформа адаптирована под их нужды?
Александр Виноградов: Основные пользователи VK Data Platform — это предприятия из отраслей, где бизнес-процессы завязаны на данных: ритейл, телекоммуникации, финансовые организации, банки, транспортные и логистические компании, некоторые отрасли промышленности. Платформа помогает снизить операционные расходы и упрощает работу с большими объемами данных. Она обеспечивает высокую операционную эффективность для команд ML и Data Science.
Ключевые характеристики — необходимость принимать решения на основе данных, множество гетерогенных данных и необходимость снижения операционных расходов. Также важную роль играет наличие высоких нагрузок — например, в антифрод-кейсах, real-time-рекомендательных системах и потоковой аналитике.
Как вы оцениваете рынок решений для работы с данными?
Александр Виноградов: По прогнозу Центра стратегических разработок, рынок решений для работы с данными к 2030 году вырастет почти в 3,5 раза, достигнув более 234 млрд рублей. К 2027 году объем рынка составит 170 млрд рублей. Экспоненциальный рост обусловлен увеличением объемов данных и развитием технологий машинного обучения и искусственного интеллекта. Ожидается также ускоренный рост доли отечественных вендоров за счет перехода российских компаний с зарубежного ПО. Значимый стимул для развития рынка дает фокусировка на переходе к экономике данных.
Если переложить определение экономика данных в практическую плоскость, что она дает бизнесу?
Александр Виноградов: Экономика данных — интересное явление. Это парадигма, в которой технологические компании, такие как VK, живут не первый год. Основная идея в том, что извлекать дополнительную бизнес-ценность можно практически из любого процесса, если у компании есть оцифрованные данные, которые она умеет правильно хранить, обрабатывать, анализировать и интерпретировать.
Экономический эффект этого подхода выражается по-разному: это может быть сокращение затрат, повышение эффективности труда и работы информационных систем, полезные аналитические инсайты для запуска новых каналов продаж, бизнес-моделей и моделей монетизации. Предполагается, что при переходе в эту парадигму бизнес уже прошел два важных этапа технологического развития.
Какие этапы необходимо пройти для того, чтобы перейти к экономике данных?
Александр Виноградов: Первый — сбор и оцифровка данных. Компания должна хорошо понимать, какими источниками данных располагает, почему их нужно собирать, и должна иметь хотя бы базовую инфраструктуру хранения. На этом этапе, как правило, поиск, подготовка и анализ проводятся вручную или с минимальной автоматизацией. Большинство крупных российских компаний уже прошли эту стадию.
Второй этап — в компании уже есть аналитический отдел, она применяет классические инструменты машинного обучения, топ-менеджмент видит красивые дашборды в BI. Многие процессы по работе с данными автоматизированы, есть централизованное хранилище, базовые политики обеспечения качества. На втором этапе инфраструктура работы с данными быстро разрастается, становится разветвленной, сложной в управлении и дорогой в обслуживании. Это заметно тормозит переход на следующий этап.
Мы много общаемся с системообразующими компаниями — продукты VK Tech помогают технологическому развитию более половине компаний из списка топ-100 РБК. По нашим оценкам, значительная часть крупного российского бизнеса находится именно в этой точке.
Каковы планы компании по дальнейшему развитию и совершенствованию VK Data Platform?
Александр Виноградов: Мы планируем перенести MLOps-сервисы в Kubernetes. Добавить окружения для разработки и запуска ML-моделей, чтобы после обучения и конфигурирования их можно было запускать в автоматизированном режиме в виде готовых сервисов, доступных по API. Внутри платформы можно будет разработать self-сервисы для внутренних пользователей и упаковывать их в готовые бизнес-решения. Это будет интерфейс, в котором пользователи смогут работать со своими моделями, проводя их тестирование и оптимизацию в удобной для них среде.