Системы хранения данных в аналитике
К системам хранения в бизнес-аналитике предъявляются особые требования. Рост проектов по внедрению систем бизнес-анализа данных и технологий Big Data спровоцирует серьезный спрос на СХД, так что сегмент систем хранения данных для аналитики и Big Data будет расти в 1,5 раза ежегодно до 2016 года.
Каталог BI-решений и проектов доступен на TAdviser.
Содержание |
Мировой рынок
По данным IDC[1] от апреля 2013 года, спрос на технологии и сервисы Big Data напрямую влияет на рынок систем хранения данных, являющихся ключевыми компонентами решений для работы с «большими данными». Именно поэтому в период с 2011 по 2016 год рынок систем хранения для аналитических решений продемонстрирует небывалый среднегодовой темп роста – 53%.
Поскольку количество данных, генерируемых, обрабатываемых и помещаемых в хранилища продолжит стремительно расти, системы хранения останется одним из наиболее затратных компонентов инфраструктуры решений Big Data и аналитических решений, полагает автор исследования Ашиш Надкарни (Ashish Nadkarni).
Выручку от продажи СХД конкретно на рынке Big Data и аналитики (BD&A) вырастет с $379,9 млн в 2011 году до $6 млрд в 2016 году. Рост расходов на СХД в аналитике будет стимулировать также и то обстоятельство, что все больше компаний обращаются к обработке новых источников данных, в целом меняя подход в работе с данными от поиска к data discovery, так что расходы на инфраструктуру данных и платформы data organization растут.
В ходе опроса IDC, проведенного в первом квартале 2013 года, 68,6% компаний назвали именно производительность ключевым фактором при выборе архитектуры системы хранения. На второе место по значимости пользователи поместили стоимость (59,5%). 31% опрошенных отметили, что пока не ведут проектов по созданию инфраструктуры для систем бизнес-анализа, но планируют начать таковые в ближайшие пол года.
Российские реалии
Создание хранилища данных составляет одну из основных статей расхода BI-проекта. До 70-90% бюджета проекта создания системы бизнес-анализа может затрачиваться именно на организацию корпоративного хранилища данных (КХД). При этом затраты на сами по себе аналитические приложения по сравнению с этими затратами невелики и в части стоимости лицензий, и в части услуг по технической части внедрения.
Роль хранилищ данных в BI проектов велика не только с учетом финансовых соображений: КХД является фундаментальным элементом для системы бизнес-анализа, без которого последняя просто не будет работать. Как признают опрошенные TAdviser эксперты, примерно в 50% проектах внедрений BI-систем возникает необходимость видоизменить или кардинально перестроить хранилище данных. Основные причины: недостаточная полнота имеющейся в хранилище информации по отношению к требованиям нового BI-решения, а также проблемы производительности, для решения которых необходима оптимизация, а иногда и перестройка хранилища данных. TAdviser Security 100: Крупнейшие ИБ-компании в России
Главные требования к хранилищам данных – высокое качество содержащейся в них информации, достоверность и согласованность данных, их полнота и независимость от приложений, - рассказала Ольга Горчинская, руководитель исследовательских проектов и направления Big Data компании «ФОРС». Последнее время по мере роста размеров хранилищ и увеличения числа пользователей BI-инструментов, к этим стандартным требованиям добавляется высокая производительность, масштабируемость, доступность информации.
В архитектуре хранилища и программно-аппаратной платформе должна быть заложена возможность его оптимизации. Кроме того, важно использовать лучшие практики, рекомендации и современную методологию построения хранилищ данных. Для оценки технических требований к системе лучше привлечь специалистов вендора, особенно при разработке конфигурации аппаратного обеспечения,- считает Ольга Горчинская.
Андрей Розанов, руководитель направления BI компании РДТЕХ, говорит, что если BI-проект подразумевает построение аналитики, основанной на данных из большого количества различных источников, то в данном случае сложно обойтись без построения хранилища данных.
Основными требованиями к такому хранилищу являются: правильно спроектированная архитектура; отраслевая логическая и физическая модели данных; процессы периодического обновления данных и проверки их качества. «Накопленный опыт построения подобных систем говорит о том, что очень важно с самого начала проекта уделить особое внимание качеству загружаемых и впоследствии анализируемых данных. Для этого необходимо предусмотреть использование в процессе загрузки и преобразования данных выполнение различных процедур проверок данных с возможностью последующего анализа результатов их работы», - пояснил Андрей Розанов.
Кроме того, системы построения хранилищ данных должны обязательно иметь средства очистки, чтобы обеспечивать пользователя полной и качественной информацией.
На российском рынке в достаточной степени представлены все передовые технологические решения для создания корпоративных хранилищ данных, однако, проблемы в таких проектах нередки. Связаны они в первую очередь с неверной организацией архитектуры самого хранилища и основных принципов его работы, так что все без исключения системные интеграторы советуют выбирать для таких проектов опытного партнера.
По мировой статистике, до половины проектов хранилищ данных в итоге признаются не успешными. Ошибки в таких неудачных внедрениях похожи: хранилище создается не под запросы бизнес-пользователей, а под доступные виды данных.
Что необходимо сделать для корректной работы КХД и работающей поверх него системы? Если хранилище уже используется, появляется хорошая возможность проверить, насколько успешно выполнялся практически всегда декларируемый принцип о том, что при внедрении хранилища данных должны учитываться бизнес-требования.
Допустим, что все они учтены и согласованы с требованиями, предъявляемыми к внедряемой поверх хранилища системе BI. При таком оптимистичном сценарии понадобится лишь оптимизация на уровне хранилища, небольшие доработки, уточнение алгоритмов рассчитанных на уровне хранилища данных показателей. Нередко бывает и так, что данные хранилища не используются, не проверены бизнес-пользователями, и оно (хранилище) становится фактически бесполезным, когда дело доходит до применения данных в видимой всеми BI-системе.
По возможности следует объединять задачи по внедрению хранилища данных и BI-системы в один проект. Общий этап анализа позволит учесть при проектировании решения реальные бизнес-требования. В свою очередь, придирчивое тестирование данных в хранилище с помощью BI-инструментов повысит вероятность того, что пользователи будут в дальнейшем оперировать правильными, востребованными бизнесом сведениями.
При этом не нужно стараться сделать так, чтобы хранилище охватывало сразу все функциональные области, пытаться поместить в него все доступные данные. Лучше использовать итерационный подход, при котором после каждой итерации в хранилище будет храниться ограниченный, но максимально выверенный бизнес-пользователями набор качественных данных.
Следует также выяснить, как будут использоваться данные и создать концепцию в области отчетов и аналитики, разделив данные по приоритетам, по типам пользователей, по скорости реагирования на запрос. После того, как продуманы и описаны процессы использования хранилища, остается логическая и техническая работа, которая имеет гораздо больше шансов на успех.
Ольга Горчинская, напомнила, что нужно всегда помнить о качестве данных и заранее продумать и спроектировать процессы консолидации, согласования и проверки корректности данных, не забывать о решениях класса Master Data Management и использовать специализированные средства очистки и стандартизации данных. Наконец, необходимо обращать внимание на системные характеристики хранилища, возможность масштабирования, высокую производительность при загрузке данных и при работе с информацией большого числа пользователей.
См.также
Business Intelligence, BI (мировой рынок)
Большие данные (Big Data) мировой рынок
Business Intelligence (рынок России)
Главные тенденции рынка BI в России
Российский BI: отраслевая специфика
Внедрения BI в России: типичные ошибки