2010/04/19 17:57:27

Data mining
Интеллектуальный анализ данных

Процесс выявления скрытых, полезных фактов и взаимосвязей в крупных массивах данных. Дословно переводится как «извлечение данных». Со временем у руководства многих компаний возникает проблема: чем больше у них появляется данных у клиентуре, тем сложнее анализировать потребление и развиваться в нужную сторону. Интллектуальный анализ данных является мощным инструментом Business Intelligence.

Катало систем Data Mining и проектов доступен на TAdviser.

Категории

Данные, которые были получены в результате использования средств Data mining описывают новые связи между свойствами, предсказывают одни значения признаков на основе других. В круг задач, которые решает Data mining входят:

Классификация - структуризация объектов по заданным классам
Ассоциация - выявление ассоциативных цепей. впервые такой метод был применен для анализа рыночной корзины типичного потребителя.
Кластеризация - группировка событий и наблюдений в кластеры. В основу берутся свойства описывающие суть самих группируемых событий
Прогнозирование - предсказание на основе имеющихся данных возможного развития событий как прогрессивное, так и регрессивное.
Анализ изменений - выявление типичных ситуаций, шаблонов. Сюда входит и установление закономерностей между различными временными событиями, равно как и обнаружение зависимостей и причинно-следственных связей.

Задачи

Интеллектуальный анализ данных можно использовать для решения любых бизнес-проблем, в которых фигурирует различная изменяющаяся с течением времени информация, включая:

Увеличение прибыльности подразделения или целого предприятия
Анализ желаний и потребностей
Идентификация клиентов, приносящих прибыль, и приобретение новых
Сохранение клиентов и повышение лояльности
Увеличение отдачи от инвестиций (ROI) и снижение расходов на продвижение товаров и услуг
Продажа дополнительных товаров и услуг существующим клиентам
Выявление случаев мошенничества, нерационального и нецелевого расходования средств
Оценка кредитных рисков
Повышение пропускной способности торговой единицы и оптимизация распределения товаров для увеличения продаж
Общий мониторинг эффективности бизнеса

Data mining в банковском секторе

Дата-майнинг позволяет получить результаты, которые служат основой для принятия различных бизнес-решений. Чтобы повысить их обоснованность и увеличить прибыль компании, проводится сбор и анализ широкого диапазона информации. В первую очередь, это конфиденциальные данные о клиентах, которые в процессе деятельности накапливает любая компания (возраст и семейный статус человека, предпочтение тем или иным товарам, частота покупок, участие в различных акциях и другие параметры). Обрабатывая историческую информацию о похожих покупателях, компания может оценить риски и спрогнозировать жизненные ценности потенциальных клиентов, по которым не имеется никаких данных. Причем факторы влияния и результирующие показатели могут иметь как очевидные, так и скрытые связи.

Сегодня практически все взрослые люди имеют пластиковые карты, привязанные к счету в банке. Многие имеют две таких карточки: одну для зарплаты, вторую – для заемных средств с ограниченным кредитным лимитом. Всем известно, что такое максимальный лимит, но не каждый понимает, каким образом производится его расчет^[1].

В большинстве случаев величина максимальной суммы займа зависит от общей кредитной истории клиента. Рассчитывать на повышение кредитного лимита можно при выполнении установленных банком условий. Для этого необходимо:

предъявить справку о доходах;
иметь в банке отдельный счет для перечисления зарплаты;
регулярно и своевременно возвращать заемные средства.

При выдаче первой кредитной карты многие банки пользуются двумя инструментами: официальным подтверждением доходов и кредитной историей. Обычно, при отсутствии справки о доходах и кредитной истории, заемщик может рассчитывать на одобрение однотипного минимального кредитного лимита, ведь в этом случае невозможно спрогнозировать возникновение вероятных проблем. Некоторые банки для оценки платежеспособности клиента дополнительно используют данные о семейном положении, трудовом стаже, наличии транспортного средства и т. д. Но все же эти показатели стабильности заемщика не позволяют банкирам без рисков произвести увеличение кредитного лимита. Поэтому банки пользуются таким способом сбора и анализа информации, как аналитика больших данных, которая позволяет выявлять потенциально неблагонадежных заемщиков.Михаил Садиров, SMART technologies: На тестирование мультивендорных решений есть спрос 4.2 т

Понятие кредитной оценки банковских клиентов еще в середине прошлого столетия разработала софтверная компания Fair Isaac Company (США). Несколько лет назад специалисты этой же фирмы предложили метод оценки приверженности лечению, который выявляет, с какой вероятностью разные пациенты будут соблюдать предписания фармакологического курса. Это направление находится в стадии развития, но уже дает хорошие результаты.

Например, было выявлено, что вероятность выполнения врачебных предписаний увеличивается, если пациент имеет автомобиль и семью, редко меняет место жительства. Такие данные позволяют медицинским сотрудникам с большой вероятностью выявлять пациентов, которые прислушаются к рекомендациям врача и сдадут назначенные анализы. Естественно, систематический прием лекарственных препаратов не имеет причинно-следственной связи с наличием автомобиля, но высокий корреляционный показатель исторических данных дает возможность делать высокоточные прогнозы. А анализ информации с учетом вероятности болезни или летального исхода помогает рассчитать стоимость страховки пациента (или повысить для заемщика кредитный лимит).

Большое значение для проектов дата-майнинга имеют открытые данные, такие как пользовательские аккаунты в крупных социальных сетях. И это полностью обосновано – например, в прошлом году Facebook насчитывал более 850 млн активных пользователей (десятую часть населения всего земного шара), которые образовали более 100 миллиардов связей. В итоге анализ информации из наиболее значимых социальных интернет-площадок позволяет получить практически любые данные.

Чтобы оценить благонадежность потенциальных заемщиков, компания Fair Isaac Company использует пятнадцать переменных из сети Facebook. Анонимный стартап прогнозирует вероятность того, что заемщик выплатит кредит, основываясь на поведении его друзей в различных ситуациях. Такой анализ основывается на актуальных данных и проводится в online-режиме, так что банковский специалист может воспользоваться полученной информацией для увеличения кредитного лимита.

В плане получения необходимых данных социальная сеть Twitter также представляет большой интерес. Компании Grip и DataSift, сотрудничая с Twitter, получают доступ к информации о 100 миллионах человек, которые отправляют около 250 миллионов твитов (коротких сообщений, зачастую не имеющих между собой никакой связи). Хотя доступ к твитам может получить каждый, но систематизация информации и организация ее совокупной продажи под силу лишь специализированным компаниям. Они могут выполнить комплексный сбор и анализ данных, обобщить отзывы потребителей о товарах или услугах и сделать реальную оценку эффективности той или иной рекламной кампании. Но есть и другая сторона медали – конфиденциальность. Практически вся информация, которую граждане передают коммерческим или некоммерческим компаниям, защищается государственными законами, нормативными актами, договорными обязательствами. Именно поэтому законным способом получить дополнительные данные о конкретном человеке очень сложно, а чаще всего вообще невозможно.

В то же время у информации в социальных сетях нет подобной защиты. В результате анализа профайла человека с помощью определенных алгоритмов можно получить прогноз невыполнения обязательств по возврату долгов, потери здоровья или даже совершения преступления. В этом случае наиболее вероятным будет отказ по кредиту или медицинской страховке. По сути оказывается, что человек получает негативную оценку за несовершенные поступки, что является нарушением презумпции невиновности. Здесь и возникает проблема: что важнее – ориентироваться на клиента или защититься от возможного риска?

Однозначно ответить на поставленный вопрос невозможно. Но можно точно сказать, что в эпоху больших данных необходимо ввести эффективные правовые нормы, которые позволят обрабатывать и защищать информацию на абсолютно законных основаниях. Подобная ситуация возникала и в прошлом, когда из-за распространения печатных станков пришлось принять законы об ограничении свободы печати (хотя до массового появления газет и журналов такой проблемы просто не существовало).

Отличия Process Mining от Data Mining

Data mining преимущественно используется для поиска иерархических зависимостей в больших объемах данных. Например, в каких каналах какие категории клиентов какие категории товаров покупают и как часто.
На вход подаются таблицы с разнородными данными из разных доменов.
Использует многомерные представления (кубы) с возможностью изменения уровня детализации (различные уровни агрегации) информации.

Process mining концентрируется не на семантических взаимосвязях данных, а на представлении данных в виде процессов.
На вход подаются транзакционные данные по объектам учета. Обычно в качестве таких объектов выступают (Задания, Заказы, Заявки, Наряды и так далее). Примером транзакционных данных служат журналы событий, аудиторские следы, данные о событиях и состояниях объектов (будь то статус объекта или смена ответственного подразделения).
Использует методы сэмплинга данных для построения модели процесса по наиболее представительным сценариям в процессе. Process mining ищет не просто связи между данными: его задача состоит в том, чтобы определить связи между шагами процесса, отклонения от нормального процесса, факторы влияния наотклонения, эффективность процесса, сценарность процесса, а также узкие места в процессе.