Разработчики: | HFLabs (ХФ Лабс), ранее HumanFactorLabs |
Дата премьеры системы: | 2023/05/02 |
Технологии: | ИБ - Предотвращения утечек информации |
Основная статья: DLP - Data Loss / Leak Prevention - Технологии предотвращения утечек конфиденциальной информации
2024: Тестирование модели оценки рисков повторной идентификации
19 июня 2024 года Ассоциация больших данных и HFLabs представили результаты тестирования модели оценки рисков повторной идентификации с использованием продукта для обезличивания данных «Маскировщик». «Маскировщик» — решение для умного маскирования персональных данных. Он снижает риск утечки во время тестирования ИТ-систем, сохраняя при этом качество тестов. Об этом HFLabs сообщил 19 июня 2024 года.
В рамках тестирования специалистами-методологами Ассоциации больших данных были смоделированы кибератаки с целью получения персональной информации из обезличенных наборов данных, подготовленных с помощью «Маскировщика» для кейсов «Оценка оттока банковских клиентов (Churn Rate)» и «Маркетинговая атрибуция на независимых наборах». По результатам атак был осуществлен расчет рисков повторной идентификации, а также подготовлены рекомендации по адаптации параметров маскирования.
![]() | При обработке обезличенных данных мы оцениваем вероятность успешной атаки на них, в результате которой может быть нарушена приватность. Успешный эксперимент определения уровня риска деобезличивания данных бизнес-кейсов с использованием «Маскировщика» позволил нам решить задачу максимизации функции полезности продукта при минимизации рисков данных. В ходе эксперимента мы снизили комплексные риски маскированных данных на 97,5% при сохранении их высокого показателя полезности, который составил 71%. Эти результаты подчеркивают эффективность наших методов обезличивания и их способность защищать конфиденциальность данных без ущерба для их аналитической ценности, — отметил исполнительный директор Ассоциации больших данных Алексей Нейман. | ![]() |
Модель оценки рисков повторной идентификации позволяет рассчитать вероятность выделения персональной информации в обезличенном датасете. Основываясь на этой оценке, можно принимать обоснованные решения об используемых средствах защиты и методах обработки данных. По результатам тестирования риск-модель доказала свою работоспособность, а также была дополнена подходами по симуляции атак, которые углубляют понимание рисков повторной идентификации за счет учета рисков выделения и связывания.
![]() | При создании «Маскировщика» во главу угла мы поставили сохранение контекста данных. Умное маскирование учитывает пол, возрастную группу, привязку адреса и телефона к региону и многое другое. Такой подход позволяет максимально эффективно использовать обезличенные данные в тестировании высоконагруженных ИТ-систем. При этом вопрос безопасного использования таких данных остается ключевым для бизнеса. Мы благодарны АБД за совместную работу: благодаря риск-модели, мы смогли доработать продукт и свести риски работы с обезличенными данными к минимуму. Разработка риск-модели и ее валидация — большой шаг к выводу обезличенных данных из серой зоны. Уверен, что этот проект АБД позволит продвинуться к легализации их использования в бизнес-среде, — отметил Никита Назаров, технический директор HFLabs. | ![]() |
Риск-модель может стать основой для нахождения баланса между безопасностью и полезностью данных, когда полученным данным можно доверять и использовать, но по которым невозможно реидентифицировать конкретных субъектов. При этом целесообразно оценивать риски деобезличивания в каждом конкретном случае применения методов, в том числе давать оценку контекстного риска (исходя из того, в каких условиях будет обрабатываться обезличенный датасет).ВТБ добился независимости для ИИ-разработчиков в банке от зарубежных технологий
Благодаря плодотворной совместной работе HFLabs и Ассоциации больших данных, «Маскировщик» при обезличивании данных сохраняет их качество и контекст, делая их максимально похожими на оригинальные и значительно снижая риски повторной идентификации. Внедрение риск-ориентированного подхода при обезличивании данных доказало свою важность, обеспечивая более точное управление рисками и максимальную полезность данных.
2023: Представление решения
Компания HFLabs 2 мая 2023 года представила продукт для умного маскирования (обезличивания) персональных данных. Решение позволяет снизить риск утечки при тестировании ИТ-систем и при этом сохранить качество тестов. Пилотный проект с использованием «Маскировщика» успешно завершился в одном из банков.
Продукт HFLabs доступен как коробочное решение и как SaaS-сервис. Он обезличивает разные типы данных: ФИО, даты рождения, адреса, телефоны, email, ИНН, СНИЛС, банковские карты и счета, ПТС и водительские удостоверения. Другие типы данных можно маскировать, выбрав из преднастроенных правил несложные мутации.
Используя логику умной замены, «Маскировщик» при обезличивании сохраняет качество и контекст данных и делает их максимально похожими на настоящие. При маскировании не теряются социально-демографические характеристики, географическое распределение, родственные связи и даже форматно-логический контроль документов. Благодаря такому подходу обезличенные с помощью «Маскировщика» данные могут использоваться для корректного построения аналитических моделей.
Например, «Маскировщик» заменяет ФИО с учетом его популярности и пола клиента. Номера телефонов при умном маскировании не теряют привязку к оператору или региону, адреса остаются валидными в пределах региона или города, а люди, проживающие по одному и тому же адресу, получают другой реальный адрес.
Для сохранения социально-демографических признаков даты рождения меняются в пределах небольшого интервала (например, 1991 год на 1992). Отдельные возрастные рамки, значимые для маркетинга, могут быть заданы жестко: например, человек младше 18 лет не станет совершеннолетним. Также «Маскировщик» сохраняет особенности документов — валидность паспортов, ИНН, СНИЛС. Он учитывает их формат, контрольные суммы и действительность.
![]() | У бизнеса есть запрос на маскирование всех имеющихся тестовых сред, чтобы обезопасить работу, снизить риск утечек и упростить согласование доступа как для сотрудников, так и для подрядчиков. При этом важно, чтобы данные были похожи на реальные, и один клиент маскировался одинаково во всех источниках данных, — объяснила Ольга Сердобинцева, владелец продукта «Маскировщик» в HFLabs. | ![]() |
Продукт от HFLabs обезличивает данные для всех тестовых стендов компании, используя единый алгоритм в рамках итерации маскирования. Замены подбираются случайным образом, сохраняются в зашифрованном виде и удаляются по окончанию процесса обезличивания всех стендов. Это позволяет соблюсти консистентность между всеми маскируемыми базами и исключить возможность обратного восстановления исходных значений.
Подрядчики-лидеры по количеству проектов


















Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров




























Распределение систем по количеству проектов, не включая партнерские решения

















