Введение в понятие Data Fabric для TAdviser подготовила Светлана Вронская, автор телеграм-канала Analytics Now.
Понятие темных данных ввели аналитики Gartner, определив их как информационные активы, которые компания собирает, обрабатывает и хранит на постоянной основе, но обычно не использует (например, для анализа, выявления взаимосвязей факторов и прямой монетизации). Также как с темной материей в физике, dark data зачастую – большая часть хранимых в компании данных. Многие хранят темные данные только для того, что следовать требованиям регулятора – персональные данные, например. Причинами хранения неиспользуемых данных могут быть необходимость ведения архивов. А некоторые организации считают, что скрытые данные могут быть им полезны в будущем, когда появятся более совершенные технологии аналитики и бизнес-аналитики.
При этом стоимость хранения и обеспечение безопасности этих данных больше, чем их ценность. А данных таких море. По заявлению одного из профессоров Университета Карнеги Меллон Рахула Теланга, в общем объеме данных темных может быть 90%.
В промышленном контексте темные данные могут включать информацию, собранную датчиками и телематическими устройствами. IBM приводит в пример данные с датчиков и прочих устройств, и говорит, что 90% этих данных никогда не используются.