2010/08/11 13:44:06

Антиспам технологии

Средства, которыми спамеры маскируют нежелательную почту, постоянно усложняются. Одним из наиболее трудных для спам-фильтров случаев является графический спам, который может еще и содержать шум, затрудняющий распознавание текста. Как производители спам-фильтров борются с этой и другими современными уловками спамеров?

Содержание

Основные статьи:

2020: Минцифразвития предложило разработать механизм отзыва согласия на обработку персональных данных

6 февраля 2020 года стало известно, что Министерство цифрового развития, связи и массовых коммуникаций РФ предложило разработать механизм, позволяющий гражданам отзывать свое согласие на обработку персональных данных. Помимо прочего, это позволит им защитить себя от спама, считают в министерстве. Подробнее здесь.

2010

Методы борьбы со спамом

Борьба со спамом начинается на сервере, занимающемся пересылкой сообщений, что выгоднее с точки зрения экономии трафика, дает большую точность работы и эффективнее, чем настраивать спам-фильтр почтового клиента.

Наиболее распространенный и старый способ борьбы со спамом – использование DNSBL (DNS Black Lists). Принцип его действия прост и заключается в блокировке всей почты, приходящей с IP-адреса, занесенного в черный список. Другой устоявшийся и давно прижившийся метод борьбы со спамом – контентная фильтрация. Потенциально нежелательное письмо проверяется на наличие специфических слов, фрагментов текста, картинок и других черт, характерных для спама. Третий метод – грейлистинг – основан на временном отказе. После того как подозрительное письмо пришло, на него автоматически отправляется ответ с кодом ошибки, понятный для всех почтовых систем. Спустя некоторое время система повторно присылает письмо, чего не делают программы, рассылающие спам.TAdviser выпустил новую Карту российского рынка информационной безопасности: 250 разработчиков и поставщиков услуг 39 т

Описанные методы имеют как плюсы, так и существенные недостатки. Например, метод контентной фильтрации может распознать важную информационную рассылку как спам, в результате чего письма не дойдут до получателей. Метод DNSBL хоть и гарантирует 100% блокировку потока с указанных IP-адресов, но спамеру несложно сменить адрес и продолжить рассылку.

Особую сложность для распознавания представляет графический спам, доля которого в общем потоке нежелательных сообщений составляет около 10%. В этом случае текст пишется на изображениях. Для борьбы с графическим спамом было найдено решение - применение систем оптического распознавания символов (OCR). Но у такого подхода есть существенные недостатки. Во–первых, OCR – крайне ресурсоемкая система и требует производительных машин. Во–вторых, подобные системы не обеспечивают должной точности определения. И, в–третьих, в ответ на применение программ, распознающих изображение для фильтрации спама, начали появляться новые "мусорные" письма в виде изображений с большим количеством шума. Шум проявляется в виде символов разного размера, разбиений текста таблицами и линиями. Все это делает практически невозможной регистрацию спама методом OCR.

Заглушить "шум", разобрать текст

Однако и спам-фильтры не стоят на месте. Для фильтрации графического спама, содержащего шум, используется вероятностно-статистический метод. В этом случае решение о том, содержит ли изображение текст, принимается на основании характера расположения вероятных графических образов слов и строк, а также содержания в них выявленных образов букв и слов. Иначе говоря, программа анализирует последовательности пикселей в изображении, прогнозируя вероятность обнаружения букв или слов, и при определенных распознает изображение как спам. Условиями могут служит длина слов, число символов и другие. В отличие от систем оптического распознавания символов, вероятностный метод работает с различными вариантами наклоненных или искаженных букв и слов, что повышает точность детектирования. Кроме того, новый метод обрабатывает изображения быстрее.

В области борьбы с текстовым спамом также появляются новые методы и способы анализа и борьбы с нежелательной почтой.

Все методы контентной фильтрации можно разделить на 2 класса. В первый попадают методы, основанные на анализе содержимого – контента - классическим примером является поиск регулярных фраз и выражений. Во второй – методы, основанные на анализе контекста – метаданных, например, анализ вложений или других атрибутов файла (размера, типа и т. д.). Характеристика любого движка контентной фильтрации связана с качеством принимаемых решений. Возможны 2 типа ошибок: принято "хорошее" решение при "плохом" письме и, наоборот, "плохое" решение при "хорошем". Старые способы реализации методов контекстной фильтрации были медленными, требовали больших библиотек, часто давали сбои и не могли работать с новым, еще не распознанным вручную спамом. Методы же нового поколения используют определенные правила – эвристики. Достоинства такого подхода в повышении скорости обработки письма, увеличении надежности и – существенный плюс - возможности регистрировать новые, еще не распознанные "мусорные" письма.

IBM X-Force: домен .ru вышел на первое место по количеству сайтов, распространяющих спам

Корпорация IBM опубликовала в сентябре отчет 2010 Mid-Year Trend and Risk Report, подготовленный группой исследований и разработок в области информационной защиты IBM X-Force. Согласно результатам исследования, начиная с февраля 2010 года Российский Интернет-домен (.ru) находится на первом месте по количество зарегистрированного на нем нежелательного контента (спама), обогнав такие домены, как .com, .net, .cn (Китай) и .info (см. Таблицу 1). По географическому местоположению источники спама распределились следующим образом: США (9.7% спама), Бразилия (8.4%), Индия (8.1%), Россия (5.3%), Вьетнам (4.6%, см. Таблицу 2). При этом более 60% зарегистрированных в Китае URL-адресов, содержащих спам, имеют домен высшего уровня .ru. Таким образом, согласно исследованию, типичное спам-сообщение рассылается с компьютера, физически расположенного в США, Индии или Бразилии, имеет URL-адрес на домене .ru, а его хостинг находится в Китае.

Таблица 1. Самые распространенные домены высшего уровня, содержащие спам, 1 половина 2010г.

Файл:image007.jpg

Таблица 2. Географическое распределение источников спама, 1 половина 2010 г.

Файл:image010.jpg

Примечания