2010/08/11 13:44:06

Антиспам технологии

Средства, которыми спамеры маскируют нежелательную почту, постоянно усложняются. Одним из наиболее трудных для спам-фильтров случаев является графический спам, который может еще и содержать шум, затрудняющий распознавание текста. Как производители спам-фильтров борются с этой и другими современными уловками спамеров?

Содержание

Основные статьи:

2020: Минцифразвития предложило разработать механизм отзыва согласия на обработку персональных данных

6 февраля 2020 года стало известно, что Министерство цифрового развития, связи и массовых коммуникаций РФ предложило разработать механизм, позволяющий гражданам отзывать свое согласие на обработку персональных данных. Помимо прочего, это позволит им защитить себя от спама, считают в министерстве. Подробнее здесь.

2010

Методы борьбы со спамом

Борьба со спамом начинается на сервере, занимающемся пересылкой сообщений, что выгоднее с точки зрения экономии трафика, дает большую точность работы и эффективнее, чем настраивать спам-фильтр почтового клиента.

Наиболее распространенный и старый способ борьбы со спамом – использование DNSBL (DNS Black Lists). Принцип его действия прост и заключается в блокировке всей почты, приходящей с IP-адреса, занесенного в черный список. Другой устоявшийся и давно прижившийся метод борьбы со спамом – контентная фильтрация. Потенциально нежелательное письмо проверяется на наличие специфических слов, фрагментов текста, картинок и других черт, характерных для спама. Третий метод – грейлистинг – основан на временном отказе. После того как подозрительное письмо пришло, на него автоматически отправляется ответ с кодом ошибки, понятный для всех почтовых систем. Спустя некоторое время система повторно присылает письмо, чего не делают программы, рассылающие спам.28 мая министр цифрового развития Максут Шадаев выступит на TAdviser SummIT 9.4 т

Описанные методы имеют как плюсы, так и существенные недостатки. Например, метод контентной фильтрации может распознать важную информационную рассылку как спам, в результате чего письма не дойдут до получателей. Метод DNSBL хоть и гарантирует 100% блокировку потока с указанных IP-адресов, но спамеру несложно сменить адрес и продолжить рассылку.

Особую сложность для распознавания представляет графический спам, доля которого в общем потоке нежелательных сообщений составляет около 10%. В этом случае текст пишется на изображениях. Для борьбы с графическим спамом было найдено решение - применение систем оптического распознавания символов (OCR). Но у такого подхода есть существенные недостатки. Во–первых, OCR – крайне ресурсоемкая система и требует производительных машин. Во–вторых, подобные системы не обеспечивают должной точности определения. И, в–третьих, в ответ на применение программ, распознающих изображение для фильтрации спама, начали появляться новые "мусорные" письма в виде изображений с большим количеством шума. Шум проявляется в виде символов разного размера, разбиений текста таблицами и линиями. Все это делает практически невозможной регистрацию спама методом OCR.

Заглушить "шум", разобрать текст

Однако и спам-фильтры не стоят на месте. Для фильтрации графического спама, содержащего шум, используется вероятностно-статистический метод. В этом случае решение о том, содержит ли изображение текст, принимается на основании характера расположения вероятных графических образов слов и строк, а также содержания в них выявленных образов букв и слов. Иначе говоря, программа анализирует последовательности пикселей в изображении, прогнозируя вероятность обнаружения букв или слов, и при определенных распознает изображение как спам. Условиями могут служит длина слов, число символов и другие. В отличие от систем оптического распознавания символов, вероятностный метод работает с различными вариантами наклоненных или искаженных букв и слов, что повышает точность детектирования. Кроме того, новый метод обрабатывает изображения быстрее.

В области борьбы с текстовым спамом также появляются новые методы и способы анализа и борьбы с нежелательной почтой.

Все методы контентной фильтрации можно разделить на 2 класса. В первый попадают методы, основанные на анализе содержимого – контента - классическим примером является поиск регулярных фраз и выражений. Во второй – методы, основанные на анализе контекста – метаданных, например, анализ вложений или других атрибутов файла (размера, типа и т. д.). Характеристика любого движка контентной фильтрации связана с качеством принимаемых решений. Возможны 2 типа ошибок: принято "хорошее" решение при "плохом" письме и, наоборот, "плохое" решение при "хорошем". Старые способы реализации методов контекстной фильтрации были медленными, требовали больших библиотек, часто давали сбои и не могли работать с новым, еще не распознанным вручную спамом. Методы же нового поколения используют определенные правила – эвристики. Достоинства такого подхода в повышении скорости обработки письма, увеличении надежности и – существенный плюс - возможности регистрировать новые, еще не распознанные "мусорные" письма.

IBM X-Force: домен .ru вышел на первое место по количеству сайтов, распространяющих спам

Корпорация IBM опубликовала в сентябре отчет 2010 Mid-Year Trend and Risk Report, подготовленный группой исследований и разработок в области информационной защиты IBM X-Force. Согласно результатам исследования, начиная с февраля 2010 года Российский Интернет-домен (.ru) находится на первом месте по количество зарегистрированного на нем нежелательного контента (спама), обогнав такие домены, как .com, .net, .cn (Китай) и .info (см. Таблицу 1). По географическому местоположению источники спама распределились следующим образом: США (9.7% спама), Бразилия (8.4%), Индия (8.1%), Россия (5.3%), Вьетнам (4.6%, см. Таблицу 2). При этом более 60% зарегистрированных в Китае URL-адресов, содержащих спам, имеют домен высшего уровня .ru. Таким образом, согласно исследованию, типичное спам-сообщение рассылается с компьютера, физически расположенного в США, Индии или Бразилии, имеет URL-адрес на домене .ru, а его хостинг находится в Китае.

Таблица 1. Самые распространенные домены высшего уровня, содержащие спам, 1 половина 2010г.

Файл:image007.jpg

Таблица 2. Географическое распределение источников спама, 1 половина 2010 г.

Файл:image010.jpg

Примечания