Спам – это ОК! Массовые рассылки как стимул развития цивилизации05.11.2024 09:30

Я застал те времена, когда спама еще практически не было — каждое рекламное письмо в моём электронном почтовом ящике казалось чем-то диковинным, и значительная их часть прочитывалась из чистого любопытства. Однако вскоре объём подобного мусора стал расти в геометрической прогрессии, появились трояны, рассылавшие свои копии по списку контактов на зараженной машине, потом жулики освоили фишинг… От спама страдали и продолжают страдать миллионы людей во всем мире. Но если бы спама не существовало, его, пожалуй, следовало бы придумать. И вот почему.

Те, кто помнит эпопею с пресловутым «Центром американского английского», заполонившим в начале нулевых почтовые ящики россиян своей назойливой рекламой, наверняка припомнят и то, что начались подобные массовые рассылки не вдруг. В девяностых почтовая реклама выглядела довольно примитивной: таким способом продвигались в основном чудо-средства для роста волос и увеличения других важных частей тела, целебные биологические добавки и финансовые пирамиды. В заголовках некоторых писем можно было даже увидеть список всех получателей. Отдельные сообщения были и вовсе адресными: реклама товаров и услуг отправлялась потенциально заинтересованной аудитории по сферам деятельности — этому способствовали многочисленные тематические интернет-каталоги фирм и их сайтов. Одним из переломных моментов в эволюции спам-индустрии можно считать появление краулеров, программ, автоматически собиравших адреса электронной почты на веб-страницах и объединявших их в базы. Одновременно с ними возникли и масс-мейлеры для рассылки спама, а базы адресов сделались ходовым товаром.

Помните этот феерический спам, ставший в конечном итоге нарицательным?

Достаточно было один-единственный раз «засветить» свой e-mail на каком-нибудь форуме, и последствия не заставляли себя ждать: уже через пару дней из почтового ящика приходилось выгребать тонны рекламного хлама. Борьба с этим явлением велась весьма примитивными методами: если где-то в публичном пространстве нужно было оставить адрес e-mail, его размещали в виде картинки, цифры заменяли текстом, а символ »@» — словом «собака», чтобы сбить с толку автоматические программы-сборщики. Зачастую люди просто заводили отдельный ящик «для спама», а «личным» адресом делились только в самом крайнем случае. Помогало, но ненадолго — спам каким-то чудом просачивался даже в те почтовые аккаунты, адреса которых вы хранили в строжайшем секрете.

Следующим эволюционным шагом на нелегком пути борьбы с массовыми рассылками стало появление настраиваемых почтовых фильтров. Поначалу правила фильтрации составлялись вручную: нужно было отобрать характерные заголовки и фрагменты текста рекламных сообщений, затем внести их в соответствующее окно программы, указав, что почтовый клиент должен сделать с таким письмом, и напоследок активировать каждое правило в отдельности. Прекрасно помню, как настраивал Outlook Express на автоматическое удаление писем от всяких «специалистов по продвижению» — занятие весьма медитативное и утомительное. Чуть позже стали распространяться готовые наборы антиспам-фильтров, которые можно было включить или отключить простым щелчком мыши. Но эффективность такой защиты все равно оставляла желать лучшего: во-первых, спамеры находили все новые и новые методы обхода алгоритмов фильтрации по шаблону — путем замены в тексте кириллических символов латиницей, добавлением в слова случайных пробелов или преобразованием текста сообщения в картинку. А во-вторых, из-за некорректной работы фильтров в спам нередко попадала важная и нужная корреспонденция, так что списки отправленных в соответствующую папку сообщений все равно приходилось просматривать — чего и добивались организаторы массовых рассылок.

«Черные списки», использовавшиеся в корпоративных почтовых системах в разгар «нулевых» — это отдельная песня с нецензурным припевом. Помню одно крупное питерское издательство, с которым я сотрудничал в те времена: их серверы были настроены на прием писем только с собственного домена и одной-единственной российской публичной службы e-mail, все остальное безжалостно выжигалось напалмом. Никакого спама, но зато и никаких полезных сообщений от авторов, клиентов и партнеров, если их угораздило зарегистрировать свой почтовый ящик где-то в другом месте — удобство превыше всего! Да и «публичные блэклисты», записи в которые порой вносились на основании того, что робот в процессе рассылки случайным образом подставил чей-то адрес из спамерской базы в качестве отправителя, приносили больше проблем, чем практической пользы. В общем, эффективность подобных антирекламных мер вызывала сомнения с самого начала. Хорошо, что такие списки в конечном итоге сгинули в небытие.

С распространением фишинга почтовые фильтры научились проверять содержащиеся письмах ссылки по базам потенциально опасных и вредоносных сайтов. Здесь разработчики столкнулись с той же сложностью, что и производители антивирусов, использующих сигнатурный анализ. Пока вредоносная или фишинговая ссылка не попала в базу, фильтр не считает ее опасной, а с момента появления такой ссылки до момента добавления ее в списки проходит определенное время. Злоумышленники быстро освоили и оптовую регистрацию доменов, и автоматическую генерацию вредоносных URL. Иными словами, в этой «войне брони и снаряда» преимущество обычно оставалось на стороне последнего.

Немного изменило ситуацию к лучшему появление эвристических алгоритмов и «самообучающихся фильтров» — это был следующий эволюционный шаг в борьбе со спамом. Эвристические алгоритмы анализируют текст письма на наличие определенных слов и выражений, характерных для рекламных писем, причем учитывают не только сам факт наличия этих слов, но также оценивают их взаимное расположение и контекст. Многие спам-сообщения используют специфическую HTML-разметку или скрытые теги. Эвристический анализ выявляет аномалии в разметке, такие как невидимые ссылки, скрытые блоки текста, изображения и иные трюки, применяемые спамерами для обхода фильтров. Проверяется также наличие ссылок в теле письма. Важна и обратная связь от пользователя: если фильтр считает полезное сообщение спамом, или наоборот, пропускает рекламу, пользователь может пометить его вручную для корректировки алгоритма и повышения точности фильтрации.

Нужно ли говорить, что организаторы массовых рассылок внимательно изучают принципы работы таких фильтров и активно ищут методы их обхода? Эвристика, вне всяких сомнений, в разы эффективнее фильтров на основе шаблонов, но все равно работает не идеально. Я регулярно замечаю, что алгоритмы нет-нет, да отправляют в спам полезные рассылки от различных сервисов, а рекламу и фишинговые сообщения, наоборот, пропускают.

Наконец, относительно недавно на поле борьбы с массовыми рассылками — как рекламными, так и вредоносными — вышел искусственный интеллект, подкрепленный технологиями машинного обучения. В отличие от набора статических правил и традиционных эвристических алгоритмов, ML-подходы способны постоянно обучаться, самостоятельно обнаруживать новые паттерны спама и даже предугадывать, что является рекламой, а что — нет. Эти алгоритмы первоначально обучаются на огромных массивах данных, содержащих примеры как спам-сообщений, так и нормальной почты. Модель анализирует, какие признаки характерны для каждого типа писем, и самостоятельно строит правила, позволяющие идентифицировать спам даже в новых формах. Для этого применяют различные методы классификации, такие как логистическая регрессия, деревья решений, метод опорных векторов (SVM).

Более сложные и продвинутые системы могут использовать рекуррентные нейронные сети (RNN) или трансформеры. Эти архитектуры способны анализировать текст сообщений и понимать их контекст, что особенно полезно для выявления спама с необычными паттернами. Анализ содержания писем обычно выполняется на основе алгоритмов математической лингвистики и обработки текстов на естественном языке (NLP), вроде модели Word2Vec. ИИ-системы также способны выявлять аномалии в типичных коммуникационных паттернах: они уже сейчас умеют строить профили «нормального» поведения пользователя, чтобы затем выделять подозрительные сообщения, выбивающиеся из этой «нормы». А комбинирование и объединение нескольких алгоритмов увеличивает общую точность и качество фильтрации почтового трафика. Например, один алгоритм оценивает текст письма, другой — структуру, третий — поведение отправителя, а итоговое решение принимается на основе результата их совокупной работы. Против такого «Терминатора» с искусственным интеллектом у спамеров не так уж много шансов. Хотя организаторы массовых рассылок сами охотно берут на вооружение возможности нейросетей, так что и против этого «лома» рано или поздно найдется какой-нибудь хитрый приём.

Если с некоторой долей условности разместить все эти методы борьбы со спамом на временной шкале, то мы увидим, что прогресс технологий, эволюционировавших от простых настраиваемых вручную фильтров до применения нейросетей, в последние годы заметно ускорился.

Эволюция технологий борьбы со спамом

И знаете что? Интернет благодаря этому в целом стал намного безопаснее. Так, в фильме с участием Яндекс 360 о кибербезопасности «Цифровая тень: как крадут наши деньги?» прозвучала интересная статистика: 99% россиян в возрасте от 20 до 55 лет пользуются электронной почтой, и это на 10% больше аудитории популярных мессенджеров. Ранее компания делилась следующими данными: с начала 2024 года она заблокировала с помощью Спамообороны свыше 16 млрд. потенциально опасных писем, то есть, около 25% всего почтового трафика отказывается спамом. Что вызывает удивление в этих цифрах? Во-первых, несмотря на наступившую эпоху мобильных устройств и приложений вроде «Телеграма» и «Вотсапа», электронная почта по-прежнему остается основным инструментом коммуникации в интернете. А во-вторых, четверть от всего объема пересылаемых в сети писем — это очень, очень много.

Эти данные косвенно подтверждаются независимыми исследованиями, опубликованными на платформе IEEEXplore: количество отправляемых ежедневно сообщений электронной почты непрерывно растет: в 2024 году оно достигло 361,6 миллиардов писем, а к 2026 году должно превысить 392 миллиарда.

Количество ежедневно отправляемых и получаемых сообщений электронной почты, 2017–2026, по данным IEEE Xplore

При этом по данным агентства 99firms.com, среди мировых источников спама со значительным отрывом лидирует Россия.

Распределение стран по объему рассылаемого спама, 99firms.com

И если люди среднего возраста, буквально выросшие с компьютером в обнимку, еще способны скептически отнестись к письмам от адвокатов покойного нигерийского принца, и с опаской смотрят на вложенные в сообщения «фотографии» с расширениями .lnk и .js, то их пожилые родители попадают в группу риска просто в силу возраста. Порой очень трудно объяснить семидесятилетней маме, почему не стоит доверчиво переходить по ссылке в письме якобы от «Администратора вашего почтового ящика» с сообщением о том, что настало время сменить пароль, особенно если этот администратор — ее сын, использующий собственный почтовый сервер, и ему в случае необходимости можно просто позвонить. То же касается и детей, падких на обещания халявы, и безоглядно подписывающихся на любые сомнительные сервисы и рассылки в поисках читов для игр и готовых решений домашки по математике. В подобных случаях механизмы фильтрации почты и «умные ассистенты» на основе ИИ придутся очень кстати. Там, где естественный интеллект начинает буксовать, должен работать искусственный.

Есть и еще один важный аспект. До недавнего времени приемы борьбы с рекламными и вредоносными рассылками были реактивными: то есть, спамеры придумали новый метод обхода фильтров или начали использовать не встречавшийся ранее приём социальной инженерии — разработчики приложений ответили очередным правилом фильтрации и обновлением баз. А вот ИИ и ML-инструменты не просто реагируют на угрозы, появившиеся примерно позавчера, а адаптируются к эволюции спама. Благодаря способности самообучения такие фильтры поддерживают высокую эффективность даже при изменении тактики со стороны организаторов рассылок. Новые виды рекламных и мошеннических писем будут отфильтровываться быстрее, а число ложноположительных срабатываний должно, наоборот, пропорционально уменьшиться. Вряд ли это поможет полностью победить само это явление, но жизнь спамерам подпортит точно.

Так, по данным исследования IEEEXplore, использование ML-алгоритмов позволило повысить точность обнаружения спама до 95–99%. Системы на основе машинного обучения адаптируются к новым типам спама гораздо быстрее, чем инструменты на основе шаблонов или заранее запрограммированные фильтры. Другое исследование той же компании показывает, что такие алгоритмы, как байесовская фильтрация и методы глубокого обучения, способны значительно сократить количество ложноположительных срабатываний (например, при использовании подходов на основе обработки естественного языка). Основанные на ИИ антиспам-системы умеют прогнозировать поведение спамеров, что делает такие фильтры менее уязвимыми для методов обхода, которые часто используются организаторами массовых рассылок.

Но как бы ни совершенствовались методы защиты от спама, фишинга и распространения вредоносных программ, «спор брони и снаряда» не прекращается. С ростом изощренности спам-атак, особенно тех, что направлены на обман вероятностных и байесовских алгоритмов, требуются все более гибкие и умные технологии фильтрации. Этот процесс напоминает своеобразную гонку вооружений: каждое новое улучшение в технологиях антиспама стимулирует спамеров на разработку более продвинутых способов обхода, что, в свою очередь, ускоряет развитие и совершенствование защитных систем. В итоге повышается устойчивость всей инфраструктуры электронной почты и снижаются риски для конечных пользователей. Новые инструменты на основе искусственного интеллекта и машинного обучения помогают защищать их не только от уже существующих, но также от еще неизвестных угроз. Вот почему лично я считаю спам двигателем прогресса: он, безусловно, вреден, но благодаря ему цифровой мир в конечном итоге становится чуточку безопаснее.