В Twitter случайно обнаружена сеть из 350 000 ботов. Бот-мастер прокололся на геотегах

b64bd4fa5eae481fae6b3f02059f72a5.pngПо официальным данным, активная аудитория Twitter превышает 313 млн человек. Точнее будет сказать, 313 млн пользователей, потому что какую часть пользователей составляют живые люди — достоверно неизвестно. Ежедневно в Twitter генерируется около 500 млн сообщений, и очень трудно следить и анализировать такой огромный поток информации на предмет подозрительной активности.

Много лет Twitter является предметом внимания учёных. Ранее исследователи изучили граф пользователей Twitter и попытались создать модель влияния отдельного пользователя. Очень перспективным направлением исследований считается анализ потока твитов в реальном времени — для предсказания трендов, настроений общества, результатов выборов, оперативного выявления важных событий, очагов вирусных инфекций, землетрясений и тайфунов.

Твиттер-бот — пользовательский аккаунт Twitter, который действует с минимальным участием человека или без него. Ботнет — группа аккаунтов, созданных и управляемых одним лицом, именуемого бот-мастером. Это неплохой бизнес, поскольку бот-мастер может продавать свои услуги для распространения спама, продажи фолловеров и манипуляции общественным мнением. В предыдущие годы исследователи подробно изучили, как повышается влияние бота (раскрутка перед работой), как происходит проникновение в твиттер-окружение для установки связей с живыми пользователями и слияния с общей массой юзеров, как боты используются для пропаганды. Торговля твиттер-ботами происходит на чёрном рынке, также как аккаунтами в Facebook, YouTube, Gmail, Linkedin и проч. Тысяча аккаунтов в Twitter (подтверждённые по почте, с аватарами, изменённой темой и биографией — то есть со всем «фаршем»), у российского брокера buyaccs.com стоят $60.


Спам. Рассылка другим пользователям большого количества рекламных ссылок, распространение вредоносного программного обеспечения.

Распространие фейковых «трендинговых» новостей. Поскольку боты расцениваются к реальные аккаунты живых людей алгоритмами Twitter, то точно так же они расцениваются при вычислении «трендинговых» тем и хэштегов. Это позволяет создавать фейковые трендинговые темы, которые изначально не были популярны в твиттере, но попадают в список трендов, а оттуда — к настоящим блогерам и в СМИ.

Манипуляция общественным мнением. Если сеть ботов вовремя не выявлена, то бот-мастер может опубликовать большое количество положительных/негативных сообщений на определённую тему, которые исказят результаты исследований общественного мнения, проводимых в Twitter исследователями, коммерческими и государственными организациями.

Астротурфинг. Технология искусственного создания общественного мнения путём размещения многочисленных твитов, оформленных как совершенно независимые мнения частных лиц, маскируя спонсора астротурфинга.

Фальшивые фолловеры. За определённую плату тысячи ботов по команде бот-мастера могут подписаться на твиты клиента для придания его аккаунту большей значимости из-за большего числа подписчиков.

Загрязнение Twitter Streaming API. Есть подозрения, что сообщения ботов можно организовать таким образом, чтобы они попадали в отфильтрованную выборку Twitter Streaming API, которая используется многими для дата-мйнинга, с вероятностью до 82% вместо ожидаемой 1%.


Сама компания Twitter и независимые исследователи разработали ряд продвинутых технологий для определения ботов в социальной сети, в том числе с помощью машинного обучения по вычислению расстояния Левенштейна между твитами и т.д.

В большинстве исследований ботнетов Twitter для изучения использовали выборочные наборы данных, составленные случайным прохождением по графу или на основе Twitter Streaming API. В обоих случаях такие выборки будут искажёнными. В первом случае — в сторону пользователей с большим количеством друзей/фолловеров. Во втором случае — в пользу более активных пользователей.

Вместо этого исследователи с кафедры информатики Университетского колледжа Лондона составили выборочный набор данных по идентификаторам (ID) твиттер-аккаунтов (pdf). Для изучения они взяли 1% пользователей Twitter, то есть каждого сотого. Для всех были извлечены профили через API, затем отфильтрованы неанглоязычные профили. В итоге осталась выборка из 6 млн англоязычных аккаунтов.

Изучение этого набора данных дало очень интересный результат. Аккаунты из этой выборки опубликовали 843 млн твитов, из которых примерно 20 млн с геотегами. Выяснилось, что географическое расположение геотегов в целом коррелирует с плотностью населения, кроме двух больших областей в Европе/Африке и Северной Америке, равномерно заполненных ненулевым количеством твитов с геотегами в этом районе, включая моря, пустыни и районы вечной мерзлоты. Распределение твитов с геотегами по обоим прямоугольникам абсолютно равномерное, 50% твитов опубликовано в Северной Америке, 50% твитов в Европе.

af2a1db3b5724995a22d5ddd887fdf44.png
Цвет соответствует количеству твитов. Географическое расположение геотегов в Twitter в целом коррелирует с плотностью населения в мире, кроме двух больших прямоугольных областей в Европе/Африке и Северной Америке, равномерно заполненных ненулевым количеством твитов, включая моря, пустыни и районы вечной мерзлоты

Причём все эти твиты принадлежат конкретному диапазону идентификаторов Twitter ID, как показано на графике.

262b05e2a68a4e6bb7c06ddcad8cac90.png

Этот ботнет получил название Star Wars, поскольку боты активно публиковали цитаты из фильма «Звёздные войны».

d2c8388ac3ba4074bde2733865facaae.png

Ещё одной характерная особенность ботнета — публикация твитов только со смартфонов под Windows.

9d47e72e9fd64189846d32a5ba7ba101.png

Для дальнейшего изучения этого и других ботнетов исследователи просят пользователей Twitter сообщать о выявленных ботах на сайте thatisabot.com.

37b6a7f575cfa07c2a8fd9919caae320.jpg

© Geektimes