Как находить ботов на ютубе: внешние паттерны взаимодействия комментаторов

Всем привет! Это небольшой пост (с большим количеством картинок) о визуализации и анализе комментариев на ютубе. Предыдущие посты: 1, 2.
В этот раз мы поговорим о комментариях, которые отличаются от большинства других комментариев и представлены в виде отдельных регионов. Обычно они ассоциируются с поведением ботов, но это может быть и другое автономное сообщество комментаторов. Что они из себя представляют и как их находить на ютубе? Давайте выясним.

Об исследовательской гипотезе: внешние и внутренние комментарии

Если вкратце воспроизвести нашу исследовательскую гипотезу, то взаимодействие комментаторов проявляется в устойчивых и воспроизводимых формах. Мы называем их паттернами.

Различие и многообразие паттернов проще всего продемонстрировать на пространственно-геометрическом расположении комментариев относительно друг друга. Для этого воспользуемся визуализацией комментариев к этому каналу:

40jyzhk47j6vw_jmwxc2uowtywg.png

На визуализации отчетливо выделяются по крайней мере две категории паттернов — внутренние и внешние.

Внутренние паттерны относятся к комментариям, которые связаны с большинством других комментариев. Наличие внутренних паттернов говорит о формировании постоянной аудитории комментаторов. Подробнее о типах внутренних паттернов мы поговорим в следующий раз, так как эта тема требует детального исследования. А сейчас обратимся к исследованию внешних паттернов.

Внешние комментарии слабо связаны с большинством других комментариев. В то же время некоторые внешние паттерны могут демонстрировать сильное взаимодействие локализованной группы комментариев (кластеризацию), но оно проявляется только к определенной малой общности, а с большинством комментариев эта группа связана слабо. Поэтому мы вводим дополнительные понятия внешних паттернов со слабыми и сильными связями.

В качественном исследовании внешние комментаторы представлены аудиторией, которая демонстрирует узкую специализацию действий. Эти действия принято ассоциировать с поведением ботов и других представителей «искусственной аудитории» (призоловов и так далее). Их отличие от «естественных» комментаторов — в направленных на определенную цель коллективных действиях.

А теперь рассмотрим некоторые типы внешних комментариев на примере комментаторов ютуб-каналов.

Паттерны «Боты» и «Призоловы»

Для исследования внешних комментаторов и свойственных им паттернов взаимодействия, тип которых мы определили как «Боты» и «Призоловы», мы рассмотрим комментарии канала 1.

07tqhv4ntmkwofzcs2lfntlr1qa.png

В северной части визуализации заметен красный «хвост» комментариев.

or6onjpbws30adtudgpb_va9f1w.png

Для анализа взяты комментарии роликов 201, 349, 375, 424, 433, 464.

zz-n4pboebunvq2xj7tgdbpfo7a.png

В основном это однотипные комментарии к роликам про товары одного из производителей игрушек.

Ролик 201:

Скриншот
o9h5g_g89txj6mvuzj5fcmecwiy.png

Ролик 349:

Скриншот
gsjdxizbhuk-g7emjsbptebhzte.png

Ролик 375:

Скриншот
lz6vfsgi1v9n0iukdrvbjaqavpi.png

Ролик 424:

Скриншот
3wklrvlyrtk-hhlvc24vp4dhcx8.png

Ролик 433:

Скриншот
hw5w6v-gsv_dgnfnctughfcd2yi.png

Ролик 464:

Скриншот
_xyvbqbm6ecpgy6tmyt_xdbhram.png

В первом приближении такой тип комментирования очень похож на поведение ботов: однотипные высказывания в позитивной тональности, однотипное построение предложений с незначительной перестановкой их частей. Впрочем, если допустить, что комментаторы — это взрослые люди, которые ностальгируют по игрушкам из девяностых и пишут в похожем стиле, то оценка комментариев может измениться, то есть для окончательной оценки нужно провести полноценный количественный и качественный контент-анализ.

Для сравнения тональности комментариев были взяты комментарии к ролику 377 из центра облака внутренних комментариев:

7m7bjt5uzcjcj4cci_k4vcl0k_s.png

Скриншот
_u1khgao9s-d3ag-7ijl1u3q0iy.png

Тональность и стилистика комментариев заметно отличается от представленных выше. Тип комментаторов совершенно другой, впрочем, тоже обладающий общей тональностью и стилистикой. По крайней мере, можно говорить о существовании двух типов комментаторов на канале. Они сегментированы и слабо взаимодействуют друг с другом, одних много, а других мало.

Следующий сегмент расположен в серой зоне на юго-востоке:

dywqalqbcazwv1k1_4uatfwrp-g.png

Рассмотрены ролики: 36, 436, 472, 511. Все ролики связаны с конкурсами от одного из производителей игрушек.

ucuavbndgj2ltueb2gkhl1df-we.png

Ролик 511:

Скриншот
kngylud1mg44lbsyiwmc9oomtd0.png

Ролик 436:

Скриншот
pe7d6qzn6bmqattkdh8oowxeh_g.png

Ролик 36:

Скриншот
iaz4ob6hoxjf7bqqicbf26q5zw4.png

Ролик 472:

Скриншот
xktv8ek8rovuz4lo-ifqsgcjmhi.png

Из содержания скриншотов можно сделать вывод, что это сегментированная аудитория комментаторов, и она главным образом ориентирована на участие в конкурсе. Для ее идентификации мы использовали распространенное в SMM определение «призоловы».

Рассмотрим коментарии к роликам канала 2:

sxxtw9hvhjxmnpiciinhpbprrn4.png

Нас интересует изолированный (изумрудный) регион комментаторов на северо-западе. Для анализа выбраны комментарии к шести роликам.

sjfef_uqmivgdsu3jcp_wewdzgo.png

Ролик 4:

Скриншот
aotbjrqf0rcl_s7bb4btu-xwcm0.png

Ролик 21:

Скриншот
vfvizv8tgbfbeqx03pg-kccdici.png

Ролик 90:

Скриншот
jrs1woprxqolyql4coztb8sa800.png

Ролик 100:

Скриншот
id8cn7sfxaijudy1ycasj56n4yo.png

Ролик 113:

Скриншот
vlcgi2_7kx26u6mbjkhpu3el2n4.png

Ролик 180:

Скриншот
4z-pzeqou6cqsl9n9xgv4piv798.png

Тональность и стилистика комментариев однообразны. В целом к комментариям подходят выводы из предыдущего примера с паттерном «Боты» (канал 1).

Для сравнения выбран контрольный ролик 163:

jlu4hu8-4oxadmgyp_ppse-d0u0.png

Скриншот
ftfz6y2qnstkdqkwqns5hs3vcg0.png

Несмотря на схожую с предыдущими роликами тему (борьба с избыточным весом), тональность и стилистика комментариев гораздо разнообразнее.

Исходя из содержания скриншотов можно предположить, что основная цель сегментированной группы комментариев — продвижение роликов на определенную тему (борьба с избыточным весом).

Рассмотрим канал 3, ролик которого атакован спам-ботами:

1-cassjpva5vplahwvsljiourug.png

Ролик 542:

Скриншот
qcvhu7jzahwlmshasveoairw3i0.png

Комментарии однообразны и преследуют одну цель — рекламу веб-сайтов.

Паттерн «Иностранцы»

Естественно, далеко не все сегментированные группы комментариев являются результатом атаки ботов. В качестве примера рассмотрим комментарии к ролику канала 4:

i-dlb56crrtt_5b0pdyg7rkfjwq.png

Скриншот
heiqrvizfa_r77bbstgnlbsburs.png

Из содержания скриншота и описания к ролику ясно, что мы имеем дело с уникальными англоязычными комментаторами на русскоязычном канале, так как данный ролик представляет собой оригинальный контент, рассчитанный на англоязычную аудиторию.

Суммируем данные

В целом анализ внешних регионов визуализации комментариев показал, что им соответствуют изолированные аудитории, заметно отличающиеся от основной части комментаторов ютуб-каналов. Естественно, в каждом выделенном случае необходимо детальное исследование содержания комментариев. Тем не менее, тот факт, что работая с большими данными, мы практически сразу можем выделить регионы, потенциально населенные ботами и другими искусственными группами комментаторов, предоставляет возможность использования этого подхода в ранжировании и оценке ютуб-каналов.

© Habrahabr.ru