[Из песочницы] Визуализация комментариев на ютубе: ролики, каналы, жанры, кросс-жанры

Всем привет! Таннер Стоукс в свое время написал адд-он, переделывающий текст комментариев на ютубе в «herp derp». Кому-то это сделало жизнь намного лучше. Мы пошли по тому же пути, но немного изменили концепцию. Мы представляем комментарии с ютуба в виде картинок, а точнее графов с вершинами и ребрами. И визуализируем все типы объектов — от роликов и каналов до кросс-жанровых пересечений. Как мы это делаем? Давайте выясним.

bxo9b1_h2fhcqgr3l9rbvvwxpww.png

Зачем мы визуализируем


Философы говорят, что важны не факты, а их сопоставление. Так же и нам важен не сам факт комментирования видеоролика, а сопоставление действий комментаторов в разных роликах. Устойчиво воспроизводимые ситуации соответствуют паттернам, видимым в визуализации. Основная задача, которую мы выбрали — это визуализация и обнаружение на ее основе регионов — паттернов, а также общее картографирование взаимодействия комментаторов на ютубе с целью составления атласа комментариев.

Софт


Для выкачивания комментариев мы до недавнего времени использовали веб-сервис Youtube Comment Scraper, позволяющий выкачивать комментарии выбранного ролика.

Сейчас мы используем собственную тулзу, позволяющую выкачивать комментарии одного или нескольких каналов целиком, что для наших целей гораздо удобнее.

Для визуализации данных мы используем Gephi v. 0.9.2. Для укладки вершин и ребер мы используем алгоритм Force Atlas 2. Для отображения статистики используются функции «Средняя (взвешенная) степень» и «Модулярность».

Алгоритм


Возникает вопрос, а как можно отслеживать комментарии, какие объективные показатели нужно для этого взять? Мы попробовали привязать имена пользователей к идентификаторам роликов — в нашем случае их последовательной нумерации, например, «OverlordXXX» — »1»; «Overlord XXY» — »2» и так далее. Затем создали два файла, «Nodes» и «Edges», по этому мануалу.

Визуализация в Gephi выглядит следующим образом. Комментаторы (1) соединены с роликами (2), что и представляет собой комментирование. Если комментатор комментировал более одного ролика, он связан со всеми роликами, которые он комментировал (3).

c5nfznffbzjuzhruwzyp3eok6g0.png

Визуализация комментариев к видеороликам


Для сравнения комментаторов было выбрано три ролика (1, 2, 3).

Результат визуализации комментариев к роликам в Gephi:

eblvfzjmq8hf7sbpyh4hcwvj4hw.png

Комментарии к роликам представлены в виде ориентированного графа, имеющего 12647 узлов и 6370 ребер. На визуализации видно, что взаимодействие комментаторов между тремя роликами проявлено слабо. Этому во многом соответствует различие в содержании видеороликов, что отразилось на комментировании каждого из них. В первом ролике демонстрируется опыт с магнетроном. Второй ролик включает как опыт, так и освещение событий, непосредственно не связанных с опытом. Третий ролик посвящен только событиям без привязки к опытам.

Для контрольного измерения использовались ролики того же канала (1, 2, 3), но в отличие от предыдущих он сильнее связаны друг с другом схожим контекстом (опытами с участием меметичного каскадера).

Результаты визуализации:

mvhiybthea6zn7ipi2wwefwuhf4.png

Комментарии к роликам представлены в виде ориентированного графа, имеющего 11305 вершин и 9302 ребра. Общему контексту соответствует сильное взаимодействие комментаторов по крайней мере двух из трех видеороликов.

То есть разница или наоборот общность комментаторов в разных роликах коррелирует с разным или наоборот общим контекстом видеороликов. Что интересно, визуализация даже без предварительного знакомства с контентом это очень хорошо улавливает.

Визуализация комментариев ютуб-канала


Для визуализации было выбрано 472 286 комментариев 172 видеороликов канала:

4qfglm-ddiuffs1nmftd7mwba68.png

Общее облако комментариев связывает большинство роликов. На этом основании мы можем говорить о канале как семантической (смысловой и контекстуальной) целостности. Но есть и интересные региональные особенности. Нетрудно увидеть выделяющиеся вверху изображения регионы двух симметричных множеств комментариев, раскрашенных зеленым и синим цветами:

a83utg9wawefe-og2x2rtiqwhsu.png

Как выяснилось, их образуют комментарии к четырем роликам о петардах (1, 2, 3, 4), где проводился розыгрыш пиротехники.

Можно предположить, что относительно низкая связанность этих роликов с остальными объясняется переходом на них по ссылкам извне и, как следствие, появлением специфической аудитории, имеющей опосредованное отношение к остальному контенту канала.

Предварительный вывод — в визуализации комментариев хорошо работает выделение регионов. А дальше можно исследовать отдельный регион с помощью качественных методов — например, контент-анализа и этнографии.

Визуализация комментариев ютуб-жанра: обзор фильмов


Для работы с жанровым полем были использованы девять ютуб-каналов (1, 2, 3, 4, 5, 6, 7, 8, 9), авторы которых указали в описании обзор фильмов как основной тип контента.

Визуализация 1 920 865 комментариев к роликам всех каналов:

4fqchiqeaa8ywwqvzpfxbehjx_m.png

Визуализация показала, что два больших (от 1 миллиона подписчиков) канала буквально поглощают семь малых (до 500 тысяч подписчиков) каналов. Фактически малые каналы стали регионами больших каналов, что заметно на картинке в виде соответствующего цвета региона. Можно предположить, что комментаторы малых каналов в большинстве входят в число комментаторов больших каналов. То есть для их исследования больше подходят, к примеру, диаграммы Венна, где точно видно, сколько их и в каких пропорциях они представлены в разных каналах.

Для контрольного сравнения были визуализированы 513282 комментария восьми каналов (1, 2, 3, 4, 5, 6, 7, 8) в жанре бьюти-блогов:

mjnuhffbc7el9ckt2sb3u6eeh-u.png

Сильное пересечение каналов наблюдается только в двух подмножествах, в то время как два канала (черный и сиреневый) относительно слабо связаны с остальными. В отличие от первого примера комментаторы бьюти-блогов менее склонны к взаимодействию и в некоторых случаях представляют собой относительно изолированные аудитории. Следовательно, это нужно учитывать при задаче максимального охвата аудитории каналов, к примеру, в рекламных целях. Если в случае с обзорами фильмов достаточно заказать рекламу на каналах-миллионниках, то в случае с бьюти-блогами нужно заказывать рекламу в том числе и на изолированных каналах, иначе их аудитория не будет охвачена.

Визуализация комментариев кросс-жанровых пересечений


Для визуализации кросс-жанрового пересечения было отобрано три канала в жанрах бьюти-блога (1, 14 231 комментарий к 115 роликам), экспериментов (2, 72 163 комментария к 81 ролику) и путешествий (3, 135 403 комментария к 482 роликам).

1) Визуализация пересечения комментаторов бьюти-блога и экспериментов:

dqismylkoxophtfj-rka0lf53f0.png

2) Визуализация комментаторов экспериментов и путешествий:

_6nhwixmnyrukrrd4y8lo1_3q-y.png

3) Визуализация комментаторов бьюти-блога и путешествий:

rvrufts5sqfnmtdm5zfr9qoqg4k.png

4) Визуализация комментаторов всех каналов:

tul-plfawjc5hckzdiie2hxvzxy.png

Визуально можно заметить, что комментаторы каналов о путешествиях и экспериментах имеют ряд пересечений, а комментаторы бьюти-блога несмотря на общую изолированность от остальных больше связаны с комментаторами путешествий, чем с комментаторами экспериментов.

Предварительные результаты


Общий тренд на визуализацию оправдывает себя в случае исследования комментариев.
В случае исследования каналов или отдельных роликов визуализация позволяет выделять и детализировать интересующие исследователя регионы. Это сильно упрощает последующее качественное исследование комментариев и видеоконтента ютуб-каналов.

С практической стороны визуализация пересечения активной аудитории канала (комментаторов) может быть полезна, к примеру, в случаях оптимизации рекламы на каналах. Если в ходе визуализации выявлено сильное и устойчивое пересечение комментаторов каналов / множеств каналов, это позволяет правильно распределять рекламу и как следствие экономить на ее размещении.

© Habrahabr.ru