Визуализация комментариев ютуб-каналов международных и локальных touhou-сообществ

Всем привет! Мы развиваем идеи первого поста и продолжаем визуализировать и изучать комментарии на ютубе. На этот раз мы поработаем с глобальными и локальными ютуб-сообществами. Как взаимодействуют комментаторы, которые пишут на разных языках? Собирается ли из множества локальных групп единое глобальное сообщество, или дело сложнее, чем кажется? И причем здесь Touhou Project? Давайте выясним.

zvopz_o8frji_edilc9qczwk_n8.png

Комментарии и сообщества — жанровая специфика, численность, языковой спектр

Для ответа на эти вопросы мы исследовали взаимосвязи между группами комментаторов ютуб-каналов, относящихся к сообществу Touhou Project (проект «Восток»). Как правило, эти каналы связаны с серией одноименных компьютерных игр в жанре даммаку (вертикальных стрелялок с огромным количеством пуль). По мотивам игр создается большое количество фан-арта. Из фан-арта и формируется основной контент ютуб-каналов — связанные с играми летсплеи, стримы, музыка, мультипликация и так далее.

Аудитория таких каналов относительно малочисленна, поэтому, с одной стороны, данные легко обработать и визуализировать, а, с другой, полученные выводы можно экстраполировать только на небольшие тематические ютуб-сообщества.

Для исследования были выбраны комментарии трех локальных языковых сообществ — русского, испанского и корейского (названия по преобладающим в комментариях языкам). В категории условно-международного сообщества рассматривались комментарии на английском и частично на японском языках. Так как контент Touhou Рroject изначально производился в Японии, то кана, к примеру, используется в качестве элементов описания на всех других языках.

Данные о сообществах

Все данные каналов кодировались. Каждому каналу присваивался уникальный тысячный номер, а каждому ролику — номер канала + порядковый номер ролика.

Международное сообщество представлено 25 каналами. Всего обработан 243281 комментарий. Код: 1000 — 25000.

(1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000, 11000, 12000, 13000, 14000, 15000, 16000, 17000, 18000, 19000, 20000, 21000, 22000, 23000, 24000, 25000)

2) Русское сообщество представлено 9 каналами. Всего обработано 6417 комментариев. Код: 30000 — 38000
(30000, 31000, 32000, 33000, 34000, 35000, 36000, 37000, 38000)

3) Испанское сообщество представлено 8 каналами. Всего обработано 14483 комментария. Код: 40000 — 47000
(40000, 41000, 42000, 43000, 44000, 45000, 46000, 47000)

4) Корейское сообщество представлено 8 каналами. Всего обработано 12968 комментариев. Код: 50000 — 57000
(50000, 51000, 52000, 53000, 54000, 55000, 56000, 57000)

Результаты визуализации

1) Международное сообщество: Ориентированный граф на 50552 узла и 117906 ребер.

p8yzd87oldnunyo6reoq_prg_rk.png

Несмотря на общую однородность поля комментариев, заметны два автономных региона с четкими контурами и один рассеянный.

Автономный серый регион на западе — комментарии к роликам канала 8000.

zftzhzlx8n3xb2-ky8rftqkjsbq.png

Изолированному региону соответствует не связанный с Touhou контент канала 8000. В основном это ролики с саундтреками к игре Final Fantasy (например, этот).

Автономный зеленый регион на северо-востоке — комментарии к роликам канала 7000.

7wr1dppv3emalzaqz1p_3km64om.png

Ролик 7024 собрал много уникальных комментаторов. Содержание ролика — прохождение игры Undertale. У этой игры есть собственное фанатское сообщество. Вероятно, уникальные комментаторы пришли оттуда.

Рассеянный бежевый регион на юге — канал 3000.

pkvaeex4knon5mkr4_6dtpu3pdo.png

В основном изолированные регионы — это ролики о GTA и других не связанных с Touhou играх (3015, 3036, 3038, 3049, 3051, 3063 и другие).

То есть большинство изолированных регионов в международном сообществе — это не связанный с Touhou контент.

2) Русское сообщество: ориентированный граф на 3655 узла и 5180 ребер.

uznotoh0wjrtrvlzhmmrlwk_yey.png

Наблюдается общее поле комментариев, имеющее тенденцию к разделению на две части, и выделенный (фиолетовый) регион.

Выделенный фиолетовый регион — ролик канала 38000, представляющий собой оригинальный контент — подготовленные авторами канала английские субтитры к композиции на японском языке. Комментарии к ролику на английском языке, комментаторы для этого канала преимущественно уникальные.

3) Испанское сообщество: ориентированный граф на 5866 узлов и 9843 ребер.

bjavaunbotsdytah5nibvjd_viu.png

Наблюдаются три автономных региона. Красный регион — канал 40000. Оранжево-черный регион — канал 45000. Сине-фиолетово-зеленый регион — канал 46000.

Контент всех трех каналов представлен фан-артом. Вероятно, разделение на изолированные регионы связано со спецификой деления внутри сообщества. Например, контент канала 40000 в основном связан с косплеем, размещенные в нем ссылки также ведут на каналы о косплее.

4) Корейское сообщество: ориентированный граф на 4113 узла и 6763 ребра.

x8fxgtfgoh44sjygwz2qltn6oa8.png

Наблюдаются два больших (фиолетово-синий и зелено-черный), а также несколько мелких автономных регионов (малиновый, оранжевый, темно-зеленый и так далее).

Фиолетово-синий регион: канал 57000. Зелено-черный регион — каналы 51000, 52000 и 53000.

В целом все регионы представлены комментариями к связанному с Touhou контентом. В отдалении от остальных иногда попадаются комментарии роликов с не относящимся к Touhou контентом, например, 52003.

Испанское и корейское сообщества похожи: основную массу комментаторов аккумулируют каналы с большим количеством контента, остальные каналы отчетливо отделены от них. Русское сообщество по сравнению с ними взаимодействует сильнее, что видно по общему региону комментариев. Это объясняется тем, что большинство представленных в выборке русских ютуб-каналов связано друг с другом через ссылки, размещенные на каналах.

5) Все сообщества — локальные языковые (2, 3, 4) и международное (1): ориентированный граф на 62340 узлов и 185412 ребра.

j2jfurba4-osisuavugewfi4wmk.png

Есть общее скопление комментариев и отходящие от него ветки.

Темно-зеленая ветка в северо-западном направлении — русское сообщество.

ntiwox6kybzp7-her3ci1p4kqtg.png

Испанское сообщество (серый цвет): его основная часть сконцентрирована на юго-западе.

-61nn49fck-gqjlpb3hje44krbk.png

Отдельная ветка испанского сообщества, представленная каналом 40000, есть в северо-восточном направлении.

u0lldwqpdk1dknx3kq6uxk26tpe.png

Черная ветка в в юго-восточном направлении — корейское сообщество.

hda9wabnafrfhzja0stjetfhsey.png

Заметно, что корейское сообщество сильнее связано с международным, его основная часть (канал 57000) практически слилась с регионом канала 13000.

kkct1ct99kkz_12eju_iyz1zite.png

Похожая ситуация и с испанским сообществом, его юго-западная ветка (канал 46000) совмещена с международным регионом (канал 20000).

3jntb-6rhh4d2dn5w4siwfuutvm.png

Основная же часть русского сообщества (канал 38000) находится на большом расстоянии от ближайшего международного региона.

fsjma3koibkxi5963gfohkmb0h4.png

Ранжирование каналов по степени взаимодействия

В заключение нашего обзора поговорим о такой штуке, как ранжирование каналов. Наш подход базируется на очень простом наблюдении. Если допустить корреляцию между пространственным расположением комментариев и их пересечением с множеством других комментариев, то чем ближе отдельный комментарий к центральному скоплению, тем больше это пересечение.

На основании этого можно ранжировать комментарии отдельных каналов и роликов, как локальных языковых, так и международных. Пример ранжирования каналов в зависимости от приближенности / удаленности комментариев от общего глобального центра представлены в таблице (каналы распределены вниз по убыванию взаимодействия).

5vufcylowdarvijwqmbhvvwqrlo.png

Нужно уточнить, что это лишь один из наиболее простых вариантов ранжирования, когда локальные группы находятся в прямой зависимости от глобального региона. Однако визуализация локальных групп показала неоднородность распределения внешних (глобальных) и внутренних (локальных) связей комментаторов. Высокая связность некоторых каналов испанского и корейского сообществ практически делает их частью глобального региона, но с другими локальными каналами они связаны слабо. Например, испанское сообщество при относительно высокой интеграции с глобальным регионом является разделенным на два практически не связанных друг с другом региона изнутри. Русское сообщество является относительно дистанцированным от международного региона и демонстрирует сильную связанность изнутри. Эти примеры показывают ограниченность простой модели ранжирования локальных групп относительно общего глобального центра. Также это говорит о возможности создания модели, включающей локальную специфику в качестве критериев оценки. Очевидно, что эта задача требует отдельного исследования, чем мы и займемся.

© Habrahabr.ru