[Из песочницы] Исследование датасета с IMDB

604990aaf7a444019044c0cf20222382.jpg

Проблематика


Фильмы — это круто, фильмы вдохновляют нас,  наполняют уверенностью,  в общем дают нам многое. И поэтому в этой статье я бы хотел рассказать вам об исследовании тенденций современного кинематографа с помощью инструментов анализа данных, который уже был презентован в финале Science Slam ITMO University 2.0. Полный выпуск доступен здесь.

Однажды на Кинопоиске я наткнулся на незнакомый фильм. Это оказался «Зеленый Слоник» — пресловутая лента эпохи VHS. Те, кто слышали про него, могут понять впечатления, которые я ощутил после прочтения странички об этом фильме на Википедии…

3795d1ad9a104276ac57fc4b5a8a4d69.png

Но дурацких фильмов пруд пруди и стоит ли им вообще уделять хоть какое-то внимание?  А вот рейтинг этого фильма оказался аномально высоким. И это очень удивило, ведь как такой откровенный кинематографический «шлак» набирает рейтинг выше среднего (по всем фильмам).

И вот я,  полон скептицизма и недоверия к Яндексу системе рейтингования, вооружился инструментами для анализа и визуализации данных на основе python стека (sklearn, pandas, matplotlib, numpy) и решил разобраться почему у подобных фильмов могут появляться приличные рейтинги. Под катом вы найдёте интересные и неочевидные выводы о современном (и не очень) кинематографе, а также много иллюстраций к ним.

Данные в первую очередь


Итак,  начинать надо с поиска данных, которые мы собственно и собираемся анализировать. Конечно, не очень хотелось собирать данные вручную, а хотелось сразу сосредоточиться именно на их анализе. Поэтому я тут же начал искать нужный датасет в интернете. Нашёл его в том месте, куда стоило заглянуть в первую очередь — на сайте kaggle.com. Это оказался датасет, содержащий более 5000 фильмов с известного сайта о кинематографе imdb. В признаковом описании каждого фильма содержалось немало категориальных и вещественных признаков, с которыми вы можете ознакомиться на страничке датасета страничке датасета.

Но так как мне изначально был интересен именно рейтинг Кинопоиска, поиск нужного датасета продолжился. АПИ Кинопоиска оказался закрыт, а писать парсер html страничек сервиса было лень не было времени из-за завала на учебе. Поэтому я решился и написал в службу поддержки Кинопоиска с просьбой предоставить датасет для исследования исключительно в академических целях. К большому удивлению мне даже ответили, но ответили негативно. В итоге найти ничего другого не удалось. Датасет с Кинопоиска я обязательно соберу, но не ранее, чем после сессии. А сейчас для анализа пришлось взять тот датасет IMDB. 

Из чего состоит статья


Исследование найденного датасета разделилось на две объёмные части:
  1. Обучение алгоритма предсказания (рейтинг фильма является целевой меткой)
  2. Поиск интересных и нетривиальных корреляций в данных

В данной статье я хотел бы уделить больше внимания именно второй части исследования, но лишь замечу, что в первой части я пробовал обучать большое количество разных моделей. Точность предсказания, которой удалось добиться с помощью градиентного бустинга составляет 0.4 балла (mse ошибка) по шкале IMDB. Но процесс построения предсказательной модели заслуживает отдельной статьи, а в этой предлагаю сосредоточиться на втором пункте.

Начнём


Вторую часть своего исследования я начал с того, что взял алгоритм линейной регрессии с lasso регуляризацией, обученный в первой части и построил диаграмму весовых коэффициентов признаков. Давайте взглянем на неё:

e9f65eea7576408bba8e62b1cfe516ba.png 
Столбцы «Режиссер»,  »[123] Актёр» соответствуют количеству лайков на Facebook у соответствующих личностей. «Формат» — это соотношение сторон картинки. «Лица» — это интересный вещественный признак, отражающий количество лиц на постере фильма. Значение остальных признаков очевидно. На данной диаграмме можно отметить несколько интересных моментов:

  • Длительность фильма даёт положительный вклад в рейтинг фильма (видимо длинные фильмы лучше заходят зрителям)
  • Год даёт отрицательный вклад (то есть чем новее фильм, тем больше вероятность, что рейтинг окажется низким)
  • Количество лиц на постере тоже даёт негативный вклад
 
Последний пункт у меня, как у поклонника фильма «Отель Гранд-Будапешт»,  вызвал негодование, но с алгоритмом не поспоришь.

Жанр


Теперь давайте взглянем на, пожалуй, главный признак киноленты — «Жанр».

240889bce16746dc95c4fb5cf2d4e92f.png

effe1961b35c4401a0fdba4332f39d3c.png

На первой диаграмме отображена первая топ десятка жанров, на второй жанры с 11 по 20 место по среднему рейтингу.

Оказывается наибольший рейтинг набирают документальные, биографические и исторические фильмы. В свою очередь с большим отрывом наименьший рейтинг набирают фильмы из жанра ужасов.

Страна производства


Достаточно интересный результат можно наблюдать на диаграмме, отражающей средний рейтинг фильма из различных стран. Давайте рассмотрим топ шестерку стран по среднему рейтингу:

5ac0616d7b084f3f8a82f080467f1d0b.png

Как видим наиболее рейтинговые фильмы (в среднем) снимают в Великобритании, после которой идёт Франция, а вот Австралия на третьем месте стала весьма интересной неожиданностью. Лично мне трудно было сходу вспомнить хоть какой-то высокорейтинговый фильм из Австралии. Погуглив,  удалось выяснить, что недавно вышедший фильм «Безумный Макс: Дорога ярости». А вот то, что американцы, заняли место вне топ тройки, весьма удивляет. 

А теперь давайте взглянем на финансовую составляющую — на затраты каждой из стран на своё кинопроизводство:

e267ab8e4371455193efd35ae51dd9e0.png
Тут всё вполне ожидаемо,  США лидирует с огромным отрывом, правда это не состыкуется с предыдущей диаграммой. Получается, что американцы нерационально используют свои ресурсы, раз тратят больше, но по качеству проигрывают. Хотя никто не отрицает, что они могут брать не качеством, а количеством.

Время


Теперь давайте рассмотрим как разные признаки фильмов зависят от времени. На данном графике отображается средний рейтинг фильмов в какой-то момент времени:

00c67686df8e4b509f34e9411d23991e.png

Можем увидеть, что средний рейтинг фильмов растёт обратно пропорционально году выпуска фильма. 

В свою очередь этот факт не состыковывается с содержанием следующего графика:

cd3f582b0676469f9c3edffcec78c779.png

На данном графике отображена динамика изменения среднего бюджета фильма. Из последних двух графиков можно сделать вывод, что с годами мы тратим на фильмы больше, а получаем их по качеству ниже.

Также весьма интересную картину дала зависимость средней длительность фильма от времени:
a3c65cc4d0a84b20b3c3f96702acf1e5.png

Можно видеть, что самые длительные фильмы снимали в 70е годы. Это очень трудно поддаётся объяснению и можно быть уверенным, что никто точного ответа на это не знает. Можно лишь предположить, что в 70е годы видео- и аудиоаппаратура получила серьёзное развитие, в то же время у режиссеров и сценаристов было море идей и поэтому им было трудно остановить поток мыслей. А в наше время уже снято настолько много фильмов, что уже трудно придумать что-то новое и поэтому фильмы делают короче.

Выводы


Как видим Data Mining исследование даёт весьма интересные результаты и могут быть использованы для анализа различных текущих процессов в одной из самых динамичных и быстроразвивающихся индустрий мира. Хорошим примером использования этих зависимостей на практике является сериал «Карточный домик». О том, как компания Netflix подбирала режиссеров и актеров с помощью методов анализа данных вы можете почитать здесь.

Комментарии (1)

  • 23 декабря 2016 в 17:52

    0

    Спасибо за статью!


    Может быть, пригодится моя статья на хабре про то, как парсить КиноПоиск: https://habrahabr.ru/post/280238/


    Кроме того, у меня остался dataset и сырые html-ки (правда, он был собран полгода назад и не содержит последние новинки). Если интересно, могу поделиться для дальнейших изысканий :)

© Habrahabr.ru