IMDB, «Зловещие Мертвецы» и немного Excel

14bc65adaf7e47d1d36ef223d6fbd0be.png В одном обсуждении с подругой фильмов у нас возник вопрос —, а действительно ли «Зловещие мертвецы» (фильм 1981 года, а не недавний убогий ремейк ремейка… ремейк в квадрате?) для своего времени был очень дешевым, бюджетным фильмом, как часто упоминается в различных обзорах? Ну, а любопытство ведь нужно удовлетворять… В качестве источника данных возьмём сайт IMDB.com, благо там часто можно найти строчку с бюджетом.Шаг первый. Определим конкурентов.Рассматривать мы будем фильмы в жанре horror (ужасы), вышедшие с 1975 по 1985 год. Таким образом «The Evil Dead» окажутся как раз примерно в середине промежутка. Так же будем учитывать только фильмы с рейтингом не менее 6 баллов на том же IMDb — он конечно порой сбоит, но в целом, кажется достаточно адекватным. Фильтр по оценке сделан, что бы отсеять условный «трешак».Шаг второй. Скачиваем и выдираем данные о конкурентах. Для генерации пойдём на страничку «Advance Title Search». Нет, ну правда же название прямо говорит, что именно в этом пункте меню будут прятаться дополнительные фильтры? Для меня вот не очевидно было… ну, не суть. Генерируем ссылку, получаем нечто такое: http://www.imdb.com/search/title? at=0&count=100&genres=horror&release_date=1975,1985&sort=user_rating, desc&start=1&title_type=feature&user_rating=6.0,10

705b9eebaf4ab0b51fb821a4422d04b4.png

Как видно из скриншота, выдрать ссылки будет несложно. Здесь и далее буду пользоваться phpQuery, он позволяет из PHP использовать запросы на манер jQuery. Плюс для скачивания в несколько потоков задействован phpMultiCurl.

Шаг третий. Анализируем… Дальше интересней.Всего было найдено 329 фильмов.Из них только у 92 указан бюджет.И только у 78 он в долларах США. Поскольку я ленивый, будем учитывать только эти фильмы, что бы не выяснять курсы валют за те годы.И выясняем, что у 60 фильмов из 78 бюджет был выше. чем у «Зловещих мертвецом» (375 тыс. долларов). Неплохо.

Но это ещё не всё, любопытства ради я решил сделать распределение числа фильмов по определённым диапазонам сумм. Графики любезно предоставлены Excel Starter и его функцией ЧАСТОТА.

014fa4994d93ce79765896d612b5636e.png

Репозиторий со скриптами, CSV и XLS-файлами https://github.com/Newbilius/imdb_parserP.S. бонусом в репозитории лежит аналогичный рассчет, но за 1970–1990е годы и с оценкой от 5.0 и выше.

© Habrahabr.ru