Кино, финансы и data science

Предположим, что государство предложило «частникам» стать соинвесторами в российский кинематограф. Механизм — допустим, эмиссия акций и облигаций кинопроизводителями и дистрибьютерами киноконтента, а также выпуск «проектных» или условных «субфедеральных» облигаций по аналогии с муниципалитетами и региональными бумагами.

Все как положено, с амортизацией, налоговыми льготами при реинвестировании, гарантиями возврата капитала, возможностью частичного погашения налогов и сборов в бюджет и прочими вычетами плюшками для инвесторов.

Пока принципиально не рассматриваем краундлендинг и всевозможные крипто-истории, а также производные финансовые инструменты.  Только классика только хардкор инвестиций.

Отметим сразу, что кинобизнес может быть не только крайне патриотичным, богоугодным, полезным для развития всей креативной отрасли и смежных отраслей экономики, но и прибыльным.  Условный портфель проектов на исторической доходности может давать до 130% годовой прибыли. Почему именно портфель? — вложения в один проект все-таки достаточно рискованны — все помнят историю со «Смешариками» от фонда под управлением «Тройки-Диалог». Диверсификация — наше все.

Главный вопрос бытия

Как именно определить, будет ли фильм успешным и сколько он даст заработать частным инвесторам?

Признаки инвестиционного успеха такие как жанр, длительность, рейтинг детально разобраны здесь. Обученные на исторических данных ансамблевые модели машинного обучения достаточно точно отбирают (классифицируют) успешные и неуспешные в прокате фильмы, даже в условиях дефицита информации. Мало того они могут рассказать о том, насколько фильм будет успешен или неуспешен при том или ином сочетании факторов. 

По запросу прогнозирование кинопроката с помощью машинного обучения мы увидим десятки и сотни публикаций, касающихся глобального кинорынка, отдельных страновых ниш. Предиктивная аналитика кинопроката достаточно развита в странах Азии и Африки от Китая, Индии, Индонезии и Шри-Ланки  до Нигерии.  В России, к сожалению, количество работ по данной тематике ограничено.

Тренируемся на … кинокотиках

Теперь давайте попробуем просчитать на малой 26-факторной модели теоретическую возможность определять: сколько именно может собрать конкретный фильм в прокате (трансляцию на ТВ и платформах, сопутствующие каналы монетизации пока оставим вне контекста), сколько зрителей его просмотрит, наконец, какой зрительский рейтинг будет у него на «Кинопоиске» (а есть еще и большая 146-факторная модель).

Для решения задачи регрессии мы будем использовать популярные метрики качества:

MSE — Среднеквадратическая ошибка

R2 —  коэффициент детерминации

MAE — средняя абсолютная ошибка

В качестве исследовательской базы данных у нас — 26-факторный датасет с историческими данными проката российского кинематографа с 2004 года.

Сначала мы будем работать со зрительским рейтингом «Кинопоиска», постараемся создать модель его прогнозирования, потом перейдем к сборам и просмотрам.

По аналогии с предшествовавшей публикацией о классификации успешных/неуспешных кинокартин, мы «прогоним» датасет через несколько ансамблевых моделей регрессии: AdaBoostRegressor,   BaggingRegressor, ExtraTreesRegressor, GradientBoostingRegressor, RandomForestRegressor, HistGradientBoostingRegressor, CatBoostRegressor и получим следующую картину:

Метрики качества ансамблевых моделей машинного обучения на тестовом датасете

Метрики качества ансамблевых моделей машинного обучения на тестовом датасете

Которая нас очевидным образом не совсем устраивает. И ради науки попробуем все-таки упороться поработать  со StackingRegressor с 5 базовыми моделями и VotingRegressor.

В первом случае мы получили дополнительно следующие метрики качества:
R2 score: 0.7765016786761326
MSE: 0.33853354109051054
MAE: 0.3771748372943936

Во втором:
R2 score: 0.7681826141319006
Mean Squared Error: 0.3511344517462928
Mean Absolute Error: 0.3920323384745612

Разумеется, можно продолжить комбинировать вложения моделей в метамодели Stacking и Voting, но уже ставший нам родным и любимым CatBoost показывает сопоставимые результаты без танцев подбора гиперпараметров с бубнами от random_search или optuna дополнительных ухищрений.

Метрики качества прогнозирования зрительского рейтинга

Метрики качества прогнозирования зрительского рейтинга «Кинопоиска» на 26-факторном датасете

В случае с предложенным датасетом мы упираемся в ограниченный набор данных (всего 1660 кинофильмов), которые к тому же не всегда полны, по 30% фильмов отсутствует описание размера бюджета. Увы, но с Голливудом, и даже Болливудом и нигерийским Нолливудом чуть проще — больше примеров и больше открытой информации.

Придется использовать допинг возможность многократной «проходки» в рамках имеющейся выборки с помощью resample из sklearn.utils. Мы для начала увеличим нашу исходную выборку в три раза и обучим CatBoostRepressor на ее основе.

Метрики качества показывают существенное улучшение модели (в реальности мы понимаем, что точное прогнозирование сборов и просмотров одного кинофильма — достаточно неблагодарное дело, а вот ситуация с «портфелем» проектов выглядит уже лучше).

Метрики качества прогнозирования рейтинга

Метрики качества прогнозирования рейтинга «Кинопоиска» на увеличенном датасете

Ситуация с метриками лучше, а, следовательно, подобный подход мы можем использовать и в отношении других прогнозируемых категорий: сборов, просмотров и даже соотношений сборов к бюджету — ибо в душе каждого из нас сидит корыстный делец светоч творчества и благодетель искусств, для которого пресловутые «иксы» прибыли означает лишь возможность поднять бабла быстро реализации своих благодатных инициатив и начинаний для просвещения будущих поколений зрителей.

Прогнозирование сборов в кинопрокате

Прогнозирование сборов в кинопрокате

R2 score: 0.974615911902227
Mean Squared Error: 1950602444091503.2
Mean Absolute Error: 9654861.136207841

Уже сам график нам говорит о том, что сборы свыше 1 миллиарда — уникальные явления для российского кинопроката, поэтому практически все проекты с бюджетом свыше 500 млн уже находятся в зоне риска по окупаемости. Идеальный вариант в наши дни — это все-таки 200–300 миллионов или феномен «якутского кино» с относительно низкими бюджетами (до 10–15 миллионов), но уникальной самобытной картинкой и формой подачи материала.

Фильмы-блокбастеры в России, увы, «выстреливают» очень редко, поэтому создавать их нужно исключительно в копродукции с иностранными инвесторами и под иностранные целевые аудитории.

Другой вариант — кинофраншиза с многократной «проходкой» черед целевые аудитории и разные каналы коммуникации с помощью кино, телесериала, видеоигры, серии романов, мерча, шоку, постановок и других составляющих.

Так что между data science с идеей многократного использования одной и той же выборки, синтетическими данными и российским кинематографом — очень много общего!  

Просмотры фильмов  зрителями в кинотеатрах

Просмотры фильмов зрителями в кинотеатрах

Количество просмотров так же предсказуемо для кинотеатрального проката. Хотя картин, набравших в прокате больше 5 миллионов просмотров у нас можно пересчитать по пальцам за весь последний исторический период.

Здесь мы выскажем предположение, что для киноплатформ и стриминговых сервисов при наличии статистики и исторических данных просмотров, можно будет достаточно точно прогнозировать популярность того или иного продукта для целевых аудиторий, разбавляя эту информацию качественной «пипл-датой» от платежных систем, экосистем и маркетплейсов.

Наши любимые

Наши любимые «иксы» прибыли

R2 score: 0.974080932645542
Mean Squared Error: 0.06380252085086532
Mean Absolute Error: 0.07639514420739313

Соотношение затраты/сборы так же поддаётся прогнозированию и на самых ранних этапах можно отбирать проекты с пресловутыми «иксами» прибыли. К сожалению, в истории российского кинематографа их мало — буквально считанные проценты и доли процентов.  Окупаются в кинопрокате  с 2004 года всего лишь 11,5% фильмов;, а сколько их еще осталось на полках и вышло сразу на ТВ, платформах и дисках?.

Тем не менее даже за счет простого отбора проектов на раннем этапе можно повысить окупаемость проектов до 20% и 30% и величину сборов примерно в 1,7–1,9 раза даже при текущих размерах кинотеатральной сети.

Больше — проблематично, поскольку только российский кинорынок все-таки ограничен и для окупаемости пресловутых «блокбастеров» нужна страновая аудитория в 500 миллионов. И это уже вопросы не экономики, а скорее демографии. Поэтому альтернатив развития для российского кинематографа кроме как медиа-франшизы с многократными «проходками» по аудитории или экспорта, копродукции со странами Азии и Африки — пока не предвидится.

Вместо выводов

Трейдинг, криптовалюты и прочие околоинвестиционные темы достаточно плотно заняты инфоцыганами работниками информационно-развлекательной околофинансовой индустрии. Кино, креативные индустрии в целом — пожалуй единственная все еще не истоптанная площадка для творческого слияния интеллекта и финансов.

С одной стороны, маститые мэтры кинематографа из прошлого вещают об уникальном духовном потенциале, великой идее творчества, о примате мира духовного над мирским и недопустимости формализованного подхода к оценке проектов. Но, к сожалению, так индустрия не делается. Да и проблемы духовно-нравственного развития и продвижения традиционных ценностей общества, патриотизма средствами искусства и культуры — тоже не решаются.

С другой стороны, есть продюсерский подход на «зарабатывании с бюджета», который создает отрицательный отбор кинофильмов вместо прогрессивного отбора — «зарабатывания с проката».

Впрочем, у рядового зрителя, к коим и относит себя автор нет нет, да и возникает вопрос: зачем снимать фильмы, которые «не заходят» для целевых аудиторий? Когда можно подобрать так параметры фильма — жанр, длительность, возрастной рейтинг, состав творческой аудитории, параметры бюджета и так далее, что любой самый «лубочный» или «клюквенный» проект, если не будет вписан в анналы мирового кинематографа как шедевр пропаганды и агитации того же Сергея Эйзенштейна, то хотя бы просто окупится в прокате?

Кстати, к вопросу о «броненосцах» в наших «кинопотемках». Есть фильмы, которые по мнению автора, могут иметь определенный успех в прокате. Возьмем к примеру список победителей питчинга «Фонда кино» от лидеров индустрии. Из 15 кинокартин вполне серьезные шансы на преодоление барьера «двух бюджетов» в прокате есть как минимум у «Буратино», «Горыныча», «Руки вверх», «Чебурашки 2» — при рациональных, не превышающих лимита бюджетах (в бюджеты сильно выше 800 млн. лучше даже не смотреть), сохранении изначального жанра, отсутствия затягивания производства, оптимального подбора и расстановки творческой группы. Подробный количественный прогноз тоже возможен, естественно, при наличии производственных данных.

Если на российских просторах будет сформирован «инвестиционный портфель» из 20–30 тщательно отобранных проектов в год, на горизонте нескольких лет можно стабильно получать если не пресловутые «иксы», то десятки процентов прибыли. Как для государства, так и для частных инвесторов. В конце концов, экспорт хлеба, газа и нефти претерпевает циклические колебания мировой конъюнктуры, подвержен санкциям и запретам. Однако, хорошее кино смотрят всегда. А очень хорошее кино тоже можно экспортировать.

Датасет и код проекта находятся в репозитории.

Всем интересных и успешных в прокате фильмов!

© Habrahabr.ru