[Перевод] Ценны ли данные вашей компании в эпоху ИИ?
И снова здравствуйте! Сегодня мы продолжаем серию публикаций приуроченных к запуску курса «Big Data для менеджеров». Итак, начнем.
«ИИ близко». Это то, что мы слышим с 2017 года и, скорее всего, продолжим слышать и дальше. Для устоявшихся компаний, которые не являются Google или Facebook, возникает естественный вопрос: что есть у нас, что позволит пережить этот переход?
По нашему опыту, ответ — «данные». Этой точки зрения придерживается и бизнес-пресса. Написаны сотни статей, где утверждается, что «данные — это новая нефть», подразумевая, что это топливо, которое будет стимулировать экономику ИИ.
Если так и есть, то можно считать, что вашей компании повезло. Вы собрали все эти данные и, когда наконец появился ИИ, оказалось, что вы сидели на запасах нефти. Но если вам действительно так повезет, возможно стоит спросить себя: «Неужели мы действительно настолько удачливы?»
В аналогия «данные — это нефть» есть доля правды. Как топливо для двигателя внутреннего сгорания, данные необходимы для работы ИИ. ИИ берет необработанные данные и превращает их во что-то полезное для принятия решений. Хотите узнать погоду на завтра? Давайте использовать данные о погоде за предшествующий период. Хотите узнать продажи йогурта на следующей неделе? Давайте использовать данные о прошлых продажах йогурта. ИИ — это машина прогнозирования, управляемая данными.
Но нужны ли ИИ ваши данные? Сегодня принято считать, что все данные потенциально могут быть полезны для ИИ, но на самом деле это не так. Да, для ежедневной работы вашей машины прогнозирования нужны данные. Но скорее всего это не те данные, которые у вас есть сейчас. Вместо этого ваша компания копит данные, которые будут, использованы для построения машины прогнозирования, а не для ее эксплуатации.
Сейчас у вас есть обучающие данные. Их можно использовать в качестве материала для обучения алгоритма. И уже этот алгоритм используется для генерации прогнозов для совершения действий.
То есть да, это значит, что ваши данные обладают ценностью. Но это не значит, что ваш бизнес переживет шторм. Как только данные используются для обучения машины прогнозирования, они обесцениваются и становятся бесполезными для такого рода предсказаний. Продолжая аналогию с нефтью, данные могут сгореть. Они потеряны после использования. Ученые знают об этом. Они тратят годы на сбор данных, но как только те дают результаты, то начинают собирать пыль на полке или забытой флешке. Ваш бизнес может и сидит на нефтяной скважине, но ее запасы ограничены. Это не гарантирует вам что-то большее в ИИ-экономике, чем просто более выгодную ликвидационную стоимость.
Вне зависимости от того, насколько ваши данные могут быть ценными, возможность извлечь выгоду может быть ограничена. Сколько существует источников сравнительных данных? Если вы один из множества поставщиков йогурта, то ваши базы данных, которые содержат информацию о продаже йогуртов за последние 10 лет и связанные с ними данные (цену, температуру, продажи связанных продуктов, например, мороженого), будут иметь меньшую рыночную ценность, чем если бы вы были единственным владельцем этих данных. Другими словами, как и в случае с нефтью, чем больше поставщиков, обладающих данными, похожими на ваши, тем ниже ценность от ваших тренировочных данных. На ценность ваших тренировочных данных в дальнейшем влияет ценность, полученная благодаря повышенной точности прогнозов. Ваши тренировочные данные будут ценнее, если улучшенная точность предсказаний увеличивает продажи йогуртов на 100 миллионов долларов, а не только 10.
Более того, текущая ценность данных обычно зависит от действий, совершаемых в повседневном бизнесе — новые данные, получаемые каждый день, которые позволяют использовать вашу машину для прогнозирования после обучения. Это также помогает улучшать ее благодаря обучению. 10 лет данных о продаже йогуртов — полезны для обучения ИИ-модели по предсказанию будущих продаж йогурта, но настоящие предсказания, используемые для управления цепочкой поставок, требуют операционных данных на постоянной основе. И это важный момент для сегодняшних компаний.
ИИ-стартап, который приобретает прошлые данные о продаже йогурта, может обучить ИИ-модель предсказывать будущие продажи. Он не сможет использовать модель для принятия решений, если не получит текущие эксплуатационные данные для обучения. В отличие от стартапов большие корпорации каждый день генерируют операционные данные. Это ценно. Чем больше операций, тем больше данных. Кроме того, владелец операции может фактически использовать предсказание для дальнейшего улучшения будущих операций.
В экономике ИИ ценность ваших накопленных данных ограничена единовременной выгодой от обучения ИИ-модели. А ценность обучающих данных, аналогично нефти, зависит от общего количества — чем больше людей ими владеют, тем менее ценными они становятся. В отличие от этого, ценность ваших текущих операционных данных не ограничена единовременной выгодой, а скорее обеспечивает постоянную пользу в эксплуатации и последующем улучшении предиктивной машины. Поэтому, несмотря на все разговоры, что данные — новая нефть, ваши старые накопленные данные — не главное. Однако, они могут привести к главному. Их ценность для ваших перспектив низкая, но если вы сможете найти способы генерировать новый, постоянный поток данных, который обеспечивает функциональное преимущество с точки зрения прогнозирующей способности вашего ИИ, это даст стабильное преимущество при его появлении.
Задавайте вопросы, пишите ваши комментарии, а также не забывайте о том, что уже завтра 10 апреля пройдет день открытых дверей, который проведет генеральный директор, CleverDATA — Денис Афанасьев.