Пять научных дисциплин, которые меняют бизнес

share.png

Big Data — это коммерческий термин, «упаковка» определенного набора технологий, придуманная для того, чтобы их было удобнее продавать компаниям. На самом деле размер данных не так важен. Важно то, ради чего их собирают и для чего используют.

Компании построили хранилища, которые удовлетворяют этим требованиям. А потом, прикрутив несложную пользовательскую аналитику, обнаружили, что в этих данных можно находить поведенческие паттерны и, например, рекомендовать людям покупки, которые им потенциально интересны. Это помогло получать дополнительную прибыль и окупать затраты на внедрение систем хранения и обработки данных.

Более продвинутые методы машинного обучения можно использовать для более сложных задач — например, для разработки экономической стратегии и прогнозирования рисков.

Рассмотрим пример обработки больших разнородных данных в экономике. Стандартным инструментом предсказания финансовых показателей, таких как волатильность доходности активов и уровень цен на углеводороды, является технический анализ на основе статистических моделей и различных макроэкономических данных. Дополнительными источниками информации могут служить публикации в новостных ресурсах, социальных сетях и медиа, аналитические отчеты — потоки разнородных текстовых данных.

Действительно, на локальные колебания финансовых показателей влияют различные события: политические решения, забастовки рабочих, теракты. Когда о подобных новостях узнают трейдеры, на бирже начинаются значительные колебания цен. Автоматизированное определение тематики, оценка тональности и достоверности этих текстовых данных, а также извлечение из них именованных сущностей, фактов и событий помогает обогатить дополнительными факторами предсказательные модели и существенно улучшить оценку рисков тех или иных финансовых решений.

Аналогичная потребность — обработка потока разнородных данных — возникает и в технических приложениях, связанных с интернетом вещей. Например, на крупных автомагистралях работают погодные станции, которые собирают данные о скорости и направлении ветра, давлении, температуре воздуха и влажности.

В этих данных, во-первых, можно обнаруживать аномалии, которые означают, что какие-то датчики вышли из строя. Во-вторых, на основе собранной информации можно строить алгоритмы прогноза температуры поверхности дорожного полотна. Они позволяют прогнозировать обледенение в зимнее время и сейчас активно используются компанией «Минимакс»: научная группа Сколтеха ADASE (Advanced Data Analytics in Science and Engineering) работает с компанией над соответствующим проектом.

Для решения подобных задач мы активно используем современные подходы к глубинному обучению. Благодаря универсальности нейросетевых архитектур, нам удается строить алгоритмы, которые могут эффективно обрабатывать данные разного вида — графы, временные ряды, сигналы с лидаров.

В лаборатории мы разрабатываем новые методы машинного обучения для предсказательной аналитики и обнаружения аномалий, методов глубинного обучения для анализа 3D/4D данных, в том числе и медицинских (МРТ и фМРТ). Ещё мы сотрудничаем с рядом компаний, таких как Bosch, Huawei, «Газпромнефть НТЦ» и «Сбербанк». Спрос на приложения и наши разработки очень большой.

©  vc.ru