Анализ данных
В чем заключаются сильные и слабые стороны анализа данных? Как проверить наблюдаемые паттерны? Как методы анализа данных помогают формировать новые концепции? На эти и другие вопросы отвечает доктор технических наук Борис Миркин.
Область анализа данных стала активно развиваться в связи со стремительным развитием вычислительной техники. В 2011 году я последний раз вернулся в Лондон, чтобы читать курс лекций по программированию. Неожиданно я получаю письмо от нашего бывшего студента, адресованное мне и руководству нашего департамента, с просьбой убрать из памяти моего компьютера ведомость 2008 года. Он учился в нашем департаменте и недавно подавал на работу application, как они говорят. Было интервью, и интервьюер тут же набрал в Google его имя-фамилию и нашел эту самую ведомость в моем компьютере. Там были какие-то не очень хорошие выражения относительно этого студента, в результате чего он не был принят на работу. Конечно, я тут же убрал эту ведомость. Еще за год до этого, в 2010 году, Google не мог этого делать. Я показываю, что это совсем свежее достижение. Сейчас ничего не стоит сличить фамилию, имена и адреса человека в любой точке планеты и отыскать информацию о нем.
Но это способ сбора данных. Анализ данных — это более глубокая вещь. Она предполагает, прежде всего, что данные организованы в определенном формате. Самый простой формат, тот, вокруг которого организованы все основные методы, — это таблица данных. По строчкам там идут объекты, а по столбцам — различные признаки, измеренные на этом объекте, не обязательно количественные, самые разные. Конечно, сейчас каждые полгода-год возникают новые виды данных. Достаточно упомянуть всевозможные средства видео или аудио. Методы анализа данных все больше и больше развиваются применительно к этим новым возможностям. Предполагается, что методы анализа данных прежде всего должны разрабатывать правила для формирования и улучшения теоретических представлений об изучаемом объекте — по-английски говорят knowledge discovery.
Самое простое отображение теоретических представлений — это, конечно, основные понятия и утверждения об этих понятиях. Методы анализа данных концентрируются вокруг этих задач — формирование новых концепций или улучшение старых и формирование новых утверждений, подтвержденных данными о каких-то закономерностях. Все это вместе обычно называется словом «паттерн». Паттерн — это, конечно, английское слово, но оно уже вошло в русский язык через самые разные каналы. Есть много дисциплин, таких как медицина или техническая эстетика, где это слово активно используется. Я тоже позволю себе его использовать.
У меня есть три примера обнаружения паттернов, на которых я покажу сильные и слабые стороны анализа данных. Первый пример относится к одному из самых известных в науке утверждений о свойствах Солнечной системы — это законы движения планет. Люди всегда интересовались законами движения планет, потому что с ними связывались все события в жизни человека. И первые научные представления, которые нам известны, — птолемеевская система — состояли в том, что Земля находится в центре Вселенной, а вокруг нее движутся планеты и Солнце. Это, естественно, не соответствовало данным. Эту схему пытались улучшать, но так и не получалось, пока Коперник не предложил свою: все планеты вращаются по кругам вокруг Солнца. Но и это не подошло. И, наконец, Кеплер объяснил, что все они вращаются по эллипсам вокруг Солнца — и это очень точно. И он пытался вывести то, что называется третьим законом Кеплера, и у него ничего не получалось. 15 лет прошло между первым-вторым и третьим, пока один шотландец, Napier — мы его называем Непер, — не изобрел логарифмы. Тогда Кеплер прологарифмировал свои данные, получил точно, что все лежит на прямой, и сформулировал свой третий закон. Потом из этих трех законов Ньютон вывел универсальный закон всемирного тяготения, и из этого закона тяготения он вывел эти законы Кеплера. Тем самым наблюденные Кеплером паттерны оказались вовлеченными в теорию.
И это двойной успех, потому что паттерны были выявлены и возникла определенная теория, которая их поддерживала.
Другой пример, менее удачный. В 1854 году в Лондоне случился очередной рецидив холеры. В центре Лондона люди болели, умирали массами. И вот в одном из районов, в Сохо, доктор Джон Сноу понял: все происходит из-за того, что люди пьют из какой-то определенной водоколонки. Почему? Потому что он прошел по всем домам, посчитал количество смертей — смерти в основном концентрировались вокруг этой колонки, сохранилась специальная карта этого доктора Сноу. Он поговорил со священником, они вдвоем сняли ручку этой водоколонки, и смерти прекратились. Вот такая история. Она верна в основном, но не совсем: реально смерти прекратились, потому что все уже умерли, а ручку ему велели вернуть на следующий день, потому что его наблюдения противоречили теории — теория была такая, что холера передается по воздуху, через зловонный запах. И он ничего не сумел, два года шли слушания, и он так и умер, не узнав, что через 30 лет будет открыт холерный вибрион и его теория подтвердится.
Хочу привести третий пример. Совсем недавно, в 2006 году, в США появилось наблюдение, что в малых школах значительно больший процент отличников — эти данные были проверены по всем школам. Родители бросились устраивать своих детей в маленькие школы. Настоящие статистики объяснили этот феномен. Они сказали: да, действительно, там больше отличников, но там и двоечников больше. И дело вовсе не в том, что там хороший уход, а в том, что школы маленькие. И просто по законам теории вероятности в маленьких местах значительно больше таких отклонений. Они это продемонстрировали на примере рака почек: статистика была полная, и они показали, что среди малонаселенных штатов значительно выше процент тех, где заболевших очень много, но процент тех, где практически нет случаев заболевания, также очень высок. Оказалось, что наблюденный паттерн — чистая случайность, и удалось найти механизм, который ее порождал.
Таким образом, можно сказать, что анализ данных — это очень сильное оружие, но паттерны, которые наблюдаются, необходимо проверять наличием либо других паттернов, либо теоретических представлений. С течением времени, я думаю, вся информация о нас, включая наши геномы, будет находиться в каких-то данных. И, честно сказать, у меня возникает определенное сомнение:, а так ли уж радужно это будущее, в котором все обо всех будет известно и методы и программы анализа данных смогут все про нас понять?
У меня, конечно, нет возможности на пальцах — и даже без участия пальцев — обрисовать основные методы анализа данных. Но я хотел бы их назвать. Для формирования количественных концепций это, прежде всего, метод главных компонент, метод независимых компонент. Для формирования неколичественных концепций это кластер-анализ, который развивается огромными темпами. Для того чтобы формировать закономерности и прогнозировать на их основе, это всевозможные методы регрессии, это построение классификаторов, так называемая машина опорных векторов и многие другие.
Сфера применения этих методов — это, конечно, технологии будущего. Поэтому в настоящее время они используются там, где применяются современные технологии, прежде всего в банковском деле. Как отличить жулика, который к вам обращается за займом и никогда не отдаст, от порядочного человека? Это биоинформатика и автоматический анализ изображений, где вся работа идет исключительно с помощью методов анализа данных. Это медицина, где медицинская информатика выходит на первое место и постепенно все становится электронным, по крайней мере в Америке есть такое направление — digital records, и методы анализа данных будут играть там основную роль.
Полный текст статьи читайте на Postnauka.ru