Дата-майнинг делает научные открытия12.10.2014 00:33

Интересная статья опубликована в журнале New Scientist о том, как дата-майнинг применяется для анализа большого объёма научной информации. Цель — поиск ценной информации в разрозненных научных статьях. Эти закономерности люди, вероятно, не способны обнаружить собственными силами, без автоматической обработки. Это неудивительно, ведь объём опубликованных научных документов в интернете только на английском языке уже превысил 100 миллионов документов. Это огромный информационный шум, из которого практически невозможно извлечь полезную информацию. То есть, невозможно извлечь человеческим умом.

Понятно, что без дата-майнинга в современной науке нельзя. Скажем, петабайты информации с Большого адронного коллайдера обрабатывают месяцами/годами, чтобы определить наличие или отсутствие эффектов, предполагаемых той или иной теорией. Но здесь речь идёт о более «тонком» анализе научных результатов от разных авторов для поиска скрытых закономерностей, совпадений.Например, калифорнийский суперкомпьютер под названием KnIT постоянно работает над такими задачами. Он анализирует 50 000 научных статей в час. Скажем, он специально анализировал всю информацию, связанную с протеином под названием p53 и искал все данные об энзимах, которые взаимодействуют с ним, они называются киназы.

Белок p53 очень важен и считается «охранником генома», он подавляет возникновение раковых опухолей в организме. Суперкомпьютер искал в научных статьях все упоминания, которые могут указывать на наличие новых неоткрытых киназов для белка p53. В качестве тестового задания он проанализировал научные работы до 2003 года — и нашёл 7 киназов, которые действительно были открыты в течение последующих 10 лет. То есть система подтвердила, что она может делать настоящие научные открытия. Кроме того, она нашла ещё 2 киназа, до сих пор неизвестных науке. Первоначальные лабораторные эксперименты подтвердили справедливость предположений, сделанных суперкомпьютером (хотя группа учёных хочет повторить опыты для гарантии).

Разработчики KnIT из IBM и медицинского колледжа Бейлора недавно представили доклад на эту тему на Конференции по обнаружению знаний и дата-майнингу в Нью-Йорке. Их главный тезис состоит в том, что люди-учёные более приспособлены для генерации новой информации, тогда как компьютеры лучше подходят для анализа всего этого огромного сгенерированного массива данных.

Конечно же, KnIT — не единственная разработка в данной области, где идут активные исследования. Например, авторы манчестерской системы Eve утверждают, что она уже нашла новое лекарство от малярии. Программа не изучала научные работы, а сама эмулировала эксперименты в этой области, пробуя разные варианты лекарств.