«Ловушки сознания»: Как исследователи обманывают себя
Люди удивительно хорошо умеют обманывать самих себя, поэтому исследователям часто не удается воспроизвести результаты проведенных экспериментов. Об этой достаточно крупной проблеме в науке говорить не принято.
Даже самый честный человек — мастер самообмана. Мы умеем быстро выделять аномальные результаты, однако часто принимаем на веру все, как нам кажется, «логичные» выводы. Таким образом, мы бессознательно уходим от реальности.
В 2015 году была предпринята попытка повторить результаты ста психологических исследований, однако сделать это удалось лишь в трех случаях из десяти.
В 2012 году ученые из биотехнологической фирмы Amgen в Таузенд-Оукс, Калифорния, сообщили, что им удалось воспроизвести результаты лишь шести исследований в области онкологии и гематологии из пятидесяти трёх.
«Возникновение подобных кризисных ситуаций — это наш шанс улучшить научный инструментарий», — говорит Роберт Маккоун, социолог из Стэнфорда. Такое уже случалось раньше.
Еще в середине ХХ века ученые обнаружили, что экспериментаторы и испытуемые часто бессознательно меняли свое поведение, чтобы «подогнать» результаты исследования под свои ожидания. Именно это открытие стало причиной появления двойного слепого метода исследования.
По этой причине исследователи придумывают самые разнообразные способы исключения ошибок при анализе данных: стратегии, которые включают сотрудничество с соперниками (противниками теории, к примеру) и анализ «поддельных» данных.
Проблема
Бытует мнение, что следует допускать в публикацию только исследования со статистически значимыми результатами, то есть результатами, p-значение которых равняется 0,05 или меньше. Сложности в первую очередь возникают при анализе больших наборов многомерных данных, где невероятно трудно отделить значимые данные от случайного «шума».
«С такими объемами данных не всегда справляются даже статистические методы, что уж говорить про человеческий мозг», — говорит Кит Баггерли, статистик Онкологического центра им. М.Д. Андерсона в Техасском университете.
Эндрю Кинг, специалист в области управления из Дартмутского колледжа в Ганновере, Нью-Гемпшир, говорит, что благодаря широкому распространению специализированного программного обеспечения, исследователям стало проще проверять огромные наборы данных (при этом им не обязательно полностью понимать суть используемых методов) и получать маленькие p-значения (которые могут оказаться бесполезными в рамках конкретного исследования).
«Здесь все как в спорте, — говорит Хэл Пашлер, психолог из Калифорнийского университета в Сан-Диего, — мы гонимся за лучшим результатом».
Ограниченность гипотез
Одной из ловушек, поджидающих на ранних стадиях исследования, является пренебрежение контраргументами и другими объяснениями, которые противоречат изначальной гипотезе. «Как правило, если человек хочет подтвердить свою точку зрения, то формулирует вопросы так, чтобы получить заведомо утвердительный ответ», — говорит Джонатан Барон, психолог из Пенсильванского университета в Филадельфии.
Такие ситуации не редкость в судах. В 1999 году в Британии женщина по имени Салли Кларк была признана виновной в убийстве двух своих сыновей-младенцев. Приговор был вынесен на основании статистических данных, согласно которым шанс смерти двух детей от синдрома внезапной детской смерти (СВДС) составлял всего 1 на 73 млн — этот факт был принят как изобличающее доказательство.
Математик Рэй Хилл позже подсчитал, что двойная смерть от СВДС происходит примерно в 1 семье из 297 000, в то время как двойное убийство детей родителями — примерно в 1 семье из 2,7 млн. Отношение 9 к 1 против убийства. В 2003 году приговор Салли Кларк был отменен на основании новых доказательств.
Ошибка техасского снайпера
Есть еще одна ловушка, в которую можно попасть в ходе анализа данных. Она объясняется в старом американском анекдоте про техасского снайпера, неумелого стрелка, который сперва стрелял в стену сарая и только потом рисовал мишень с центром вокруг крупнейшего скопления пулевых отверстий.
Психолог Ури Симонсон из Пенсильванского университета дает точное объяснение этой наивности в своем определении термина «р-hacking»: «Проведение манипуляций с информацией до тех пор, пока не будет достигнута статистическая значимость p < 0,05». В 2012 году исследование поведения более двух тысяч психологов США показало, насколько широко распространён р-hacking.
Половина испытуемых избирательно сообщила только о тех исследованиях, которые «удались»; 35% представили неожиданно полученные данные так, будто подобный исход предполагался с самого начала.
«Несимметричность» внимания
На этапе проверки данных встречается другая ловушка: мы не проверяем достоверность ожидаемых результатов и уделяем больше внимания «интуитивно-непонятным». Мы не осознаем, что ошибка может скрываться в другом месте.
Подобное поведение достаточно распространено. В 2004 году было проведено исследование того, как сотрудники трех ведущих молекулярно-биологических лабораторий проверяют результаты 165 различных экспериментов.
В 88% случаев, когда результат не соответствовал ожиданиям, ученые считали, что в ходе эксперимента были допущены ошибки, и даже не допускали мысли о неправильности теории. В то же время, «логичные результаты» практически не обсуждались.
Сказки просто так
В процессе анализа данные компонуются и интерпретируются, а исследователи часто начинают давать ненаучные теоретические обоснования, то есть рассказывать «сказки» (Just-So Stories) — это явление было названо в честь книги Редьярда Киплинга «Сказки просто так» («Just So Stories»), в которой даются причудливые объяснения обычным вещам (например, откуда у леопарда пятна).
Еще один соблазн для ученых — дать логическое обоснование тому, почему не был получен ожидаемый результат, то есть оправдаться. Мэтью Хенкинс, статистик из Королевского колледжа в Лондоне, собрал более 500 оригинальных фраз, которые исследователи использовали, дабы убедить читателей, что их незначимым результатам стоит уделить внимание (см. здесь).
Среди них можно выделить «балансирующий на грани уровня значимости (> 0,1)», «на самой границе значимости (р = 0,099)» и «результат не совсем значимый, но очень вероятный (> 0,05)».
Решения
Каждая из вышеописанных ловушек стимулирует процесс выявления потенциально важных научных зависимостей, однако здесь приходится учиться исключать ложные результаты и тупиковые гипотезы, специально замедлять темп исследований.
Есть одно решение — нужно возродить старую традицию и начать открыто учитывать все конкурирующие гипотезы, а также, если это возможно, придумывать эксперименты, которые бы их проверяли. Это позволит не замыкаться на какой-то одной теории.
Прозрачность
Еще одним решением возникшей проблемы стала открытая наука. Исследователи делятся своими методами, данными, программным кодом и результатами друг с другом, например через Центр открытой науки.
Еще более радикальная идея — введение «зарегистрированных отчетов», когда исследователи представляют свои планы исследования для рецензирования еще до начала эксперимента. Если план будет одобрен, то отчет о полученных результатах эксперимента (вне зависимости от их значимости) гарантированно публикуется.
Эта мера призвана снизить влияние исследователей и рецензентов на работу. Сегодня уже более 20 журналов предлагают или планируют предлагать возможность публикации таких отчетов.
Работа с соперниками
Для решения спорных вопросов отлично подходит еще один метод — можно пригласить академических соперников присоединиться к работе. Работая с конкурирующими гипотезами и теориями, соперники быстро выявляют логические ошибки и устраняют их.
Слепой метод анализа данных
Слепой метод анализа данных — это еще один способ избавиться от когнитивных искажений. Он пришел из области физики, но в других областях все еще малоизвестен. Идея заключается в том, что исследователи не знают, насколько они близки к желаемым результатам, поэтому с меньшей вероятностью повлияют на результаты эксперимента.
Один из способов реализации такого метода — это написание специальной программы, которая будет создавать альтернативные наборы данных, путем, например, добавления случайного шума или сдвига. Исследователи ни на одном из этапов не знают, с какими данными работают. Истина раскрывается лишь в самый последний момент, когда любая намеренная манипуляция с результатами анализа будет очевидна.
Ученые, поддерживающие этот метод, называют его лишней, но необходимой работой, которая поддерживает в исследователе уверенность в том, что он получит непредвзятые результаты. Поэтому метод анализа данных вслепую порой называют «интеллектуальной гигиеной».
Несмотря на то, что ученые во многом не отличаются от других людей и подвержены тем же слабостям, методы, которые сейчас внедряются для исключения «ошибок сознания» в науке показывают свою результативность. Интересно, что не последнее место среди этих методов занимают приемы, использующие программные продукты: как выясняется, они могут не только облегчить жизнь исследователю, но и в немалой степени гарантировать его непредвзятость.
P.S. Рекомендуем взглянуть на наш рассказ о разработке системы квантовой связи, а совсем недавно мы написали о том, как студенты становятся продвинутыми программистами.