20% электронных таблиц в научных работах по генетике содержат ошибки конвертации Excel

909b46b9073c41828d0725606cbf1206.png
Фрагмент таблицы данных из научной работы «Тканеспецифическая экспрессия и регуляция генов полового диморфизма у мышей» (doi:10.1101/gr.5217506)

В электронных таблицах Microsoft Excel по умолчанию установлен формат ячейки «Общий». Многие сталкивались с тем, что Excel ни с того ни с сего конвертирует введённое значение в дату. Это самая распространённая ошибка автоматической конвертации. Чтобы избежать её, следует изменить тип данных с «Общего» на «Числовой» (для чисел) или «Текстовый» (для текста). В последнем случае введённые данные вообще не будут конвертироваться.

От автоматической конвертации страдают неопытные пользователи Excel. Удивительно, что среди этих неопытных пользователей — большое количество учёных. Автоматическое сканирование публикаций в базе PubMed с помощью набора bash-скриптов показало, что около 20% таблиц с данными в научных работах по генетике содержат ошибки конвертации данных Excel в названиях генов!
Сначала авторы исследования проверили все основные генетические символы человека — и выяснили, что Excel с установками по умолчанию автоматически конвертирует 35 генетических символов человека, превращая их в даты: это гены FEB1, FEB2, FEB5, FEB6, FEB7, FEB9, FEB10, MARCH1, MARC1, MARCH2, MARC2, MARCH3, MARCH4, MARCH5, MARCH6, MARCH7, MARCH8, MARCH9, MARCH10, MARCH11, SEPT1, SEPT2, SEPT3, SEPT4, SEPT5, SEPT6, SEPT7, SEPT8, SEPT9, SEPT10, SEPT11, SEPT12, SEPT14, SEP15, DEC1.

Порядок выбора названий генетических символов установлен правилами, по которым максимальная длина ограничена шестью символами, а название должно быть сокращённым названием гена или аббревиатурой, так что все септины кодируются в SEPT, а все рекомбинантные белки (Membrane-Associated Ring Finger) начинаются с MAR.

Ситуация становится хуже, если учитывать синонимы. Например, генетический символ CRNN (идентификатор гена 49860) имеет синоним SEP53, который Excel превращает в сентябрь 1953 года.

Белок каптин с утверждённым символом KPTN имеет синоним 2E4 (идентификатор гена 11133), который превращается в число 20000.

Интерферон-индуцируемый трансмембранный IFITM1 белок с алиасом 9–27 (идентификатор гена 8519) превращается в 27 сентября.

Программа Excel — настоящее минное поле для генетиков, ведь в генетической номенклатуре есть такие идентификаторы как 201E9, 9130022E09, 3e46, NA, NaN и т.д. Таким образом, Excel конвертирует генетические символы не только в даты, но и числа с плавающей запятой. Например, 2310009E13 превращается в 2.31E+13.

Составив список возможных ошибок, авторы научной работы скачали сопроводительные электронные таблицы со всех научных работ, опубликованных в 18 научных журналах с 2005 по 2015 годы. Для междисциплинарных журналов выборку ограничили научными работами со словом «геном» в названии. Таблицы сконвертировали в формат .tsv и пропустили через regex с поиском заданных строк. Они взяли скрипт 2004 года и добавили туда ещё несколько форматов дат (DD/MM/YY и MM-DD-YY). Скрипты запустили на Ubuntu v14.04 LTS с оболочкой GNU bash версии 4.3.11.

fc590b726dcb44e9ac6e39c0d52d0858.jpg
Скрипт 2004 года, когда проводилось аналогичное исследование автоматической конвертации генетических символов в научных работах

Ошибки в научных работах содержатся в электронных таблицах, которые публикуются в качестве сопроводительных материалов к научным работам. Почти тысяча научных работ с ошибками перечислены в первой колонке этой таблицы.

Всего было проанализировано 35 175 сопроводительных электронных таблиц. Обнаружено 7467 списков генов в 3597 научных работах. Ошибки конвертации Excel найдены в 987 сопроводительных файлах для 704 опубликованных научных статей. То есть для данной выборки процент научных работ, в которых сопроводительные таблицы Excel содержат ошибки конвертации, составляет 19,6%.

af356b060401444c89451f4d76fd4c04.png

По непонятной причине обнаружена положительная корреляция между влиятельностью журнала (journal impact factor, JIF) и процентом научных работ с ошибками в сопроводительных файлах (Spearman rho = 0.52, two-sided p value = 0.03).

b97b3f973cc14463b4381d900f91cdec.gif

Анализ также показал, что количество научных работ с ошибками возрастает примерно на 15% в год в течение последних пяти лет, обгоняя общий рост количества научных публикаций (3,8%).

Авторы предлагают обратиться к разработчикам Microsoft. Все желающие могут отправить им сообщение через Excel«s Suggestion Box или через твиттер (у разработчиков Excel есть аккаунт в твиттере).

Проблема с автоматической конвертацией научных символов в электронных таблицах Excel поднималась неоднократно. Ещё в 2004 году авторов научных работ предупреждали о том, что идентификаторы генов автоматически искажаются в программе Excel. К сожалению, за прошедшее десятилетие проблема не была решена. Наоборот, стало выходить ещё больше научных работ по биоинформатике с ошибками.

В какой-то степени в ошибках виноваты сами авторы научных работ, которые недостаточно хорошо знают интерфейс программы Excel, не умеют менять тип данных в формате ячейки, не проверяют тщательно таблицы с сопроводительными данными. Виноваты и рецензенты, которые принимают такие работы для публикации, тоже не проверив таблицы. Составители таблицы с ошибками специально отметили несколько случаев, когда ошибки конвертации встречаются уже в первых строках сопроводительной таблицы, что говорит о недостаточной внимательности авторов научных работ и рецензентов.

Вообще, в научных работах встречаются даже более нелепые ошибки. Например, в журнале по ядерной физике в 1991 году была опубликована научная работа с опечаткой прямо в заголовке. Вместо фразы «адронный коллайдер» («hadron collider») в печать пошла фраза «hardon collider», имеющая совершенно иной смысл.

Разработчики компьютерных интерфейсов отлично знают, что абсолютное большинство пользователей не меняют настройки по умолчанию в программах. Если в Excel установлен по умолчанию тип данных «Общий» — то он будет использоваться, так что появление ошибок с автоматической конвертацией в научных работах по биоинформатике и генетике вполне предсказуемо.

Авторы исследования отмечают, что не существует способа навсегда отключить автоматическую конвертацию данных в Excel и других электронных таблицах LibreOffice Calc и OpenOffice Calc. Каждый раз нужно устанавливать тип данных вручную. Исключение составляют таблицы Google Sheets, где не происходит искажения данных. Более того, при повторном открытии таблиц Google Sheets в программах Excel, LibreOffice Calc или OpenOffice Calc генетические символы вроде SEPT1 и MARCH1 защищены от конвертации в даты.

© Geektimes