Проще переименовать человеческие гены, чем бороться с Excel

В человеческом геноме десятки тысяч генов: крошечных частичек ДНК и РНК, в которых закодированы все черты и характеристики, делающие каждого из нас уникальным. Каждому гену присваивается имя и буквенно-цифровой код. Но за последний год 27 человеческих генов были переименованы. И вы удивитесь, узнав причину. Дело в том, что Microsoft Excel… автоматически заменяет некоторые названия генов, превращая их в даты!

94d4eeca627f9464da5f57f9acad3ed6.jpeg

Excel — популярная программа для работы с таблицами и неудивительно, что учёные регулярно ей пользуются. Они заносят туда данные и даже применяют Excel для проведения клинических испытаний. Но дело в том, что Excel создан для более приземленных задач. И когда пользователь вводит буквенно-цифровое название гена в электронную таблицу, например, MARCH1 (сокращение от «Membrane Associated Ring-CH-Type Finger 1»), Excel преобразует его в дату: 1 марта.

Такая ошибка критична, ведь для исправления искажённых данных учёные вынуждены перебирать всю информацию вручную. Это не только утомительно, но ещё и малореально. При этом ошибка на удивление широко распространена даже в рецензируемых научных работах. Исследование, проведённое в 2016 году, изучило генетические данные, опубликованные вместе с 3597 научными статьями, и обнаружило, что примерно пятая часть данных была испорчена ошибками Excel.

305c41eabb7d2b3ba27ea9e1099d2576.gif

Причём простого решения проблемы не существует. В Excel нет возможности отключить автоматическое форматирование, и единственный способ избежать его — изменить тип данных для отдельных столбцовДаже в этом случае учёный может исправить свои данные, но экспортировать их в виде CSV-файла без сохранения форматирования не получится. Или другой учёный может загрузить данные без правильного форматирования, случайно заменив символы генов обратно на даты. 

Решение пришло от научного органа, отвечающего за стандартизацию названий генов, Комитета по номенклатуре генов HUGO, или HGNC. На этой неделе HGNC опубликовал новые рекомендации по именованию генов, в том числе для «символов, влияющих на обработку и поиск данных». Отныне человеческие гены и белки, которые они экспрессируют, будут называться с оглядкой на автоформатирование Excel. Это означает, что символ MARCH1 теперь станет MARCHF1, а SEPT1 будет SEPTIN1 и так далее. Запись старых символов и имён будет храниться в HGNC, чтобы избежать путаницы в будущем.

За последний год были изменены названия 27 генов, , но принципы «ребрендинга» официально не объяснялись до этой недели. Выяснилось, что принцип присваивания имени генам во многом основывается на консенсусе. Комитет по номенклатуре генов должен прислушиваться к нуждам людей, на которых их работа больше всего повлияет.

Так было не всегда. На заре генетики именование генов часто было песочницей для творческих ученых, что привело к появлению таких печально известных названий, как «Ёжик Sonic» (да, названный в честь того самого Соника) и «Indy» (сокращение от «I«m not dead yet» по-русски «Я ещё не умер»), что является отсылкой к функции гена, удваивающей продолжительность жизни плодовых мушек при мутации. Кажется, это выглядело весьма забавно, но учёным, конечно, виднее.

Теперь же HGNC взял дело в свои руки, и текущие правила не оставляют места прихоти или эгоизму (и фантазии, увы). Основное внимание уделяется практическим проблемам: как свести к минимуму путаницу?  Для этого символы генов должны быть уникальными, а названия — краткими и конкретными. Они не могут использовать нижний или верхний индекс, должны содержать только латинские буквы и арабские цифры, не должны включать имена или слова, особенно оскорбительные (на любом языке).

И хотя решение переименовать гены далось нелегко, в этом нет ничего необычного. Например, многие генные символы, которые могут быть прочитаны как существительные, были переименованы, чтобы избежать ложных срабатываний во время поиска. В прошлом CARS стал CARS1, WARS изменился на WARS1, а MARS был изменён на MARS1. Другие изменения были внесены, чтобы избежать оскорблений.

Почему генетики проиграли Microsoft

Да, решение вызвало некоторые разногласия, причём в основном из-за того, что оказалось проще переименовать человеческие гены, чем изменить работу Excel. Почему же уступить пришлось именно учёным?

Microsoft не ответила на просьбу о комментариях, но на самом деле вносить изменения просто не имеет смысла. Работа с генами — это всего лишь единичный вариант использования программного обеспечения Excel. У Microsoft очень мало стимулов для внесения значительных изменений в функции, которые чрезвычайно широко используются остальным огромным сообществом. Так что учёным не стоит ждать гипотетического обновления, в котором проблема будет исправлена. Тем более, что они сами могут предложить долгосрочное решение. Программа Microsoft Excel может просуществовать ограниченное количество времени, а человеческие гены будут существовать до тех пор, пока мы живы. Лучше всего дать им имена, которые работают.

© Habrahabr.ru