В России создали нейросеть, которая строит карту генов по последовательности ДНК
Российская нейросеть GENATATOR автоматизирует разметку генов в ДНК, что может кардинально ускорить создание генетических карт для малоизученных организмов. Разработанная учёными из Института AIRI модель анализирует последовательность ДНК, определяя границы генов, их тип и внутреннюю структуру, что является сложной задачей из-за отсутствия у генов универсальных маркеров начала и конца.
Изображение сгенерировано нейросетью ChatGPT
Изображение сгенерировано нейросетью ChatGPT В отличие от классических методов, полагающихся на жёсткие правила, новая система использует машинное обучение на больших наборах геномов. Это позволяет ей выявлять не только белок-кодирующие участки, но и сложные для анализа гены длинных некодирующих РНК. Модель работает поэтапно: сначала предсказывает границы, затем верифицирует участки, классифицирует их и уточняет внутреннюю структуру, отделяя экзоны от интронов.
Особую ценность технология представляет для «немодельных» организмов, для подавляющего большинства из которых существуют лишь «сырые» сборки генома без аннотаций. В ходе испытаний GENATATOR, обученная на генах человека и 38 видов млекопитающих, успешно применила свои закономерности к совершенно другим организмам, таким как плодовая мушка, растение и дрожжи. Кроме того, система смогла обнаружить редкие «ядовитые» экзоны, включение которых приводит к деградации РНК-молекулы.
Как отметили в AIRI, точность определения границ критически важна, так как ошибка всего в один нуклеотид может вызвать сдвиг рамки считывания и полностью исказить предсказание структуры белка. Для оценки и сравнения качества модели создан открытый лидерборд, где она демонстрирует лучшие результаты по ряду метрик. Модели можно найти по ссылке на Hugging Face.
© iXBT
