Метод может ускорить аннотирование геномов организмов, для которых пока нет детальных биологических сведений.
Искусственный интеллект019 минут назад
Российская нейронная сеть GENATATOR автоматизирует разметку генов в ДНК, что может значительно ускорить создание генетических карт для слабо изученных организмов. Модель, разработанная учеными из Института AIRI, анализирует последовательности ДНК, определяя границы генов, их тип и внутреннюю структуру, что является сложной задачей из-за отсутствия универсальных маркеров для начала и конца генов.


В отличие от традиционных методов, основанных на строгих правилах, новая система применяет машинное обучение на обширных наборах геномов. Это позволяет ей выявлять не только участки, кодирующие белки, но и сложные для анализа гены длинных некодирующих РНК. Модель функционирует поэтапно: сначала предсказывает границы, затем проверяет участки, классифицирует их и уточняет внутреннюю структуру, отделяя экзоны от интронов.
Эта технология особенно ценна для «немодельных» организмов, для большинства из которых существуют лишь «сырые» сборки генома без аннотаций. В ходе испытаний GENATATOR, обученная на генах человека и 38 видов млекопитающих, успешно применила свои закономерности к совершенно другим организмам, таким как плодовая мушка, растения и дрожжи. Более того, система смогла обнаружить редкие «ядовитые» экзоны, включение которых приводит к деградации РНК-молекулы.
Как подчеркнули в AIRI, точность определения границ имеет критическое значение, так как ошибка всего в один нуклеотид может вызвать смещение рамки считывания и полностью исказить предсказание структуры белка. Для оценки и сравнения качества модели был создан открытый лидерборд, где она демонстрирует лучшие результаты по ряду метрик. Модели можно найти по ссылке на Hugging Face.
VerKoИсточники:AIRIИскусственный интеллект0РоссияИИ19 минут назад
Источник