Исследователи из Национального института стандартов и технологий (NIST) разработали новый статистический инструмент, который они использовали для прогнозирования функции белка. Он не только может помочь в сложной задаче изменения белков практически полезными способами, но также работает полностью объяснимыми способами — преимущество перед традиционным искусственным интеллектом (ИИ), который помогал инженерии белков в прошлом.
Новый инструмент, названный LANTERN, может быть полезен в работе, начиная от производства биотоплива и заканчивая улучшением сельскохозяйственных культур и разработкой новых методов лечения болезней. Белки, как строительные блоки биологии, являются важным компонентом всех этих задач. Но хотя относительно легко внести изменения в цепочку ДНК, которая служит чертежом для определенного белка, все же трудно определить конкретные пары оснований — ступени на лестнице ДНК — которые являются ключом к получению желаемого эффекта. Поиск этих ключей был прерогативой искусственного интеллекта, основанного на глубоких нейронных сетях (ГНС), которые, хотя и эффективны, общеизвестно непонятны человеческому пониманию.
Описание в новой статье, опубликованной в Труды Национальной академии наукИ Лантер демонстрирует способность предсказывать генетические модификации, необходимые для создания полезных вариаций в трех разных белках. Один из них — шиповидный белок с поверхности вируса SARS-CoV-2, вызывающий COVID-19; Понимание того, как изменения в ДНК могут изменить этот повышенный уровень белка, может помочь эпидемиологам предсказать будущее эпидемии. Два других — известные лабораторные рабочие лошадки: белок LacI из бактерий кишечной палочки и зеленый флуоресцентный белок (GFP), используемый в качестве маркера в биологических экспериментах. Выбор этих трех тем позволил команде NIST показать не только то, что их инструмент работает, но и то, что его результаты поддаются интерпретации — важное свойство отрасли, которой нужны прогностические методы, помогающие понять платформу.
«У нас есть полностью объяснимый подход, и нет потери в предсказательной способности», — сказал Питер Тонер, статистик и вычислительный биолог из Национального института стандартов и технологий (NIST) и ведущий разработчик LANTERN. «Существует распространенное мнение, что если вы хотите одну из этих вещей, вы не можете иметь другую. Мы показали, что иногда вы можете иметь и то, и другое».
Проблему, которую решает команда NIST, можно представить как взаимодействие со сложной машиной, содержащей обширную панель управления, заполненную тысячами безымянных переключателей: машина — это ген, цепочка ДНК, кодирующая белок; Ключи представляют собой пары оснований на полосе. Все переключатели так или иначе влияют на выход устройства. Если ваша работа состоит в том, чтобы заставить машину работать по-другому, какие переключатели вы должны щелкнуть?
Поскольку ответ может потребовать изменения нескольких пар оснований, ученым приходится переворачивать один из них, измерять результат, затем выбирать новый набор и измерять снова. Количество перестановок пугает.
«Количество возможных комбинаций может быть больше, чем количество атомов во Вселенной», — сказал Тонер. «Вы никогда не сможете измерить все возможности. Это смехотворно большое число».
Из-за огромного количества задействованных данных перед DNN была поставлена задача сортировать путем выборки данных и прогнозировать, какие пары оснований необходимо перевернуть. В этом они доказывают свою успешность — до тех пор, пока вы не попросите объяснить, как они получили свои ответы. Их часто называют «черными ящиками», потому что их внутренняя работа неоднозначна.
«Очень сложно понять, как DNN делают свои прогнозы», — сказал физик NIST Дэвид Росс, один из авторов статьи. «И это огромная проблема, если вы хотите использовать эти прогнозы для разработки чего-то нового».
С другой стороны, LANTERN специально разработан, чтобы быть понятным. Частично его интерпретируемость связана с использованием интерпретируемых параметров для представления анализируемых данных. Вместо того, чтобы позволять количеству этих параметров расти необычно и часто неоднозначно, как в случае с DNN, каждый параметр в вычислениях LANTERN имеет цель, которая должна быть интуитивно понятной, помогая пользователям понять, что означают эти параметры и как они влияют на прогнозы LANTERN. .
Модель LANTERN представляет белковые мутации с помощью векторов, а широко используемые математические инструменты часто визуально изображаются в виде стрелок. Каждая стрелка имеет две характеристики: ее направление указывает на эффект всплеска, а ее длина показывает, насколько силен этот эффект. Когда два белка имеют векторы, указывающие в одном и том же направлении, ФОНАРЬ указывает, что белки имеют аналогичную функцию.
Тенденции этих векторов часто наносятся на биологические механизмы. Например, LANTERN изучил тенденцию, связанную со сворачиванием белков в трех наборах данных, изученных командой. (Фолдинг играет важную роль в функционировании белка, поэтому определение этого фактора в наборах данных свидетельствует о том, что модель работает должным образом.) Делая прогнозы, LANTERN складывает эти векторы вместе — таким образом пользователи могут отслеживать их при проверке своих прогнозов. .
Другие лаборатории уже использовали DNN, чтобы делать прогнозы о том, что может привести к полезным изменениям в трех белках, поэтому команда NIST решила противопоставить LANTERN результатам DNN. Мало того, что новый подход был достаточно хорош; По словам команды, это приносит новое состояние точности прогнозирования для этого типа проблем.
«Лантернер эквивалентен или превосходит почти все альтернативные методы с точки зрения точности прогноза», — сказал Тонер. «Он превосходит все другие подходы в прогнозировании изменений в LacI и имеет прогностическую точность, сравнимую с GFP, для всех, кроме одного. Для SARS-CoV-2 он имеет прогностическую точность выше, чем все альтернативы, кроме одного типа DNN, который соответствует точности ФОНАРЯ, но Он не превзошел».
LANTERN определяет, какие комбинации клавиш оказывают наибольшее влияние на конкретную характеристику белка — например, на его стабильность укладки — и обобщает, как пользователь может изменить эту характеристику для достижения желаемого эффекта. В некотором смысле LANTERN превращает множество клавиш на нашей приборной панели в несколько простых циферблатов.
«Тысячи клавиш сводятся к пяти маленьким дискам, которые вы можете воспроизводить», — сказал Росс. «Он говорит вам, что первый циферблат будет иметь большой эффект, второй будет иметь другой, но меньший эффект, третий меньший эффект и т. д. Как инженер он говорит мне, что я могу сосредоточиться на первом и втором циферблате, чтобы получить Результат мне нужен. Все это мне Лантерн ставит, и это невероятно помогает. Поверь».
Рагмунда Касерес, ученый из Массачусетского технологического института Лаборатория Линкольна Знакомая с методом Lantern, она сказала, что ценит интерпретируемость инструмента.
«Не так много методов искусственного интеллекта применяются в приложениях биологии, где они предназначены специально для интерпретации», — сказал Касерес, который не связан с исследованием NIST. Когда биологи увидят результаты, они смогут увидеть мутацию, которая способствует изменению белка. Этот уровень интерпретации позволяет проводить больше междисциплинарных исследований, потому что биологи могут понять, как алгоритм обучается, и могут генерировать больше идей об изучаемой биологической системе. »
Тонер сказал, что, хотя он и удовлетворен результатами, LANTERN не является панацеей от проблемы интерпретации ИИ. Он сказал, что изучение альтернатив DNN в более широком масштабе пойдет на пользу всем усилиям по созданию интерпретируемого и заслуживающего доверия ИИ.
«В контексте прогнозирования генетических эффектов на функцию белка Lantern является первым примером чего-то, что конкурирует с DNN по предсказательной способности, но при этом полностью объяснимо», — сказал Тонер. Он предлагает конкретное решение конкретной проблемы. Мы надеемся, что это применимо и к другим, и что эта работа вдохновит на разработку новых интерпретируемых подходов. Мы не хотим, чтобы предсказательный ИИ оставался черным ящиком».
журнал
Труды Национальной академии наук
метод исследования
обучение пилота
Тема исследования
не применять
Название статьи
Интерпретируемое моделирование ландшафтов генотипа и фенотипа с современной предсказательной силой
Дата публикации статьи
22 июня 2022 г.
«Главный евангелист пива. Первопроходец в области кофе на протяжении всей жизни. Сертифицированный защитник Твиттера. Интернетоголик. Практикующий путешественник».
More Stories
Ученые раскрыли секреты потери морских звезд и возобновления роста конечностей
Комплексное мероприятие сообщества людей с деменцией в Ратуте, посвященное Всемирному месяцу борьбы с болезнью Альцгеймера.
Новое исследование массивного надвига предполагает, что следующее большое землетрясение может быть неизбежным