Структура и функционирование белков. Применение методов биоинформатики - Джон Ригден 2014

Методы биоинформатики для изучения структуры и функций неупорядоченных белков
Предсказание функций БПН
Предсказание коротких мотивов распознавания в БПН

Совершенной иной, но важный подход состоит в том, чтобы прогнозировать наличие в БПН/ОПН коротких мотивов последовательностей, которые затем можно непосредственно связать с определенными функциями, такими как посттрансляционные модификации или связывание с близкими молекулами-партнерами. Как уже было отмечено выше, функции БПН часто связаны с наличием коротких линейных мотивов, участвующих в белок-белковых взаимодействиях. Поскольку объем информации, содержащийся в этих коротких мотивах, ограничен, для распознавания таких белковых областей были разработаны специализированные методы, два из которых описаны ниже.

В одном из названных методов - DILIMOT (Discovery of Linear MOTifs) (Neduva and Russell 2006) - используется тот факт, что статистическую достоверность можно заметно повысить, если использовать для прогнозирования ряд последовательностей с общим функциональным свойством (таким как молекула-партнер для взаимодействия или локализация), которое обусловлено присутствием короткого мотива, с высокой вероятностью представленного в каждой из последовательностей ряда. Из рассмотрения исключаются те области входных последовательностей, которые с низкой вероятностью содержат примеры линейных мотивов (глобулярные домены, сигнальные пептиды, трансмембранные и биспиральные области). Затем среди оставшихся последовательностей при помощи алгоритма соединения с моделью осуществляется поиск мотивов. Обнаруженные мотивы ранжируются в соответствии с уровнем избыточности представления в последовательностях, а также с уровнем консервативности среди гомологов родственных видов. Производительность метода повышается в случае сравнения белков, принадлежащих различным биологическим видам, а также в случае рандомизации последовательностей. Предварительное применение метода к полученным высокопроизводительными методами наборам данных по взаимодействиям в последовательностях дрожжей, мухи, червя и человека привело к повторному открытию множества известных ранее примеров линейных мотивов, а также к обнаружению ряда новых мотивов. Прогнозы для двух предполагаемых новых мотивов получили подтверждение в экспериментах по прямому связыванию: мотив DxxDxxxD связывает белковую фосфатазу 2 с Кd= 22μМ; мотив VxxxRxYS связывает траслин с Kd=43μМ (Neduva and Russell 2005).

Концептуально близким методу DILIMOT является метод SlimDisc (Short Linear Motif Discovery) (Davey et al. 2006). В его основе лежит положение, согласно которому доказательство присутствия характеристического мотива в белке является тем более весомым, чем чаще данный мотив встречается в различных несвязанных между собой белках, эволюционирующих путем конвергенции. Обнаружению таких мотивов препятствует сходство в родственных белках, которое возникает вследствие общего происхождения. Принимая во внимание этот факт, поиск схожих мотивов ведут в группе белков с общим характерным свойством среди белков, обладающих незначительным сходством или полным отсутствием сходства в первичной последовательности. Общим характерным свойством в данном случае может быть биологическая функция белков, их субклеточная локализация или общая молекула-партнер, с которой белки взаимодействуют. Мотивы, обнаруженные с помощью основных алгоритмов распознавания паттернов, таких как TEIRESIAS, рассматриваются как более значимые, если они обнаружены в последовательностях, никак не связанных между собой, и как менее значимые, если очевидно, что они произошли от общего эволюционного предка. Проверка метода SlimDisc на калибровочном наборе белков, содержащих линейные мотивы, (Neduva and Russell 2005) показала значительное улучшение производительности.