Структура и функционирование белков. Применение методов биоинформатики - Джон Ригден 2014

Интегральные серверы для предсказания функции по структуре
Введение
Задача предсказания функции по структуре

Почему это так? Во-первых, если есть белок с неизвестной функцией, то это означает, что не только нет экспериментальной информации о его функции, но и потерпели неудачу стандартные методы анализа последовательности для функциональной аннотации. Эти методы, в особенности различные методы профилей, такие как методы скрытых марковских моделей, стали в последние годы достаточно изощренными, и теперь в состоянии обнаружить сходство функций при весьма низком уровне идентичности последовательностей. Так что если и эти методы потерпели неудачу, то нам остается положиться исключительно на пространственную структуру.

Структура белка содержит разного рода ключи к его функции, которые имеют и разную степень надежности, как это было описано в предыдущих главах. В Главе 6 было показано, что на глобальном уровне тип укладки белка очень часто может дать ключи к его функции, поскольку некоторые типы укладки прочно связаны с определенными функциями. Поэтому первым шагом на пути определения функции по структуре неизменно будет поиск белка с известной функцией и схожей укладкой. Сделать это можно с помощью большого числа предназначенных для сравнения укладок веб-серверов, для которых опубликовано несколько сравнительных обзоров (Sierk and Pearson 2004; Novotny et al. 2004; Carugo 2006). Однако вам следует иметь в виду, что сходство укладок не обязательно означает сходство функций. Например, так называемые суперфолды (Orengo et al. 1994; см тж. Главу 6), такие как семейство Т1М-бочонков, могут иметь представителей с большим разнообразием функций (Nagano et al. 1999; Anantharaman et al. 2003). А если белок имеет новый тип укладки - что, по мнению некоторых групп, является успешным результатом - то схожих укладок не будет найдено вовсе.

Если рассуждать не столь глобально, то важные ключи к функции могут лежать на поверхности белка, особенно в её углублениях и карманах (Глава 7), которые могут обеспечивать особое локальное расположение остатков, необходимое для катализа, распознавания ДНК и т.д. (Глава 8). Так, возможно, вы сможете идентифицировать, скажем, гипотетический сайт связывания АТФ. Это будет важным ключом к функции, но история на этом не заканчивается.

Есть еще различные обстоятельства, которые вставляют палки в колеса. Во-первых, часто бывает трудно получить нативную структуру всего белка. В этих случаях можно получить структуру части белка - скажем, всего лишь единственного домена. Сам по себе этот домен может мало сказать о функции целого белка. Во-вторых, даже если получена структура белка целиком, это может быть всего один компонент из многобелкового комплекса. И снова структура оказывается лишь частью истории. Еще более неприлично ведут себя так называемые белки-совместители, которые на самом деле могут иметь несколько функций в зависимости от контекста: расположения в клетке, окружения и так далее (Jeffery 1999). А некоторые белки могут изменять свою функцию в зависимости от того, какой из вариантов альтернативного сплайсинга экспрессирован в данный момент времени (Stamm et al. 2005).

Другая проблема в предсказании функции заключается в сложности оценки успеха или неудачи данного метода предсказания, и, на самом деле, даже в определении того, что понимать под функцией. Функция может быть описана на разных уровнях, начиная от биохимической функции, переходя к биологическим процессам и путям и достигая уровня органов или организмов (Shrager 2003). Поэтому конкретный белок может быть аннотирован на нескольких различных уровнях функциональной специфичности: например, убихитиноподобный домен, сигнальный белок, предсказываемая сериновая гидролаза, вероятная эукариотическая D-аминокислотная тРНКаза и так далее. Таким образом, трудно судить о точности любого такого описания, особенно если это одно из еще более нечетких описаний.

Общепринятая стратегия при оценке методов предсказания функции состоит в использовании генной онтологии (ГО, Gene Ontology, GO) (The Gene Ontology Consortium 2000; Camon et al. 2004). Это открытая классификация для функционального аннотирования белковых последовательностей. Она представляет из себя машинно-читаемую онтологию, основанную на контролируемом словаре функциональных дескрипторов, и многие методы предсказания функции представляют свои результаты в терминах классификации ГО. Хотя и не строго иерархические, функциональные ГО-дескрипторы варьируются от совершенно неспецифических (например, фермент) до высокоточных (например 1 -пирролидин-4-гидрокси-2-карбоксилатдеаминаза).