Структура и функционирование белков. Применение методов биоинформатики - Джон Ригден 2014
Распознавание фолда
“Протягивание”
Поиск выравнивания
В случае наличия функции потенциальной энергии, с помощью которой можно получить оценку для данной модельной структуры белка, исследователь сталкивается с непростой задачей: как найти выравнивание последовательности по структуре, для которого значение потенциальной функции будет минимальным (максимальным). Если не принимать во внимание тот факт, что в процессе эволюции в последовательности белка появляются вставки и делеции, можно использовать методику “протягивания без разрывов”. Этот подход подразумевает простое “проскальзывание” последовательности через структуру, при этом учитывается и оценивается каждое выравнивание без разрывов. Преимуществом подхода является высокая скорость вычислений, а существенным недостатком - отсутствие возможности учитывать разрывы. Вставка или делеция лишь одного остатка вызывает смещение считывающей рамки, в результате чего выравнивание, которое в других условиях было бы определено как высококачественное, не учитывается. Таким образом, принимать во внимание разрывы крайне важно для учета природы эволюционных вариаций.
Однако именно учет таких разрывов превращает простую задачу в NP-сложную, для которой не существует быстрого (за полиномиальное время) решения. Полный перебор всех возможных выравниваний с разрывами для исследуемых последовательности и структуры невыполним по очевидным причинам, в особенности, если поиск осуществляется в базе данных, которая содержит тысячи структур. В случае обычного выравнивания последовательностей, при котором не учитывается вклад парных взаимодействий между любыми двумя остатками одного и того же белка, такую проблему выравнивания можно решить с помощью рекурсивного процесса динамического программирования. Но когда различные вклады парных взаимодействий, такие как физические потенциалы, учитываются, динамическое программирование использовать нельзя. В классическом динамическом программировании выравнивание остатка исследуемой последовательности относительно структуры предполагаемого шаблона оценивается с помощью простой справочной таблицы (например, BLOSUM или особой оценочной матрицы профиля/положения (PSSM, от “profile/position specific scoring matrix”); см. ниже, а также в табл. 2.1). В то же время, при использовании метода протягивания оценка выравнивания остатка последовательности относительно остатка структуры определяется на основании того, каким образом были выровнены все остальные остатки, с которыми исследуемый участок может взаимодействовать.
Таблица 2.1. (а) Оценочная матрица BLOSSUM (Seq)
| А | R | N | D | С | Q | F | Р | S | Т | W | Y | V | |||
| А | 4 | -1 | -2 | -2 | 0 | -1 | -2 | -1 | 1 | 0 | -3 | -2 | 0 | ||
| R | -1 | 5 | 0 | -2 | -3 | 1 | -3 | -2 | -1 | -1 | -3 | -2 | -3 | ||
| N | -2 | 0 | 6 | 1 | -3 | 0 | -3 | -2 | 1 | 0 | -4 | -2 | -3 | ||
| D | -2 | -2 | 1 | 6 | -3 | 0 | -3 | -1 | 0 | -1 | -4 | -3 | -3 | ||
| С | 0 | -3 | -3 | -3 | 9 | -3 | -2 | -3 | -1 | -1 | -2 | -2 | -2 | ||
| Q | -1 | 1 | 0 | 0 | -3 | 5 | -3 | -1 | 0 | -1 | -2 | -1 | -2 | ||
| F | -2 | -3 | -3 | -3 | -2 | -3 | 6 | -4 | -2 | -2 | 1 | 3 | -1 | ||
| Р | -1 | -2 | -2 | -1 | -3 | -1 | -4 | 7 | -1 | -1 | -4 | -3 | -2 | ||
| S | 1 | -1 | 1 | 0 | -1 | 0 | -2 | -1 | 4 | 1 | -3 | -2 | -2 | ||
| Т | 0 | -1 | 0 | -1 | -1 | -1 | -2 | -1 | 1 | 5 | -2 | -2 | 0 | ||
| W | -3 | -3 | -4 | -4 | -2 | -2 | 1 | -4 | -3 | -2 | 11 | 2 | -3 | ||
| Y | -2 | -2 | -2 | -3 | -2 | -1 | 3 | -3 | -2 | -2 | 2 | 7 | -1 | ||
| V | 0 | -3 | -3 | -3 | -1 | -2 | -1 | -2 | -2 | 0 | -3 | -1 | 4 | 
(6) Простая матрица оценки вторичной структуры (SS)
| Предсказанная / известная | а-спираль | ß-тяж | петля | 
| а-спираль | +1 | -1 | -1 | 
| ß-тяж | -1 | +1 | -1 | 
| петля | -1 | -1 | +1 | 
(в) Простая матрица оценки экспонированности (Solv)
| Предсказанный / известный | Заглубленный | Экспонированный | 
| Заглубленный | +1 | -1 | 
| Экспонированный | -1 | +1 |