Структура и функционирование белков. Применение методов биоинформатики - Джон Ригден 2014

Распознавание фолда
“Протягивание”
Поиск выравнивания

В случае наличия функции потенциальной энергии, с помощью которой можно получить оценку для данной модельной структуры белка, исследователь сталкивается с непростой задачей: как найти выравнивание последовательности по структуре, для которого значение потенциальной функции будет минимальным (максимальным). Если не принимать во внимание тот факт, что в процессе эволюции в последовательности белка появляются вставки и делеции, можно использовать методику “протягивания без разрывов”. Этот подход подразумевает простое “проскальзывание” последовательности через структуру, при этом учитывается и оценивается каждое выравнивание без разрывов. Преимуществом подхода является высокая скорость вычислений, а существенным недостатком - отсутствие возможности учитывать разрывы. Вставка или делеция лишь одного остатка вызывает смещение считывающей рамки, в результате чего выравнивание, которое в других условиях было бы определено как высококачественное, не учитывается. Таким образом, принимать во внимание разрывы крайне важно для учета природы эволюционных вариаций.

Однако именно учет таких разрывов превращает простую задачу в NP-сложную, для которой не существует быстрого (за полиномиальное время) решения. Полный перебор всех возможных выравниваний с разрывами для исследуемых последовательности и структуры невыполним по очевидным причинам, в особенности, если поиск осуществляется в базе данных, которая содержит тысячи структур. В случае обычного выравнивания последовательностей, при котором не учитывается вклад парных взаимодействий между любыми двумя остатками одного и того же белка, такую проблему выравнивания можно решить с помощью рекурсивного процесса динамического программирования. Но когда различные вклады парных взаимодействий, такие как физические потенциалы, учитываются, динамическое программирование использовать нельзя. В классическом динамическом программировании выравнивание остатка исследуемой последовательности относительно структуры предполагаемого шаблона оценивается с помощью простой справочной таблицы (например, BLOSUM или особой оценочной матрицы профиля/положения (PSSM, от “profile/position specific scoring matrix”); см. ниже, а также в табл. 2.1). В то же время, при использовании метода протягивания оценка выравнивания остатка последовательности относительно остатка структуры определяется на основании того, каким образом были выровнены все остальные остатки, с которыми исследуемый участок может взаимодействовать.

Таблица 2.1. (а) Оценочная матрица BLOSSUM (Seq)


А

R

N

D

С

Q



F

Р

S

Т

W

Y

V

А

4

-1

-2

-2

0

-1



-2

-1

1

0

-3

-2

0

R

-1

5

0

-2

-3

1



-3

-2

-1

-1

-3

-2

-3

N

-2

0

6

1

-3

0



-3

-2

1

0

-4

-2

-3

D

-2

-2

1

6

-3

0



-3

-1

0

-1

-4

-3

-3

С

0

-3

-3

-3

9

-3



-2

-3

-1

-1

-2

-2

-2

Q

-1

1

0

0

-3

5



-3

-1

0

-1

-2

-1

-2

































F

-2

-3

-3

-3

-2

-3



6

-4

-2

-2

1

3

-1

Р

-1

-2

-2

-1

-3

-1



-4

7

-1

-1

-4

-3

-2

S

1

-1

1

0

-1

0



-2

-1

4

1

-3

-2

-2

Т

0

-1

0

-1

-1

-1



-2

-1

1

5

-2

-2

0

W

-3

-3

-4

-4

-2

-2



1

-4

-3

-2

11

2

-3

Y

-2

-2

-2

-3

-2

-1



3

-3

-2

-2

2

7

-1

V

0

-3

-3

-3

-1

-2



-1

-2

-2

0

-3

-1

4

(6) Простая матрица оценки вторичной структуры (SS)

Предсказанная / известная

а-спираль

ß-тяж

петля

а-спираль

+1

-1

-1

ß-тяж

-1

+1

-1

петля

-1

-1

+1

(в) Простая матрица оценки экспонированности (Solv)

Предсказанный / известный

Заглубленный

Экспонированный

Заглубленный

+1

-1

Экспонированный

-1

+1