Практическая химия белка - А. Дарбре 1989

Предсказание конформации пептидов и белков
Арсенал современных теоретических методов
Эвристические методы

Обычно, «эвристическим» считают прием, который облегчает поиск решения сложной задачи и сокращает время, требующееся для получения результата. Подобные приемы, позволяющие экономить машинное время, применяют для предсказания конформации белков. Эвристические методы не предполагают введения специальных допущений, как, например, в методе Метрополиса или алгоритмах минимизации энергии. В настоящем разделе рассмотрены приемы, которые не приводят к изменению потенциальной поверхности, но используют априорные ограничения в пространстве конформационных параметров.

Принципиальная трудность в предсказании структуры белков состоит в существовании большого числа локальных минимумов; применение же эвристических приемов направлено как раз на преодоление проблемы множественности минимумов. Введение ограничений позволяет исключить из поиска области конформационного пространства, не содержащие глобального минимума a priori, или, наоборот, вести поиск в тех областях, где содержится интересующее исследователя решение.

В пионерской работе Левитта и Варшела [33] по моделированию, процесса самоорганизации панкреатического трипсинового ингибитора было предложено упрощенное представление белковой молекулы. Это было задумано с целью сглаживания несущественных деталей исследуемой потенциальной поверхности, включая локальные минимумы. Естественно, такой подход можно считать за применение своеобразных потенциальных функций, что эквивалентно принятию заведомо грубого дальнейшего приближения. Подобный прием не является в полной мере эвристическим, и переход на уровень столь сильного упрощения представляет собой весьма специфическое нововведение в исследовании процесса самоорганизации белков. Следует также иметь в виду, что предложенная примитивная модель белка в данном случае единственно возможная, а более точное представление в настоящее время не поддается расчету. Однако возникает реальная опасность, что измененная потенциальная поверхность белка может иметь мало общего с реальной энергетической поверхностью.    

В работе [63] предложен иной подход, который в принципе применим и при точном представлении белковой молекулы. Хорошо известно, что внутренние переменные, определяющие конформацию белка, не являются независимыми в пределах одного остатка. Значение одной переменной (обычно торсионный угол) предопределяет возможные допустимые значения некоторых других переменных. Тем самым нет необходимости в испытании всех возможных комбинаций, так как многие из них в высшей степени маловероятны. Главная трудность состоит в том, чтобы удачно выбрать значения главных переменных и избежать исследования маловероятных конформации.

Упомянутая процедура может быть формализована следующим образом. Во-первых, представим обычным способом выражение для минимизируемой конформационной энергии в виде функции переменных торсионных углов v1, v2 ...

E= E (v1, v2, ..., vm)      (21.12)

Затем рассмотрим наборы переменных, сгруппированных по принципу взаимозависимости. Например, переменные от vi-m до vi+m могут составлять один из таких наборов. Для каждого из образованных наборов переменных составляется связующая функция w1:

wj = f(vi-m, ..., v1, ..., vi+m)      (21.13)

Связующая функция передает ход траектории в некоторой области конформационного пространства, определяемого набором переменных vi-m, ..., vi, ..., vi+m. Вид функции подобран таким образом, что значение wj отвечает расстоянию вблизи траектории поиска. Тем самым значение wj определяет в конформационном пространстве переменных vi-m, ..., vi, ..., vi+m и положение точки, принадлежащей самой траектории. Выражение для вектора P(vi-m, ..., vi, ..., vi+m), задающего положение точки, выглядит следующим образом:

P(vi-m, ..., vi, ..., vi+m) = f-1(wj) (21.14)

где f-1 — обращение функции wj в уравнении (21.13). Выполнение подобных операций для каждого из наборов переменных позволяет использовать все связи между переменными и вычислить энергию с помощью уравнения (21.12). Польза изложенного подхода заключается в том, что энергию минимизируют в виде функции меньшего числа переменных:

E = E(w1, w2, ..., wN)      (21.15)

Конформация системы, определенная через переменные w, при необходимости может быть представлена через переменные v с помощью аппроксимирующей процедуры, в которой конформация варьируется в виде функции от переменных w.

Полезным свойством функции f-1 является единственность ее значения. Как на практике выбирают функцию f-1? К настоящему моменту известны работы, в которых применялись как очень простые функции, отвечающие простым траекториям, так и более громоздкие функции, ведущие к достаточно сложным траекториям. В работе [62] для f-1 выбрано уравнение наклонного эллипса, описывающее конформационное пространство двух торсионных углов Ф и Ψ для каждого остатка в полипептидной цепи белка. Значению w, соответствует угол D между двумя векторами с началом в центре эллипса. Один из векторов фиксирован в пространстве, тогда как второй направлен к рассматриваемой периферийной точке.

С помощью подбора параметров удалось достигнуть значений D=0 и 360° для полностью вытянутой складчатой формы полипептидной цепи. D=+90° для классической правовинтовой а-спирали, D=-90° — для левой а-спирали и т. д. Экономия времени, достигнутая в результате применения рассмотренного здесь эвристического метода для процесса самоорганизации панкреатического трипсинового ингибитора, оказалась весьма заметной по сравнению с методом Левитта и Варшела [33]. Важно также отметить, что ускорение вычислений достигнуто при более корректном представлении деталей строения белковой цепи, чем в работе Левитта и Варшела.

Естественно, что все аналогичные методы связаны с применением ограничений и условий, так как искомое решение должно соответствовать определенной траектории в изучаемом конформационном пространстве. При этом следует специально позаботиться о том, чтобы траектория поиска захватывала все наиболее важные конформации (например, а-спираль) и проходила достаточно близко от всех возможных решений. В этом отношении выбор-эллиптической траектории представляется достаточно спорным, хотя при этом и есть возможность охватить поиском конформации типа а-спирали, ß-слоя и ß-изгиба. [62]. Существует, конечно, опасность, что в белке, для которого ведется предсказание третичной структуры, конформация какого-нибудь аминокислотного остатка лежит в стороне от эллиптической траектории поиска и по этой причине может быть вообще не включена в рассмотрение. Тем не менее современное состояние метода допускает небольшие отклонения в конформациях остатков, если при этом сохраняется общий ход белковой цепи. Более того, зачастую бывает, что значительные отклонения в конформации одного остатка компенсируются изменениями положения прилегающих остатков, так что общий профиль белковой молекулы сохраняется. Это было показано введением эллиптических ограничений на конформацию каждого аминокислотного остатка в белках с последующей минимизацией среднеквадратичного отклонения координат локализации атомов (обычно это Ca-атомы) от экспериментальных значений. Для ряда белков получено весьма низкое значение среднеквадратичного отклонения положений атомов, равное 1:1,1 Å, что представляется весьма убедительным в сравнении с отклонением в 4:6 Å, получаемым при предсказании структур белков с помощью обычной процедуры минимизации энергии.

Еще лучшего соответствия можно добиться, если выбрать более сложные траектории поиска с помощью подбора функции f-1. Один из примеров подобного рода—траектория, аппроксимируемая серией коротких прямых, причем (I+1)-я прямая вблизи траектории поиска определяется координатами конечных точек Qjи Qj+i. Пусть D — параметр, определяющий траекторию на данном участке. В случае когда D = 6,3, траектория поиска на 0,3 аппроксимируется седьмой прямой, соединяющей точки Q6и Q7. В более общем случае, если D = f + X (I — целая, а X — дробная часть параметра D), то траектория поиска на долю X определяется прямой (I+1) между точками QIи QI=1. Для конформации в точке PD = (vi-m, ..., vi, ..., vi+m) = f-1(wj), где wj = D, справедливо следующее соотношение:

PD = QI + X(QI+1 - QI)      (21.16)

PDи QN, QN+1 — векторы, каждый из которых содержит столько элементов, сколько переменных V входит в данный набор; векторы Q могут быть представлены в ЭВМ в виде стека векторов, отвечающих точкам конкретной траектории. Напротив, вектор Pd непрерывно меняется и отвечает пробной конформации P=(vi-m, ..., vi, ..., vi+m), что соответствует расстоянию D вдоль траектории поиска. На практике используют циклическую траекторию, так что Q; заменяет QI+1 а такая замена осуществляется с учетом модуля функции при текущем значении I и числа прямых, аппроксимирующих траекторию. В отличие от эллипса, использованного в работе [62], последний подход может быть распространен на случай любого числа взаимосвязанных переменных. При этом возникают трудности, связанные с разрывами производных потенциальной функции по расстоянию D. Их можно преодолеть с помощью минимизации по симплекс-методу. Этот метод весьма полезен в предсказании структуры белков [62], причем наличие разрывов в производных не является непреодолимым препятствием при работе симплекс-метода. В то же время известны и иные способы представления траектории поиска, при которых производные по энергии сохраняют непрерывность, но этo способы достаточно сложны и здесь не рассматриваются.