Практическая химия белка - А. Дарбре 1989

Предсказание конформации пептидов и белков
Предсказание вторичной структуры. Специальный тип расчетов

Предсказания, рассматриваемые в настоящем отделе, основаны на вычислениях без минимизации энергии. Они, однако, бесспорно относятся к эвристическим методам и удобны как прием для выбора стартовой конформации глобулярного белка перед минимизацией энергии. Выбор стартовой конформации особенно актуален в связи с проблемой множественности минимумов. В то же время предсказание вторичной структуры не может прямо привести к третичной структуре объекта, для чего требуется дополнительная обработка, включающая минимизацию энергии. Два серьезных обстоятельства говорят в пользу этого мнения. Во-первых, алгоритмы предсказания вторичной структуры не учитывают роли взаимодействий, ответственных за поддержание компактной третичной структуры, а рассматривают только взаимодействия, наиболее существенные при формировании вторичной структуры. Поскольку вторичная структура все же до известной степени зависит от неучтенных взаимодействий, точное предсказание выполнить не представляется возможным. Во-вторых, даже правильное предсказание вторичной структуры предполагает, что каждый двугранный угол, определяющий строение основной цепи белка, заключен в некотором интервале значений. Небольшая неточность в величине двугранного угла в случае белка большого размера может означать чрезмерную неопределенность пространственных координат многих атомов и самой третичной структуры исследуемой молекулы. Тем не менее ряд исследователей выполняют предсказание вторичной структуры без последующей минимизации энергии, и такой подход настолько распространен, что заслуживает специального рассмотрения. Следует заметить, что трудно ожидать слишком многого от применения предсказательных методов в отрыве от остальных сведений об объекте и что необходимо помнить об ограниченных возможностях метода.

Если при предсказании вторичной структуры не используются методы расчета потенциальной энергии, то что же они представляют из себя? За исключением тех из них, в которых привлекаются экспериментальные данные по переходу спираль — клубок в синтетических полипептидах, подавляющее число методов основано на статистических подходах. Они используют частоты встречаемости конформационных состояний для индивидуальных аминокислотных остатков в таблицах зависимостей последовательность — конформация для белков с известной пространственной структурой. Самый простой пример предсказательного подхода состоит в привлечении экспериментального факта о том, что пролин никогда не встречается в спиральных участках белков, входящих в банк пространственных структур (за исключением N-концевой позиции). Поэтому при поиске энергетического минимума случай, когда остаток пролина присутствует в спиральной области исходной конформации белка, вообще не рассматривается.

Усилия исследователей направлены на поиск алгоритмов и параметров, которые в состоянии отразить наблюдаемые зависимости между аминокислотной последовательностью и вторичной структурой белка и которые могут также предсказывать конформации белков, не входящих в исходный базовый набор белков. В ранних предсказательных методах каждый из 20 аминокислотных остатков относился либо к спиралеобразующему, либо к спиралеразрушающему типу. Тот факт, что ни один из аминокислотных остатков не имеет единственной конформации, был учтен введением ряда простых правил (например, что для возникновения а-спирали необходимо присутствие по крайней мере четырех спиралеобразующих остатков). Более того, изучение перехода спираль — клубок в синтетических полипептидах показало, что представление аминокислотных остатков в виде только спиралеобразующих либо спиралеразрушающих звеньев является слишком грубым. В связи с этим для всех 20 аминокислотных остатков была предложена шкала спиральной предпочтительности [48]. В поисках удовлетворительной предсказательной процедуры, которая бы использовала минимум допущений и основывалась на наиболее объективных свойствах исходной базы данных, были

привлечены также методы теории информации. Целью этой попытки было желание устранить неоправданное влияние физических факторов и обрабатывать сведения о последовательности и конформации белков как два текста, связанных неизвестным кодом. Для повышения объективности заключений представления теории информации дополнили оцениванием по Байесу. Такой подход подразумевает выявление в конечных данных субъективной составляющей и уменьшение или устранение ее влияния. Формальное обоснование такого подхода, а также его различные приложения рассмотрены в работе [58].

Относительная простота реализации методов предсказания вторичной структуры обусловили появление в разных лабораториях многих алгоритмов. Безусловного предпочтения, однако, заслуживают методы, использующие информационные представления. Эти представления направлены не на разработку конкретных предсказательных алгоритмов, а на выработку необходимого общего формализма при поиске оптимальных алгоритмов. Например, было показано [64], что распространенный метод Чоу и Фасмана [6, 7] вполне соответствует теории информации [63], если пренебречь вкладом, вносимым межостаточным взаимодействием. Более того, на примере указанного метода можно продемонстрировать особенности информационных подходов в данной области. Используется следующее основное соотношение:

Смысл функции [] объяснен ниже в соотношении (21.18). Выражeние (21.17) определяет количество информации в остатке типа R (например, аланине), находящимся в конформационном состоянии S (например, а-спираль). При этом f(Х, R) — наблюдаемая частота встpечаемоcти (число событий) остатка R в состоянии S = X в базе данных, а — частота, с котоpой остаток R принимает остальные конформации Частоты е(Х, R) и соответствуют «ожидаемым частотам», определяемым по критерию «χ∙квадрат», например е(Х, Р) =f (X)∙f(Р)/foбщ. Функция # [] выражает «содержание информации» в этих частотах:

Значение функции для нецелых аргументов могут быть получены с помощью интерполяции.

В работе [58] в качестве значений і при і>1 использованы наблюдаемые частоты, уменьшенные на единицу, но такая возможность, хотя она используется весьма широко, связана со спорной теоретической предпосылкой. В соответствии с вышеприведенной формулой неизменное значение частоты может непосредственно служить аргументом функции. Это не приводит к существенному изменению результата. Суммирование или вычитание небольших чисел отражает доверие к результату в зависимости от способа сбора данных, но эффект такого учета должен быть небольшим.

Любое конкретное применение метода информации зависит от того, каким из вкладов пренебрегают в выражении I(Sj; R1 ..., Rn). Здесь j — индекс остатка, состояние которого предсказывают, a Rі, ..., Rn — полная последовательность белка, для которой ведется предсказание вторичной структуры путем рассмотрения всех индексов j. В простейшем варианте метода, позволяющем получать результаты не хуже, чем в случае других алгоритмов [12], используется приближение следующего типа:

Здесь j— индекс остатка, для которого ведется предсказание конформации, Sj — тип конформации, a Ri+m — тип остатка, отстоящего на т позиций вдоль аминокислотной последовательности белка. Положительные т соответствуют аминокислотным остаткам в направлении С-конца, а отрицательные — в направлении N-конца полипептидной цепи, считая от остатка с индексом j.

Влияние остатков за пределами m±8 на вторичную структуру белка принято несущественным, хотя эти границы в известной степени условны. Значение m=0 отвечает вкладу остатка, занимающего центральное положение в сегменте. Аналогичное предсказание выполняют для каждого остатка в последовательности от j=1 до j=n, после чего при необходимости расчеты повторяют для любого конформационного состояния S. В результате каждому из остатков приписывают то из конформационных состояний S, для которого уровень информации имеет наивысшее значение. На практике из результатов, полученных для каждого из состояний, вычитают некоторую условную константу, зависящую от типа конформации S. Эту константу можно рассматривать как дополнительную информацию, полученную из данных по круговому дихроизму. Необязательно знать точное содержание вторичной структуры, а достаточно отнести белок к одному из типов, например спиральному, ß-складчатому и т. д. Физический смысл такого приема очевиден, поскольку белок, содержащий много ß-участков, будет иметь тенденцию к дальнейшей стабилизации путем кооперативного образования водородных связей в складчатой структуре. Не менее важно также, что длинные а-спирали более стабильны, чем короткие.

Работу [12] можно рассматривать как типичную для подобных исследований; были приняты во внимание четыре конформационных состояния: правая а-спираль, вытянутая цепь (потенциальный элемент складчатой структуры), ß-изгибы и нерегулярная структура. При отнесении к четырем конформационным типам ~60% остатков были правильно предсказаны как принадлежащие (или не принадлежащие) данному типу. Такое качество предсказания наблюдалось для многих белков, но для нескольких объектов имелись серьезные отклонения.

Примененный алгоритм реализован в виде программы на языке высокого уровня, но короткие последовательности можно было легко просчитать вручную, было показано, что полученные таким образом результаты предсказания возможно использовать для формирования стартовой конформации белков при моделировании процессов самоорганизации с помощью энергетической минимизации.