Структура и функционирование белков. Применение методов биоинформатики - Джон Ригден 2014

Распознавание фолда
“Протягивание”
Эмпирические потенциалы

Чтобы эмпирически установить правила, связывающие белковую последовательность с пространственной структурой, необходимо: 1) располагать большим количеством примеров последовательностей и соответствующих им структур; 2) выбрать ряд структурных свойств белка для анализа. Простой иллюстрацией метода является разработка потенциала сольватации. Любой глобулярный белок в нативном свернутом состоянии имеет ряд остатков, погруженных в (сильно гидрофобную) внутреннюю область и ряд (сильно гидрофильных) остатков на поверхности, обращенных к окружающему растворителю. Такие остатки называют заглубленными и экспонированными, соответственно. Несложно рассчитать, в какой мере данный остаток R белка с известной структурой экспонирован или заглублен. Один из методов, хотя и грубый, состоит в простой оценке количества остатков, находящихся в пределах определенного расстояния от R (как правило, используются более сложные методы, Richmond 1984; Kabsch 1983). Таким образом, можно составить список всех остатков во всех известных белковых структурах с соответствующей информацией о степени доступности для растворителя (относительно соседей). Имея в распоряжении такие данные, можно использовать разнообразные статистические методы для установления имеющихся связей между типом аминокислоты и ее предрасположенностью к нахождению на поверхности или внутри белка. К числу распространенных относятся методы, основанные на статистической механике или баесовской статистике (для сравнения с другими методами см. (Xia and Levitt 2000)). Впервые предложенные Танака и Шерага (1976), а позже усовершенствованные Сипплом (1990), Мязава и Джерниган (1996), эти методы основаны на статистике Больцмана.

Сначала принимается допущение, что белковые структуры в базе данных представляют собой своего рода ансамбль и что уровни экспонированности остатков каждого типа в белках распределены согласно распределению Больцмана. Затем рассчитывается потенциал средней силы,

который обусловливает наблюдаемое статистическое распределение по уравнению Больцмана. “Энергия”, связанная с данным свойством р, определяется уравнением:

Image

где nobs(p) - наблюдаемое значение р, а nехр(р) - “ожидаемое” значение р в эталонной структуре, для которого не предполагается наличие специфических взаимодействий или предпочтений.

Применение этого подхода обычно предполагает дискретизацию расстояний и создание справочной таблицы со значениями силового поля, при этом непрерывно дифференцируемые функции молекулярной механики не используются (однако бывают исключения). При протягивании эта справочная таблица позволяет определить значение “энергии” для данной комбинации структуры и последовательности. Каждый аминокислотный остаток в модели будет иметь некоторую степень экспонированности/заглубленности. В зависимости от типа остатка в рассматриваемой последовательности, можно вносить в таблицу значения вероятности обнаружения, скажем, валина, экспонированного на 30%. Энергию всей модели можно определить простым суммированием значений энергии по всем остаткам в модели. (Обратите внимание, что суммирование можно использовать благодаря логарифмическому члену в уравнении.)

Более сложная, но и более продуктивная энергетическая функция используется при рассмотрении взаимодействующих пар аминокислот. В этом случае можно рассчитать частоту, с которой аминокислоты определенного типа встречаются вблизи других аминокислот, например, как часто остаток лейцина можно наблюдать на расстоянии 4 Å от остатка валина. Как и ранее, получаемые статистические данные аккумулируются для всех возможных пар остатков 20 типов. Затем рассчитываются ожидаемые частоты, которые отражают, как часто аминокислота данного типа наблюдается в пределах заданного расстояния.

В действительности типичные потенциалы парных взаимодействий, широко использующиеся на практике, разработаны на значительно более высоком уровне детализации. Для читателей, хорошо знакомых с математикой, ниже мы приводим подробное рассмотрение широко распространенного потенциала парных взаимодействий. Остальные могут без стеснения пропустить эту часть раздела.

Можно ввести классификацию контактов по расстоянию до определенного порога (скажем, 30 Å) и отнести их к соответствующим интервалам. Интервалы расстояний можно затем разбить далее по удаленности контактирующих остатков в последовательности на ближний диапазон (скажем, от 3 до 9 разделяющих остатков) и дальний диапазон (более 9 разделяющих остатков). Кроме того, даже при наличии 50000 структур в базе данных можно столкнуться с проблемой недостатка данных, если используется такое большое количество подразделов. Потому вводится схема присвоения весовых коэффициентов наблюдениям (член Мijkσ), которая по сути лишь рассчитывает встречаемость результата, если он наблюдался l/σ раз. Теперь энергия Еkij для пары остатков ij, разделенных к остатками и лежащих в диапазоне расстояний I, рассчитывается по формуле:

Image

где Mijk - частота встречаемости для пары остатков ij, разделенных к остатками, о - наблюдаемый вклад (часто задается 1/50), fkij(l) - относительная частота встречаемости пары ij, разделенной к остатками в интервале расстояний l:

Image

где - относительная частота всех пар, разделенных к остатками в интервале расстояний l:

Image

Здесь R - количество типов остатков, а N - количество классов разделения последовательностей. Парный потенциал для данного белка определяется как сумма энергий для контактов “остаток-остаток” в рамках данных параметров разделения.

На детали методики расчета потенциалов может оказывать влияние множество различных обстоятельств. Так, в основу силового поля может быть положено лишь расстояние между атомами Са основной цепи, и этого будет достаточно для предварительного распознавания грубой топологии структуры. Некоторые исследователи увеличивают количество участков атомных взаимодействий, что, вероятно, положительно влияет на учет водородных связей. Область применения уравнения Больцмана не ограничивается расстояниями. Некоторые исследователи учитывают зависимости, связанные с различными углами, в том числе, углами упаковки между бета-тяжами. В силовом поле могут по-разному учитываться вклады остатков, разделенных различными расстояниями, то есть, исследователь может использовать различные функции для остатков, расположенных близко в последовательности (і, i + 3), и остатков, расположенных дальше друг от друга (i, і+n; n > 10), как это уже упоминалось выше.

Очевидно, что вычислительная мощность метода протягивания в значительной степени ограничивается производительностью энергетической функции. В результате, множество как уже завершенных, так и современных исследований ставят своей задачей разработку более точных и, следует надеяться, более производительных эмпирических потенциалов.