Структура и функционирование белков. Применение методов биоинформатики - Джон Ригден 2014

Предсказание структуры белков ab initio
Энергетические функции
Рациональные энергетические функции

В случае строго рационального ab initio метода описание взаимодействия между атомами опирается на законы квантовой механики и кулоновский потенциал, при этом используются лишь некоторые фундаментальные постоянные, такие как заряд электрона и постоянная Планка. Описания атомов представлены типами атомов, в которых значимо лишь количество электронов для каждого типа (Hagler etal. 1974; Weiner et al. 1984). Однако до настоящего времени серьезных попыток использования методов, в основу которых была бы положена квантовая механика, не предпринималось просто потому, что вычислительные ресурсы, необходимые для таких расчетов, значительно превосходят доступные на сегодняшний день. Без квантово-механического рассмотрения взаимодействий отправной точкой при моделировании белков ab initio по сути становится использование силовых полей, оперирующих с большим числом типов атомов; химические и физические свойства атомов для каждого типа близки к параметрам, рассчитанным на основе структур кристаллов или квантово-механической теории (Hagler et al. 1974; Weiner et al. 1984). Известными примерами таких полноатомных рациональных силовых полей являются AMBER (Weiner et al. 1984; Cornell et al. 1995; Duan and Kollman 1998), CHARMM (Brooks et al. 1983; Neria et al. 1996; MacKerell Jr. et al. 1998), OPLS (Jorgensen and Tirado-Rives 1988; Jorgensen etal. 1996) и GROMOS96 (van Gunsteren et al. 1996). Потенциалы этих силовых полей содержат члены, связанные с длиной связей, величиной валентных и торсионных углов, взаимодействиями Вандер-Ваальса и электростатическими взаимодействиями. Основные различия между ними заключаются в выборе типов атомов и параметров взаимодействий.

Таблица 1.1. Список алгоритмов моделирования ab initio, рассмотренных в этой главе, а также их энергетические функции, методы конформационного поиска, схемы отбора моделей и типичное процессорное время в расчете на одну мишень

Алгоритм и адрес сервера

Тип силового поля

Метод поиска

Отбор моделей

Затраты процес

cорного времени

AMBER; CHARMM/ OPLS (Brooks et al. 1983; Weiner et al. 1984; Jorgensen and Tirado-Rives 1988; Duan and Kollman 1998; Zagrovic et al. 2002)

Рациональное

Молекулярная динамика (МД)

Наименьшая энергия

Годы

UNRES (Liwo et al. 1999, 2005; Oldziej et al. 2005)

Рациональное

Отжиг в конформационном пространстве (CSA)

Кластеризация/

свободная энергия

Часы

ASTRO-FOLD (Klepeis and Floudas 2003; Klepeis et al. 2005)

Рациональное

аВВ/CSA/МД

Наименьшая энергия

Месяцы

ROSETTA (Simons et al. 1997; Das et al. 2007) http://www.robetta.org

Рационально-эмпирическое

Монте Карло (МК)

Кластеризация/

свободная энергия

Месяцы

TASSER/Chunk-TASSER (Zhang and Skolnick 2004a; Zhou and Skolnick 2007) http://cssb.biology.gatech.edu/ skolnick/webservice/MetaTASSER

Эмпирическое

МК

Кластеризация/

свободная энергия

Часы

I-TASSER (Wu et al. 2007; Zhang 2007) http://zhang. bioinformatics.ku.edu/ITASSER

Эмпирическое

МК

Кластеризация/

свободная энергия

Часы

Для изучения процесса укладки белков классические силовые поля часто использовались в сочетании с моделированием методом молекулярной динамики (МД). Однако с точки зрения предсказания структуры белков результаты были не совсем успешными. (Об использовании МД для выявления функции белков на основании данных об известных белковых структурах см. в Главе 10). Первым значительным успехом использования МД для изучения процесса ab initio сворачивания белка стала, вероятно, работа Дуана и Кольмана 1997 года. Они моделировали головку виллина (36-членный фрагмент) в явно заданном растворителе в течение 6 месяцев на параллельных суперкомпьютерах. Структуру высокого разрешения окончательной упаковки белка получить не удалось, однако лучшая из полученных моделей имела отклонение от нативной структуры в пределах 4,5 А (Duan and Kollman 1998). Панде и его коллеги недавно провели моделирование сворачивания этого небольшого белка с использованием Folding@Home - компьютерной системы, рассредоточенной по всему миру (Zagrovic et al. 2002). Отклонение от нативной структуры составило 1,7 Å, а общее время моделирования - 300 мс, или около 1000 лет процессорного времени. Несмотря на эти весьма значительные усилия, моделирование методом МД с использованием полноатомных силовых полей отнюдь не является стандартным методом предсказания структуры белков среднего размера (около 100-300 остатков). Более того, систематическая оценка достоверности/точности полученных результатов не проводилась даже для белков небольшого размера.

Еще одна возможная область применения рациональных силовых полей в моделировании методом МД - улучшение “качества” белковых структур. Целью в данном случае является приближение структур белковых моделей, начиная со структур с низким разрешением, к нативной структуре белка за счет улучшения локальной упаковки боковых цепей и основной пептидной цепи. Когда исходная модель близка к нативной структуре, направленные конформационные изменения относительно малы, а значит, время моделирования будет значительно меньше того, которое потребовалось бы для моделирования сворачивания белка ab initio. Одним из первых успешных примеров уточнения структуры белка с использованием МД была “лейциновая застежка” GCN4 (димер размером 33 остатка) (Nilges and Brunger 1991; Vieth et al. 1994). Неупорядоченная структура димера низкого разрешения (2-3 А) была сначала собрана методом моделирования Монте-Карло (МК), а затем улучшена методом МД. С помощью ограничений, характерных для спиральной конформации, наложенных на двугранные углы, Сколник и его коллеги (Vieth et al. 1994) смогли получить уточненную структуру белка GCN4, для которой среднекваратичное отклонение (СКО, англ. root mean square deviation, RMSD) основной цепи составило менее 1 Å. Использовались силовое поле CHARMM (Brooks et al. 1983) и модель воды TIP3P (Jorgensen et al. 1983).

Позже Ли и соавт. (Lee et al. 2001), используя AMBER 5.0 (Case et al. 1997) и модель воды TIP3P (Jorgensen et al. 1983), предприняли попытку улучшить качество 360 структурных моделей низкого разрешения, созданных программой ROSETTA (Simons et al. 1997) для 12 белков небольшого размера (менее 75 остатков). Однако они пришли к выводу, что систематического улучшения качества структур достичь не удалось (Lee et al. 2001). Фэн и Марк (Fan and Mark 2004) попытались улучшить структуру 60 моделей, созданных ROSETTA для 11 небольших белков (менее 85 остатков), используя GROM ACS 3.0 (Lindahl et al. 2001) и явно заданную модель воды (Berendsen et al. 1981). Сообщается, что для 11 из 60 моделей удалось улучшить значения СКО на 10%, однако для 18 из 60 моделей значения СКО ухудшились после процедуры уточнения структуры. Чен и Брукс (Chen and Brooks 2007) использовали CHARMM22 (MacKerell Jr. et al. 1998) для уточнения структуры пяти мишеней CASP63 (размером 70-144 остатка), полученных при помощи сравнительного моделирования. В четырех случаях было достигнуто уменьшение СКО на величину до 1 Å. В работе была использована неявно заданная модель растворителя, основанная на обобщенном приближении Борна (generalized Bom (GB) approximation) (Im et al. 2003), что значительно ускорило вычисления. Кроме того, в ходе процедуры уточнения структуры налагались пространственные ограничения, имевшиеся в начальных моделях (Chen and Brooks 2007).

3 CASP - конкурс критической оценки методов предсказания структуры белков (Critical Assessment of Structure Prediction). Прим. перев.

Заслуживают внимания результаты, которые получили Сумма и Левитт (Summa and Levitt 2007). Они использовали различные потенциалы молекулярной механики (ММ), а именно AMBER99 (Wang et al. 2000; Sonn and Pandę 2005), OPLS-AA (Kaminski et al. 2001), GROMOS96 (van Gunsteren et al. 1996) и ENCAD (Levitt et al. 1995), для улучшения структуры 75 белков с помощью процедуры минимизации энергии in vacuo. Было установлено превосходство эмпирических атомных контактных потенциалов над потенциалами ММ: в случае применения первых структурные макеты почти всех тестируемых белков приближались к нативным состояниям, тогда как при применении последних, за исключением AMBER99, макеты структур по сути отдалялись от нативных состояний. Возможно, неудовлетворительные результаты при использовании потенциалов ММ были частично обусловлены выполнением моделирования в вакууме, без сольватации. Полученные данные демонстрируют возможности сочетания эмпирических потенциалов и физических силовых полей для уточнения структуры белков.

Применение рациональных потенциалов и связанного с ними МД-моделирования не дало ожидаемых результатов в области предсказания структуры белков. В то же время, методы быстрого поиска (такие как моделирование методом Монте-Карло и генетические алгоритмы), основанные на рациональных потенциалах, зарекомендовали себя перспективными как при предсказании белковых структур, так и при повышении их качества. Один из примеров использования этих методов - продолжающийся проект Шераги и его коллег (Liwo et al. 1999, 2005; Oldziej et al. 2005), которые разрабатывают рациональный метод предсказания структуры белков исключительно на основе термодинамической гипотезы. Метод сочетает использование крупнозернистого потенциала UNRES с алгоритмом глобальной оптимизации, который называется отжигом в конформационном пространстве (Oldziej et al. 2005). В потенциале UNRES каждый аминокислотный остаток описывается двумя взаимодействующими соединенными частицами: атомом Са и центром боковой цепи остатка. Это по сути уменьшает число атомов в десять раз, что дает возможность исследовать полипептидные цепи размером более 100 остатков. Время предсказания в таком случае можно снизить до 2-10 часов. Энергетическая функция UNRES (Liwo et al. 1993) содержит член, отвечающий за вклад всех парных взаимодействий между частицами системы, а также дополнительные члены, такие как локальная энергия и энергия корреляции. Модели UNRES с низкой энергией затем преобразуются в полноатомные с помощью силового поля ЕСЕРР/3 (Nemethy et al. 1992). Хотя многие параметры энергетической функции рассчитываются с использованием методов квантовой механики, некоторые из них все же получают, используя функции распределения и корреляционные функции для данных, из базы PDB. В связи с этим может возникнуть вопрос, насколько природа описанного подхода является неэмпирической, или ab initio. Тем не менее, среди доступных методов моделирования ab initio этот метод, пожалуй, является одним из наиболее достоверных (в терминах применения полной глобальной оптимизации к рациональной энергетической функции). С 1998 года он систематически применялся для исследования множества мишеней CASP. Наиболее заметные успехи при прогнозировании этим методом были достигнуты для Т061 из CASP3. Для созданной модели а-спирального белка размером 95 остатков значение СКО от нативной структуры составило 4,2 Å. Точность моделей, полученных для белка другими методами, была значительно ниже. Впервые четко показано, что качество моделей мишеней, полученных с помощью метода ab initio, может быть лучше, чем моделей, полученных с помощью методов, в основе которых лежит использование шаблона. В CASP6 упаковка мишени структурной геномики ТМ0487 (Т0230, 102 остатка) была осуществлена с помощью этого метода с точностью 7,3 Å. Тем не менее, крайне малое количество моделей, полученных исключительно с использованием методов моделирования ab initio, а также лучшая, но все еще низкая, точность таких моделей стали причиной отсутствия должного интереса у научного сообщества, где пользуются большим спросом точные модели белка.

Еще один пример метода рационального подхода к моделированию - это многостадийный иерархический алгоритм ASTRO-FOLD, который был предложен Флудасом и его коллегами (Klepeis and Floudas 2003; Klepeis et al. 2005). Сначала на основании вычисления функции свободной энергии перекрывающихся олигопептидов (как правило, пентапептидов) и всех возможных контактов между парами гидрофобных остатков осуществляется предсказание элементов вторичной структуры (а-спиралей и ß-тяжей). Используются члены свободной энергии, которые отражают вклад энтропии, образования полостей, а также поляризационный и ионизационный вклад каждого олигопептида. Затем рассчитанная предрасположенность к образованию той или иной вторичной структуры преобразуется в верхнюю и нижнюю границы для значений двугранных углов основной цепи белка, а также в ограничения, налагаемые на расстояния между атомами Са. После этого в ходе глобальной минимизации в полноатомном силовом поле ЕСЕРР/3 создается окончательная модель третичной структуры полноразмерного белка. Описанный подход успешно применялся для предсказания структуры а-спирального белка размером 102 остатка двойным слепым методом (однако открытая проверка сообществом для сравнения относительной производительности этого и других методов не проводилась). СКО атомов Са предсказанной модели от экспериментальной структуры составило 4,94 А. Метод глобальной оптимизации, используемый при таком подходе, сочетает в себе метод а-ветвей и границ (аВВ), отжиг в конформационном пространстве (CSA) и МД-моделирование (Klepeis and Floudas 2003; Klepeis et al. 2005). Относительную производительность этого метода при определении белковых структур еще предстоит оценить в будущем.

Тейлор и его коллеги (2008) недавно предложили новый подход. Построение структурных моделей белка осуществляется с помощью перебора возможных топологий в крупнозернистом представлении с учетом заданных определений вторичной структуры и ограничений физических контактов между элементами вторичной структуры. В основе оценки конформаций лежат компактность структуры и экспонированность элементов. Конформации, получившие наиболее высокие оценки, затем отбирают для дальнейшего уточнения (Jonassen et al. 2006). Авторы успешно осуществили упаковку набора из пяти белков с укладкой типа “aß-сэндвич” размером до 160 остатков, при этом для первой модели значение СКО от природной структуры составило 4-6 Å. Но опять-таки, несмотря на то, что метод вызывает интерес с точки зрения методологии, его производительность в открытых слепых экспериментах на белках с различными типами укладки еще предстоит выяснить.

В последней разработке ROSETTA (Bradley et al. 2005; Das et al. 2007) рациональный атомный потенциал используется на второй стадии усовершенствования структуры методом Монте-Карло, которой предшествует сборка фрагментов с низким разрешением (Simons et al. 1997). Особенности этого метода обсуждаются в следующем разделе.