Структура и функционирование белков. Применение методов биоинформатики - Джон Ригден 2014

Предсказание структуры белков ab initio
Введение

Жу-ён Ли, Ситао By, Ян Жанг

Несмотря на пятьдесят лет усилий, проблема предсказания пространственной структуры белков по аминокислотной последовательности по- прежнему не решена. Если у исследуемого белка существует гомолог с известной структурой, задача сравнительно проста: копируя каркас известной структуры, можно построить модель высокого разрешения. Однако такая процедура моделирования не помогает ответить на вопросы о том, как и почему белок приобретает характерную для него структуру. В тех случаях, когда структурных гомологов (иногда аналогов1) исследуемого белка не существует или они существуют, но гомологию не удается установить, модели приходится строить “с нуля”. Эта процедура, называемая моделированием ab initio, важна для решения проблемы предсказания структуры белков; также она может оказаться полезной для понимания физико-химических принципов сворачивания белков в природе. В настоящее время точность методов моделирования ab initio невысока, а успех ограничивается белками небольшого размера (менее 100 остатков). В настоящей главе приведен обзор методов моделирования ab initio. Особое внимание уделено трем основным факторам алгоритмов моделирования: энергетической функции, конформационному поиску и отбору моделей. Обсуждаются достижения и успехи различных алгоритмов.

Jooyoung Lee

Center for Bioinformatics and Department of Molecular Bioscience,

University of Kansas, Lawrence, KS, 66047, USA

School of Computational Sciences, Korea Institute for Advanced Study,

Seoul, 130-722, Korea

Sitao Wu and Yang Zhang

Centre for Bioinformatics and Department of Molecular Bioscience,

University of Kansas, Lawreance, KS, 66047, USA

e-mail: [email protected]

1 Напомним, гомологами называются белки, имеющие общего предка, аналогами - выполняющие сходную функцию. Прим, перев.

В связи с выдающимися успехами проектов секвенирования генома количество доступных последовательностей белков растет экспоненциально. Однако из-за технических сложностей, существенных временных и трудовых затрат при экспериментальном определении структуры белков количество доступных белковых структур сильно запаздывает. К концу 2007 года в базе данных UniProtKB (Bairoch et al. 2005) (http://www.ebi.ac.uk/swissprot) насчитывалось 5,3 миллиона белковых последовательностей. Однако соответствующее количество белковых структур в базе данных the Protein Data Bank (PDB) (Berman et al. 2000) (http://www.rcsb.org/pdb) составляло лишь около 44000 - менее 1 % от числа белковых последовательностей2. Как видно из рис. 1.1, разрыв стремительно увеличивается. Таким образом, развитие эффективных компьютерных алгоритмов предсказания пространственной структуры белков по последовательности является, возможно, единственным способом сократить этот разрыв.

В зависимости от того, насколько белки, использующиеся для построения модели, похожи на исследуемый белок, методы предсказания структуры белков делятся на две категории. Если белки, близкие по структуре к исследуемому, удалось обнаружить в библиотеке PDB, можно построить модель исследуемого белка, копируя каркас белков известной структуры (шаблонов). Такая процедура называется сравнительным моделированием или моделированием на основании гомологии (англ, template-based modeling, ТВМ) (Karplus et al. 1998; Jones 1999; Shi et al. 2001; Ginalski et al. 2003b; Skolnick et al. 2004; Jaroszewski et al. 2005; Soding 2005; Zhou and Zhou 2005; Cheng and Baldi 2006; Pieper et al. 2006; Wu and Zhang 2008) и будет обсуждаться в последующих главах. Методы сравнительного моделирования, как правило, позволяют создавать модели высокого разрешения, однако эта процедура не может помочь в понимании физико-химических принципов, которые лежат в основе процесса укладки белков.

Если белковых шаблонов нет в наличии, пространственную модель белка приходится строить “с нуля”. Эта процедура имеет несколько названий, например, моделирование ab initio (Klepeis et al. 2005; Liwo et al. 2005; Wu et al. 2007), моделирование de novo (Bradley et al. 2005), физическое моделирование (Oldziej et al. 2005) или свободное моделирование (Jauch et al. 2007). В настоящей главе, чтобы избежать путаницы, будет использоваться термин “моделирование ab initio”. В отличие от сравнительного моделирования, успешное моделирование ab initio может помочь ответить на основные вопросы о том, как и почему белок приобретает характерную для него структуру из множества возможных.

2 На начало 2013 года в базе данных UniProt/TrEMBL насчитывается около 29 миллионов последовательностей, а в базе данных PDB 87 тысяч структур. Прим. перев.

Image

Рис.1.1. Рост числа доступных последовательностей белков (левая ось ординат) и числа расшифрованных структур белков (правая ось ординат) за последние 12 лет. Отношение числа последовательностей к числу структур быстро возрастает. Данные получены из баз данных UniProtKB (Bairoch et al. 2005) и PDB (Berman et al. 2000).

Как правило, моделирование ab initio сопровождается конформационным поиском, условия которого определяются специально заданной энергетической функцией. Результатом этой процедуры обычно является ряд конформаций (структурных макетов), среди которых осуществляется отбор окончательных моделей. Таким образом, успешное моделирование ab initio определяется тремя факторами: 1) точная энергетическая функция, согласно которой среди множества структурных макетов самому стабильному с точки зрения термодинамики состоянию отвечает природная структура белка; 2) эффективный метод поиска, с помощью которого можно быстро определить низкоэнергитические состояния посредством конформационного поиска; 3) отбор из множества структурных макетов моделей, наиболее близких к природной структуре.

Настоящая глава содержит обзор современного состояния области исследований, которая связана с прогнозированием структуры белков ab initio. Приведенный обзор не является ни полным (не включает информацию обо всех существующих методах ab initio), ни глубоким (не содержит исчерпывающей информации об основах и назначении методов). Для сравнительного изучения различных методов моделирования ab initio читателям рекомендуется обратиться к одному из последних обзоров по теме (Helles 2008). Оставшаяся часть главы организована следующим образом. Подробно описаны три основные проблемы моделирования ab initio - энергетическая функция, алгоритм конформационного поиска и схема отбора моделей. Обсуждаются новые и перспективные идеи по улучшению эффективности и результативности предсказания. Наконец, обсуждаются современные успехи и проблемы моделирования ab initio.