Структура и функционирование белков. Применение методов биоинформатики - Джон Ригден 2014
Сравнительное моделирование структуры белков
Введение
Методы предсказания структуры белков
Исследование принципов, определяющих пространственную структуру природных белков, можно осуществлять либо на основе физических законов, либо на основе теории эволюции. В зависимости от того, какие данные положены в основу методов предсказания структуры белков, сами методы делятся на две группы (Fiser et al. 2002).
Первую группу составляют методы ab initio, или методы моделирования без использования шаблонов, которые обсуждались в главе 1. Предсказание структуры здесь осуществляется лишь на основании данных о последовательности (Bonneau and Baker 2001; Pillardy et al. 2001). Предполагается, что природной структуре белка соответствует глобальный минимум свободной энергии, который достигается в течение времени существования молекулы. Методы нацелены на определение этого минимума с помощью исследования множества возможных белковых конформаций (Dill and Chan 1997; Sali et al. 1994).
Вторую группу методов называют моделированием по шаблону. Она включает методики “протягивания”, в результате которых исследователь получает полное описание пространственной структуры для молекулы-мишени (J. Xu et al. 2007) (см. также главу 2), и сравнительное моделирование (Fiser 2004). В основе этой группы методов лежит сходство, которым объединены большинство моделируемых последовательностей и по крайней мере одна известная структура. Сравнительное моделирование касается тех случаев моделирования по шаблону, когда определен не только способ укладки из доступного набора шаблонов, но также построена полноатомная модель (Marti-Renom et al. 2000). Если структура по крайней мере одного белка семейства определена экспериментально, структуру других членов семейство можно смоделировать с помощью выравнивания относительно известной структуры. Предсказание структуры белков с помощью методов сравнительного моделирования возможно благодаря тому, что незначительные изменения в белковой последовательности, как правило, приводят к незначительным изменениям пространственной структуры (Chothia and Lesk 1986). Предсказанию также способствует тот факт, что пространственная структура белков, принадлежащих к одному семейству, более консервативна, чем их аминокислотная последовательность (Lesk and Chothia 1980). Таким образом, если сходство между двумя белками можно установить на уровне последовательностей, обычно можно предполагать также и сходство структуры. Методы сравнительного моделирования, или моделирования по шаблону, применяются все более широко в связи с тем, что количество различных способов укладки, которые встречаются в белках, довольно ограничено (Andreeva et al. 2008; Chothia et al. 2003; Greene et al. 2007).
Оба подхода к предсказанию структуры белков имеют свои преимущества и ограничения. В принципе, методы ab initio можно применять для моделирования любых последовательностей. Тем не менее, в связи с тем, что укладка белка является сложным процессом, а наше понимание этой проблемы все еще ограничено, в результате применения методов ab initio обычно удается получить модели низкого разрешения. Несмотря на значительный прогресс в области предсказания структуры белков методами ab initio (R. Das et al. 2007), их по-прежнему можно применять лишь к ограниченному числу последовательностей размером около 100 остатков. Сопоставление результатов моделирования с эталонными структурами показывает, что полное и верное представление о способе укладки большинства мишеней с помощью методик моделирования ab initio получить все еще нельзя (Jauch et al. 2007). Прогресс наших представлений о точности и производительности доступных к настоящему времени силовых полей и методик отбора в значительной степени обусловлен выдающимися успехами в области вычислительных возможностей. Для более полного их использования в последнее время было запущено несколько крупнейших в своем роде исследовательских проектов, которые, по ожиданиям, значительно поспособствуют углублению наших представлений о процессе белковой укладки. К числу таких проектов, среди прочих, относятся Rosetta@home (http://boinc.bakerlab.org/rosetta/), Folding@home (http://folding.stanford.edu/) и проекты Blue Gene, поддерживаемые IBM.
В проектах Rosetta@home и Folding@home изучение процесса белковой укладки или моделирование осуществляется посредством запуска расчетов на персональных компьютерах пользователей-волонтеров, которые объединены в сеть из миллиона процессоров по всему миру. В IBM для решения тех же исследовательских задач создан Blue Gene - вычислительный кластер, пиковая производительность которого оценивается в 596 терафлоп. В настоящее время различные вариации компьютеров Blue Gene занимают четыре из десяти первых мест в списки 500 наиболее мощных суперкомпьютеров ТОР500 по состоянию на ноябрь 2007 года (http://www.research.ibm.com/bluegene/).
В отличие от методов ab initio, сравнительное моделирование белковых структур позволяет получать модели, которые по качеству сопоставимы со структурами низкого разрешения, полученными методом рентгеновской кристаллографии, или со структурами среднего разрешения, полученными методом ЯМР. Однако применение методов сравнительного моделирования ограничено теми последовательностями, которые можно с уверенностью использовать при сопоставлении с известными структурами. В настоящее время вероятность обнаружить близкие белки с известной структурой для последовательности, случайным образом выбранной из генома, варьирует в пределах от 30 до 80% в зависимости от генома. Около 70% всех известных последовательностей содержат по крайней мере один домен, для которого можно определить связь по крайней мере с одним белком известной структуры (Pieper et al. 2006). Это количество более чем на порядок превышает число белковых структур, определенных экспериментально и размещенных в PDB (Berman et al. 2007). Методы сравнительного моделирования применяются для определения структуры белков все шире, поскольку растет количество белковых структур, определенных экспериментально. Эта тенденция становится еще более выраженной благодаря проекту Исследования структуры белков (PSI, от “Protein Structure Initiative”), целью которого является определение по крайней мере одной структуры для каждого белкового семейства (Burley et al. 2008; Vitkup et al. 2001). Пятилетний период исследования возможностей осуществления этого проекта структурной геномики и технологии накопления данных (PSI-1, 2000-2005 годы) сменился “стадией образования продукта” (PSI-2, 2005-2010 годы). Вполне возможно, цели проекта по существу будут достигнуты менее чем за 10 лет, что сделает возможным применение методов сравнительного моделирования для исследования большинства белковых последовательностей.
Как мы увидим, на практике при моделировании по шаблону всегда используется информация, которая с самим шаблоном не связана — это различные силовые ограничения от общих статистических данных до молекулярно-механических силовых полей. В результате повышения качества силовых полей и алгоритмов поиска в большинстве успешных методов все чаще исследуется независимое от шаблона конформационное пространство (R. Das et al. 2007; Y. Zhang 2007). Аналогично, в большинстве удачных методов моделирования ab initio для построения моделей по сути используются фрагменты известной структуры (Bystroff and Baker 1998; Zhou et al. 2007). Разумно было бы по-отдельности обсуждать два фундаментальных принципа, лежащих в основе методов структурного моделирования, однако, согласно последним тенденциям, наибольший интерес вызывают методы, сочетающие оба принципа. Методы моделирования ab initio могут пролить свет на динамику процесса упаковки белка, тогда как на практике эффективное моделирование структуры почти всегда включает определенные вариации моделирования по шаблону.