Основы биоинформатики - Огурцов А.Н. 2013

Информационные принципы в биотехнологии
Анализ и предсказание белков
Предсказание трёхмерной структуры белков

Основой функциональности белка, которая требует точной пространственной организации больших ансамблей аминокислот, является третичная структура. Третичной структурой называют распределение в пространстве всех атомов белковой молекулы. Третичная структура полностью задаётся первичной.

Не все белковые последовательности сворачиваются в стабильные структуры. По современным оценкам только небольшая часть возможных комбинаций аминокислот способны формировать стабильные структуры. Исследователи считают, что есть всего лишь порядка 1000 способов свернуть белковую нить в стабильную структуру.

Известно очень много примеров, когда подобные, гомологичные аминокислотные последовательности сворачиваются в подобные трёхмерные структуры, отличающиеся лишь в деталях.

Так, например, аминокислотная последовательность в гемоглобинах, синтезируемых различными животными, варьируется очень сильно. Из 140-150 аминокислот аминокислотной цепи гемоглобина только две аминокислоты повторяются во всех вариативных формах: гистидин, который напрямую скоординирован с активным ионом железа в геме, и фенилаланин, который необходим для правильной ориентации гема-кофактора. Все другие аминокислоты могут изменяться, что позволяет модифицировать функции гемоглобинов (например, сродство к кислороду может отличаться в 100 000 раз), или просто вследствие дрейфа генов. Несмотря на такой огромный диапазон вариабельности гемоглобинов, все они принимают подобную трёхмерную функциональную структуру в ходе фолдинга.

Предсказание структуры достаточно надёжно для гомологичных аминокислотных последовательностей. Для последовательностей, имеющих 30-40% идентичных аминокислот, существует высокая вероятность того, что их трёхмерная структура будет подобна до такой степени, что возможно применять биоинформационные методики белкового моделирования.

Однако биотехнологи сталкиваются с другого рода проблемой. Вышеупомянутая статистика справедлива только для природных биомолекул, чья структура была оптимизирована эволюцией для эффективного фолдинга. Точечные изменения структуры могут быть фатальны для функциональности и фолдинга белка, хотя этот белок всё ещё будет демонстрировать высокую степень гомологичности к белкам, демонстрирующим успешный фолдинг.

Поэтому, при попытках модификации существующего белка для достижения новой функциональности, изменения следует вносить небольшими порциями, каждый раз проверяя, сохраняет ли измененный белок способность к функциональному фолдингу.

Организация белковых структур в соответствии с их паттернами укладки логически очень удобна для представления данных в Базе данных белков (PDB). На этом основан принцип поиска информации. Несколько баз данных - производных от PDB - построены на классификации белковых структур. В них предлагаются удобные инструменты для изучения структур белков, такие как поиск по ключевому слову и последовательности, навигация среди сходных структур на разных уровнях систематической иерархии, сканирование базы данных на предмет поиска структур, сходных с заданной структурой, и ссылки на другие сайты. Примерами таких баз данных могут служить SCOP (Structural Classification Of Vroteins, классификация структур белков) и САТН (Class, Architecture, Topology, Homology - класс, архитектура, топология, гомология в суперсемействах).

Базы данных структур белков и поиска гомологии в белковых семействах:

SCOP

http://scop.mrc-lmb.cam.ac.uk/scop

САТН

http://www.cathdb.info/

InterPro

http://www.ebi.ac.uk/interpro/

Pfam

http://pfam.sanger.ac.uk/

PANTHER

http://www.panthcrdb.org/

TIGRFAMs

http://www.jcvi.org/cgi-bin/tigrfams/index.cgi

iProClass

http://pir.georgetown.edu/iproclass/

ProDom

http://prodom.prabi.fr/prodom/current/html/home.php

SMART

http://smart.embl-heidelberg.de/

PRINTS

http://www.bioinf.manchester.ac.uk/dbbrowser/PRINTS/index.php

PROSITE

http://prosite.expasy.org/

CDD

http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml

COG

http://www.ncbi.nlm.nih.gov/COG/

Dali

http://ekhidna.biocenter.helsinki.fi/daliserver

VAST

http://www.ncbi.nlm.nih.gov/Structure/VAST/vast.shtml

CE

http://source.rcsb.org/jfatcatserver/ceHome.jsp

CATHEDRAL

http://v3-4.cathdb.info/cgi-bin/CathedralServer.pl

SSM

http://www.ebi.ac.uk/msd-srv/ssm/

FATCAT

http://fateat.burnham.org/fatcat/

AnnoLite

http://www.salilab.org/DBAli/

База данных SCOP. База данных SCOP (Structural Classification Of Proteins) иерархически организует белковые структуры в соответствии с эволюционным происхождением и структурой.

На самом нижнем уровне иерархии SCOP находятся домены, выделенные из PDB. Множества доменов группируются в семейства гомологов, для которых общность структур, последовательностей, и, иногда, функций указывает на общность эволюционного происхождения.

Семейства, содержащие белки со сходной структурой и функцией, но для которых не очевидна общность происхождения, объединяются в суперсемейства.

Суперсемейства, имеющие общую топологию укладки (по крайней мере для центральной части структуры), группируются в фолды.

Наконец, фолды группируются в классы. Основными классами в базе SCOP являются а, ß, а+ß, a/ß и разнообразные "малые белки", которые зачастую имеют слабую вторичную структуру и объединяются дисульфидными мостиками или лигандами.

Пример классификации в базе SCOP белка флаводоксин из Clostridium beijerinckii

1. Корень: SCOP

2. Класс: Alpha and beta proteins (a/ß). В основном параллельные ß-листы (ß-a-ß единицы)

3. Фолд: Flavodoxin-like. 3 слоя, a/ß/a; параллельные ß-листы из 5 тяжей, порядок 21345

4. Суперсемейство: Flavoproteins.

5. Семейство: Flavodoxin-related binds FMN

6. Белок: Flavodoxin

7. Организм: Clostridium beijerinckii

Релиз 1.75 SCOP от 23 февраля 2009 года в ноябре 2012 года содержал 38 221 структур из PDB разделённых на 110 800 доменов. Распределение записей по различным уровням иерархии приведено в таблице 21.

Таблица 21 - Статистика распределения белков в базе данных SCOP

Класс

Число

семейств

суперсемейств

фолдов

Все а белки

871

507

284

Все ß белки

742

354

174

а/ß белки

803

244

147

a+ß белки

1055

552

376

Мультидоменные белки

89

66

66

Мембранные белки и белки клеточной поверхности

123

110

58

Малые белки

219

129

90

Всего

3902

1962

1195

Результаты сравнительного анализа белковых структур показывают, что новые предсказываемые структуры белков часто имеют свёртки (укладки, фолды или конформации), подобные тем, которыми обладают уже известные структуры. Экспериментально установлено также, что многие различные последовательности аминокислот в белках могут принимать одинаковую пространственную структуру. Статистический анализ последовательностей этих структур показал, что в различных структурных конформациях существуют одинаковые короткие регулярные комбинации аминокислот.

В ходе экспериментов по сравнению аминокислотных последовательностей с пространственным расположением аминокислот в результате фолдинга было обнаружено более 500 типов основных способов структурных свёрток, появляющихся в доменах у более чем 13 000 трёхмерных структур белков из PDB (http://www.pdb.org/). Кроме того, эти исследования показали, что одинаковые свёртки в результате фолдинга могут получиться из множества различные первичных аминокислотных последовательностей. Таким образом, существует множество сочетаний аминокислот, которые могут самопроизвольно сворачиваться в одинаковые трёхмерные конформации, заполняя свободное пространство и образуя надлежащие контакты с соседними аминокислотами, что приводит к формированию общей пространственной структуры.

Количество исследованных и аннотированных пространственных структур белков уже настолько велико, что вероятность того, что новая последовательность будет соответствовать какому-либо уже известному образцу свёртки, является достаточно высокой, чтобы использовать компьютеризованные автоматические методы анализа и предсказания структур новых белков. Цель распознавания свёрток состоит в том, чтобы обнаружить, какая именно из возможных свёрток лучше всего подходит новой последовательности. Для предсказания трёхмерной структуры применяют скрытые марковские модели (Hidden Markov model, НММ) (см. п. 9.3) или методику трединга (threading, протягивание).

Если два белка показывают существенное подобие последовательностей, то они, по всей видимости, должны обладать подобными трёхмерными структурами. Подобие может распространяться как на всю длину последовательностей, так и на одну или несколько отдельных областей с относительно короткими (смежными или перемежающимися пропусками) регулярными комбинациями мономеров. Принято считать, что если в глобальном выравнивании последовательностей более 45% позиций аминокислот идентичны, то эти аминокислоты должны быть вполне совместимы в трёхмерной структуре белка.

Таким образом, если структура одного из выравниваемых белков известна, то может быть достоверно предсказана структура второго белка, а также положения идентичных аминокислот в его структуре. Если идентичными являются менее 45%, но более 25% аминокислот, то структуры соответствующих белков, вероятно, будут подобными, однако чем меньшим будет число идентичных аминокислот, тем более явными будут изменения в соответствующих пространственных положениях.

Гомологическое моделирование. К гомологическому (сравнительному) моделированию, следует прибегать в том случае, когда для уже известной трёхмерной структуры исследуемого белка существует значительное подобие со структурой другого белка. Тогда две последовательности этих белков выравнивают и определяют в них подобные сегменты. Если известно несколько подобных структур, то применяют множественное выравнивание последовательностей. Достоверность предсказания структуры методом сравнительного моделирования тем выше, чем больше рассматривается гомологичных структур.

По результатам выравнивания, позволяющего определить взаимно соответствующие аминокислотные остатки, проводят предсказание структуры интересующего нас белка на основании оценки структур гомологов. Для выполнения этого этапа разработано несколько алгоритмов, которые подразделяют на алгоритмы

1) сборки твёрдых тел;

2) сопоставления сегментов;

3) удовлетворения пространственным ограничениям.

Алгоритмы сборки твёрдых тел, подобно тому как кристаллы собираются из несжимаемых элементов - атомов или молекул, - собирают структуру белка из несжимаемых ван-дер-ваальсовых элементов - аминокислот, а-спиралей, ß-структур, простетических групп и т. д. Эти "строительные блоки" опознаются по гомологичным структурам и добавляются к каркасу, конфигурация которого определяется путём усреднения положений эталонных атомов в консервативных областях свёртки образца и его гомологов. Программа сопоставления сегментов рассчитывает координаты по приблизительным положениям консервативных атомов в структурах образцов. При этом используется база данных коротких сегментов белковых структур.

Помимо этого учитываются как геометрические (точнее стереометрические стерические) ограничения, так и термодинамические требования минимизации свободной энергии для формирования устойчивых структур.

Шаги алгоритма гомологического моделирования.

1. Выровнять аминокислотные последовательности исследуемого белка и белка (белков) с известной структурой. Опыт показывает, что в большинстве случаев вставки и делеции будут наблюдаться в петлях между а-спиралями и ß-структурами.

2. Определить сегменты основной цепи (mainchain), содержащие вставки или делеции. "Сшивка" (sticking) этих участков с основной цепью известного белка (матрицы) создаёт модель основной цепи исследуемого белка. Под сшивкой понимается удаление из матричной цепи участков, которых нет в исследуемом белке, и вставка участков, которые есть в исследуемом белке, но отсутствуют в матрице.

3. Заменить боковые радикалы мутировавших аминокислотных остатков. Для немутировавших остатков сохранить конформацию боковых цепей. Мутировавшие остатки склонны сохранять конформации боковых радикалов, и это можно использовать при моделировании. Кроме того, в настоящее время уже разработаны компьютерные алгоритмы поиска подходящей конформации боковых радикалов среди возможных комбинаций.

4. Проверить модель (и визуально, и с помощью программ), чтобы выявить значительные перекрытия ван-дер-ваальсовых сфер различных атомов. Насколько возможно, устранить подобные перекрытия вручную.

5. Минимизировать свободную энергию полученной структуры. Для этого, сохраняя последовательность аминокислот и использованных стандартных мотивов укладки, разрешить боковым цепям слегка перемещаться, чтобы занять "удобное" положение, соответствующее минимуму общей энергии структуры. На самом деле этот шаг даёт только косметический эффект; минимизация энергии в такой модели не устранит тех серьёзных ошибок, которые были допущены при сшивке белковой цепи во время предыдущих шагов.

По сути, в результате данного алгоритма строится модель структуры нового белка путём внесения минимальных изменений в доступную структуру матрицы. К сожалению, без учёта дополнительных факторов существенно улучшить такую модель непросто. Эмпирическое правило гласит, что если две последовательности идентичны хотя бы на 40-50%, описанная процедура даёт модель, достаточно точную для использования во многих приложениях. Если же сходство ниже, то ни описанная процедура, никакой-либо другой доступный на данный момент алгоритм, не дадут детально точной модели, исходя из доступных структур родственных белков.

Структуры большинства белковых семейств содержат как относительно постоянные, так и более вариабельные участки. Ядро структуры семейства сохраняет топологию укладки (является консервативным), хотя и может быть искажено, периферия же может быть целиком сложена заново.

Располагая единственной прародительской структурой, можно относительно достоверно моделировать консервативную часть исследуемого белка, но построить модель вариабельной части уже не удастся. Более того, непросто предсказать, какие из участков являются вариабельными, а какие - консервативными.

Более предпочтительна ситуация, когда несколько родственных белков с известной структурой могут выступать в качестве "родителей" для моделирования по гомологии. Их сравнительный анализ позволяет выявить внутри семейства участки с консервативной и вариабельной структурой. Наблюдаемое распределение структурной вариабельности среди родительских структур определяет и соответствующий диапазон ограничений для алгоритма моделирования.

Распознавание фолда. Поиск последовательности в базе данных последовательностей и поиск структуры в базе данных структур - это задачи, имеющие решения. Смешанные задачи (поиск по структуре в базе данных последовательностей или по последовательности в базе данных структур) менее очевидны. Они требуют метода для оценки совместимости данной последовательности с данным паттерном фолда (foldingpattern, способ укладки).

Цель сострит в установлении существенных корреляций между аминокислотными последовательностями и способами укладки структур. Ожидается, что белки, имеющие один и тот же паттерн, имеют схожие структуры.

Белковый трединг (protein threading - протягивание белков), также известный как метод распознавания фолда (свёртки) (fold recognition) - это метод моделирования пространственной структуры таких белков, для которых ещё не известны гомологи (их нет в базе данных PDB).

Программа трединга, используя эмпирическое статистическое правило о том, что подобные аминокислотные последовательности имеют подобные структуры укладки, ищет в базе данных PDB такие белки, у которых аминокислотные последовательности функциональных фрагментов белковой цепи сходны с фрагментами последовательности данного белка, и, найдя такие соответствия, комбинирует пространственную структуру исследуемого белка из элементов пространственной структуры известных белков.

Белковый трединг основан на двух важных обстоятельствах: во- первых, на том, что количество действительно различных фолдов ограничено и не превышает 1000; во-вторых, из всех новых белковых структур, поступивших после расшифровки в PDB, 90% имели фолды, аналогичные фолдам уже содержащихся в базе данных белков.

Основной алгоритм трединга состоит в том, чтобы построить много грубых моделей для данной последовательности, используя всевозможные выравнивания с последовательностями, для которых известна структура.

Как трединг, так и гомологическое моделирование, имеют целью получение модельной пространственной структуры белка, вследствие выравниваниями искомой последовательности и последовательности, для которой трёхмерная структура определена. Но если целью гомологического моделирования является предсказание детальной пространственной структуры исследуемого белка в результате множественных выравниваний с белками-гомологами, то трединг использует множество различных парных выравниваний и использует относительно грубые модели, иногда даже не построенные явно.

При гомологическом моделировании сначала находят гомологов данному белку, затем строят оптимальное множественное выравнивание, и, наконец, оптимизируют эту полученную единственную модель.

При трединге сначала перебирают все возможные варианты выравнивания со всеми возможными белками, отбирают случаи хотя бы грубого совпадения и из них комбинируют модель исследуемого белка.

Для успешного распознавания с использованием трединга требуется:

1. Метод для оценки моделей, позволяющий выбрать лучший вариант.

2. Методику калибровки метода оценивания для того, чтобы можно было понять, насколько выбранная модель белка адекватна задаче трединга и имеет биологический смысл.

Как правило, компьютерный трединг не позволяет сразу правильно определить структуру исследуемого белка. Он позволяет достаточно эффективно сузить набор фолдов, но окончательное решение об адекватности модели остаётся за человеком. В любом случае, методы трединга позволяют максимально автоматизировать задачу определения пространственной структуры белков, получая достаточно узкий набор структур среди которых, с довольно высокой вероятностью, будет структура, сходная с трёхмерной укладкой рассматриваемой последовательности.

Поиск глобального минимума конформационной энергии и молекулярная динамика. Нативный белок состоит из многих атомов, взаимодействие которых обеспечивает состояние максимальной стабильности.

Аналитическое определение такого состояния является трудноразрешимой задачей из-за того, что существующие потенциалы межатомных взаимодействий недостаточно точны, и даже если удастся построить адекватную модель, возникает проблема оптимизации нелинейной целевой функции в очень большом пространстве переменных с нелинейными ограничениями, что порождает весьма сложную поверхность с множеством локальных минимумов.

Взаимодействия между атомами могут быть разбиты на два вида

1. Система ковалентных связей - прочные взаимодействия, заставляющие атомы находиться на малом расстоянии друг от друга. Они рассматриваются как постоянные взаимодействия, которые не разрушаются при структурных перестройках белковых молекул, а сохраняются во всех конформациях.

2. Более слабые нековалентные взаимодействия, величина которых зависит от конформации цепи. Они могут быть значительными в одних конформациях и незначительными - в других, в зависимости от того насколько близко и каким именно образом атомы при различных конформационных переходах приближаются друг к другу.

Конформацию белка можно задать, определив набор атомов, из которых состоит белок, и задав пространственные координаты этих атомов и набор химических связей между ними (эту информацию достаточно достоверно можно получить из аминокислотной последовательности белка). При оценке конформационной энергии учитывают следующие вклады:

✵ Энергия растяжения связей:

где r0 — равновесное межатомное расстояние; Кr - коэффициент упругости связи; и r0, и Кr зависят от типа химической связи.

✵ Энергия деформации валентных углов:

Для любого і-rо атома, образующего химические связи с двумя (или более) другими атомами j и k, угол j —і —k характеризуется равновесным значением θ0 и силовой константой Кθ.

✵ Прочие слагаемые, отвечающие за стереохимическую корректность и штрафующие за отклонения от планарности определённых групп или удерживающие нужную хиральность определённых центров.

✵ Энергия торсионных вращений:

Для любых четырёх последовательно соединённых атомов, і — j — k —I, вращение атома l относительно атома і по оси связи j - k определяется энергетическим барьером с периодическим потенциалом. Vn - высота барьера внутреннего вращения; n - количество барьеров, встречающихся при повороте на 360°. Пример: торсионные углы ф, ψ, χ и w между атомами в пептидной цепи (см. [9], п. 4.2).

✵ Энергия дисперсионных (вандерваальсовых) взаимодействий:

Для каждой пары несвязанных атомов і и j первое слагаемое характеризует силы близкодействующего паулевского отталкивания, а второе - силы дальнодействующего притяжения. Параметры А и В зависят от типа атомов; Rij - расстояние между атомами і и j.

✵ Энергия водородных связей:

Водородная связь - это слабое химическо-электростатическое взаимодействие между двумя электроотрицательными атомами. Энергия такого взаимодействия зависит как от расстояния между атомами, так и от угла. Приведенная формула энергии взаимодействия не отражает в явном виде зависимость от угла связи. Другие формулы могут включать этот угловой параметр.

✵ Энергия электростатических взаимодействий:

Qi и Qj - эффективные заряды на атомах i и j; Rij - расстояние между ними; ε - диэлектрическая проницаемость среды. Эта формула является лишь приближённой применительно к средам, которые, как и белки, не являются непрерывными и изотропными.

✵ Энергия растворения. Взаимодействия с растворителем, водой и другими компонентами раствора (такими, как соли и сахара) оказывают большое влияние на термодинамику структуры белка. Рассмотрение растворителей как непрерывных сред, характеризуемых диэлектрической проницаемостью в качестве основного параметра, является лишь приближённым. С развитием компьютерной техники стало возможным производить расчёты белка в ячейке с явно заданными молекулами растворителя (воды).

Существует большое количество потенциалов, описывающих конформационную энергию. Энергия данной конформации рассчитывается суммированием взаимодействий различных типов по всем атомам системы.

Правильность функции потенциальной энергии - необходимое, но не достаточное условие удачного предсказания структуры белка.

Один из способов проверить это утверждение - взять в качестве стартовой конформации экспериментально определённую белковую структуру и попробовать минимизировать её энергию. Как правило, среднеквадратичное отклонение такой минимизированной структуры от исходной составляет порядка 0,1 нм. Эту величину можно назвать мерой разрешения силового поля.

Другой вариант состоит в минимизации конформационной энергии неправильно свёрнутой белковой глобулы. Это позволяет определить, лежит ли минимум энергии правильно свёрнутой структуры значительно ниже локального минимума неправильно свёрнутой глобулы.

Результаты таких расчётов показывают, что на основании одних лишь расчётов конформационной энергии нельзя достоверно отличить нативную конформацию белка от множества остальных конформаций.

Попытки предсказать структуру белка путём минимизации конформационной энергии до сих пор не привели к разработке метода, позволяющего делать предсказания, отталкиваясь от одной лишь аминокислотной последовательности.

Для преодоления обеих проблем: (1) проблемы попадания в ложный локальный минимум и (2) проблемы отсутствия хорошей модели взаимодействия с растворителем - был разработан метод молекулярной динамики.

Белок вместе с явно заданным растворителем рассчитываются - посредством задания силового поля - в рамках ньютоновской механики.

Хотя как метод для априорного предсказания структуры по аминокислотной последовательности, эта методология ещё не созрела, но метод молекулярной динамики хорош тем, что позволяет исследовать большие участки пространства возможных конформаций.

В то же время, эффективность моделирование методом молекулярной динамики напрямую зависит от развития компьютерных технологий, и, поэтому, появление более мощных процессоров неизбежно изменит положение вещей в лучшую сторону.

В настоящее время молекулярная динамика может существенно облегчить экспериментальное разрешение структуры белка такими методами, как рентгеноструктурный анализ (обычно помогает) и ЯМР (помогает всегда). Каким образом молекулярная динамика может быть интегрирована в процесс определения структуры? Для каждой из конформаций можно рассчитать отклонение модели от реальных экспериментальных данных. В случае рентгеновской кристаллографии экспериментальными данными являются абсолютные значения коэффициентов Фурье-образа электронной плотности молекулы. В случае ЯМР, используя экспериментальные данные, можно рассчитать расстояния между определёнными аминокислотными остатками. Но в обоих случаях экспериментальные данные недоопределяют структуру белка. Для того чтобы полностью разрешить структуру, необходимо отыскать такой набор координат, который бы минимизировал как отклонение от экспериментальных данных, так и конформационную энергию структуры.

С этой задачей успешно справляется молекулярная динамика, грамотно сканируя конформационное пространство и сходясь к корректной структуре путём минимизации отклонений от доступных экспериментальных данных.