Структура и функционирование белков. Применение методов биоинформатики - Джон Ригден 2014

Распознавание фолда
Определение отдаленной гомологии без протягивания
Профили последовательностей и скрытые марковские модели

В то время как базы данных последовательностей быстро увеличивались в размерах в соответствии с распространенными по всему миру попытками секвенирования генома, развитие технологий, направленных на эффективное использование получаемой информации, находилось лишь в начале своего пути. Простой подход, использованный Парком и сотр. (Park et al. 1997), демонстрирует, каким образом две гомологичные последовательности, дивергировавшие далеко за пределы точки, в которой их гомология определяется простым прямым сравнением, можно связать с помощью третьей последовательности, являющейся подходящим промежуточным звеном для двух исследуемых. Такой “перескок” по пространству последовательностей, известный как поиск промежуточной последовательности, обладал очевидным потенциалом, а в программе PSI-BLAST (Altschul et al. 1997) был разработан усовершенствованный подход. Вместо использования оценочной матрицы фиксированного размера 20x20 для каждого белка, а также для каждого положения остатка в белке, можно было создать оценочную матрицу размером nх20, или профиль, который содержал бы информацию о специфических мутационных предрасположенностях каждого положения конкретной белковой последовательности. По этой причине такой профиль часто называют позиционно специфической оценочной матрицей (PSSM, от “position specific scoring matrix”).

После того, как проведено первичное стандартное сканирование BLAST с целью обнаружения относительно близких гомологов, выполняется (псевдо-)множественное выравнивание последовательностей этих гомологов относительно исследуемой последовательности. Выравнивание позволяет получить статистику наблюдаемых мутаций для каждого положения исследуемой последовательности. Эти статистические данные являются основой новой оценочной матрицы, которую затем можно использовать на последующих этапах поиска. Такой процесс поиска гомологов, создания новой оценочной функции и повторного поиска с использованием этой новой оценочной функции может повторяться множество раз (обычно от 5 до 10) и носит название PSI-BLAST (от “Position Specific Iterated BLAST”). Сочетание такого эффективного итеративного подхода с информацией из постоянно растущей базы данных последовательностей позволило значительно усовершенствовать процесс определения крайне отдаленной гомологии. На соревновании CASP4 исследовательские группы, использовавшие указанный подход (PSI-BLAST или его вариацию), продемонстрировали более высокую производительность по сравнению с успешными ранее исследовательскими группами, основу работы которых составлял метод протягивания.

Причина успешности подхода PSI-BLAST заключается в учете того обстоятельства, что для каждого положения белковой последовательности характерно собственное значение эволюционно давления. Так, глицин в определенном положении может быть высоко консервативен, если его присутствие обеспечивает наличие в белковой цепи довольно крутого поворота, необходимого для поддержания топологии. Любая мутация в таком положении может оказаться летальной из-за возможного нарушения правильного сворачивания белка. В другом положении остаток глицина может находиться под минимальным давлением отбора, располагаясь в высоко изменчивой области петли. Соответственно, при выравнивании исследуемой последовательности по структуре присутствие первого остатка глицина обязательно, тогда как природа второго остатка может изменяться. Именно учет мутационной предрасположенности, которая определяется, среди прочего, положением остатка, делает подход гораздо более чувствительным при определении отдаленной гомологии.

Одним из наиболее типичных способов применения созданных в PSI- BLAST профилей является поиск профиля исследуемой последовательности среди последовательностей базы данных PDB или, наоборот, поиск исследуемой последовательности в базе профилей шаблонов. Профили не всегда создаются с помощью PSI-BLAST. Так, профили на основе скрытых марковских моделей (СММ) (HMMs, от “Hidden Markov Models”) создаются с использованием множественных выравниваний последовательностей, однако содержат больше информации, чем стандартные профили. Например, в них содержится информация о положениях наиболее типичных вставок и делеций, а также о вероятностях замен при переходах от сопоставляемых состояний и к сопоставляемым состояниям для каждого положения цепи. Опять-таки, это часто связано с использованием предсказанных структурных свойств, таких как вторичная структура. Альтернативные подходы, в основе которых лежат принципы “последовательность-профиль” и “профиль-последовательность”, схематично представлены на рис. 2.4в и 2.4г.

Улучшенные профили и СММ можно создавать, используя структурные выравнивания отдаленных гомологов, а также добавляя последовательности неизвестной структуры, которые можно легко выровнять относительно каждой из имеющихся структур (Kelley et al. 2000; Tang et al. 2003). Однако использование структурных выравниваний для создания профилей более высокого качества часто приводит к незначительным улучшениям в определении отдаленных гомологов или точности выравнивания. Это, вероятно, связано с тем, что выравнивания последовательностей на основе структурных выравниваний не обладают свойством однозначности, особенно в случае наличия больших вставок или делеций, а также в случае значительных изменений структуры. Эти обстоятельства могут приводить к некорректным выравниваниям между рядами последовательностей, связанных с каждой из структур. Решение (Zhou and Zhou 2005), использованное ими в методе SP3, который оказался успешным, состоит в том, чтобы создавать белковые фрагменты и использовать их для построения профилей.

В последние годы скрытые марковские модели широко используются различными исследовательскими группами - с их помощью удается получать хорошие результаты. Как уже упоминалось выше, одно из ключевых преимуществ СММ по сравнению с относительно более простыми профилями, создаваемыми PSI-BLAST, состоит в наличии дополнительной информации, которая касается разрывов и соседних остатков. Однако как для профилей, так и для СММ определяющее значение имеет множественное выравнивание последовательностей, на основе которого они получены. Последовательности и качество выравнивания представляются более важными для качества профиля характеристиками, чем точность статистических методов, использующихся при выравнивании в процессе создания профиля. В результате многие исследовательские группы сочли полезным осуществлять сбор гомологичных последовательностей с помощью PSI- BLAST, а для создания более точного множественного выравнивания использовать отдельную более производительную программу.

Как было показано недавно, выравнивания типа “профиль-профиль” и “СММ-СММ” как обобщения методов выравнивания “последовательность-профиль” или сравнения “последовательность-СММ” характеризуются значительно более высокой производительностью. Таким образом, вместо использования профилей (или СММ) лишь для исследуемой последовательности или последовательности шаблона, их используют для обеих этих последовательностей и сравнивают друг с другом (рис. 2.4д). Каждое положение в последовательности можно рассматривать как вектор вероятностей. В случае простых профилей используется 20-тимерный вектор вероятностей (по одному измерению на каждый ши аминокислотного остатка). Положение в исследуемой последовательности схоже с положением в структуре шаблона в том случае, если оба ми положения находятся под одинаковым эволюционным давлением, которое дало бы сходные векторы вероятностей для этих положений. Для сравнения таких векторов в последнее время было разработано множество различных методик (самая простая из которых - скалярное произведение); почти все они превосходят более простые методы оценки формата “последовательность-профиль” (см., например, Rychlewski еt al. 2000; Оhlsen et al. 2004; Soeding 2005; Bennett-Lovsey et al. 2008).

В свете успехов методов “профиль-профиль” многие исследовательские группы изменили процесс предсказания таким образом, что теперь в нем учитываются профили вторичной структуры, где имеет простого предсказания одного из трех состояний (альфа-спирали, бета-тяжа или петли) рассчитывается вероятность каждого состояния, которая затем рассматривается как вектор. Были получены результаты, подтверждающие более высокую производительность такого подхода (Tang et al. 2003; Bennett-Lovsey et al. 2008). Схематическое изображение подхода представлено на рис. 2.4д.

Производительность методов предсказания с использованием профилей росла благодаря улучшению и увеличению баз данных последовательностей, усовершенствованию процедур создания профилей и улучшению алгоритмов сопоставления профилей. По мере такого роста производительности важность дополнительной информации о предсказанных структурных свойствах, казалось, уменьшалась в сравнении с ее первоначальной определяющей ролью в ранних методиках Боуи и сотр. (Bowie et al. 1991). В основе наиболее успешных методик предсказания вторичной структуры обычно лежат алгоритмы машинного обучения, такие как искусственные нейронные сети или метод опорных векторов, обучение которых осуществляется на окнах профилей последовательностей, созданных в PSI-BLAST. Причина, по которой использование этой информации дает лишь ограниченные результаты, вероятно, кроется в недостатке новых, или “независимых”, данных. Исходными данными для предсказания вторичной структуры, как правило, являются те же профили, которые используются для сопоставления последовательностей. Таким образом, можно утверждать, что большая часть информации при предсказании вторичной структуры, вероятно, уже закодирована в профиле, из которого она была получена.