Основы биоинформатики - Огурцов А.Н. 2013
Методы биоинформационного анализа
Алгоритмы выравнивания последовательностей
Значимость выравниваний
Для оценки биологической значимости выравнивания данной последовательности с другими последовательностями из баз данных принято сравнивать полученные результаты с результатами выравнивания данной последовательности с последовательностями, полученными с помощью статистически случайных перестановок элементов (рандомизации) в последовательностях из баз данных.
Очевидно, что если рандомизированные (случайные) последовательности дают такой же результат, как и исходные, то, скорее всего, выравнивание не имеет биологического смысла.
Для оценки значимости выравниваний обычно используют такие статистические параметры, как Z-score, P-value и E-value.
Z-score показывает, насколько необычно обнаруженное нами совпадение, то есть в терминах статистики — это расстояние (измеряемое как среднеквадратическое отклонение) данного уровня от среднего значения по набору данных. Если вес исходного выравнивания данной последовательности с другой последовательностью равен S, то
где μ - среднее значение выравниваний данной последовательности с рандомизированными вариантами второй последовательности; а - стандартное отклонение.
При Z = 0 для двух белковых последовательностей - эти белки похожи друг на друга, не сильней, чем (в среднем) на белки из некоторой контрольной группы, по которой и производится сравнение, что, впрочем, вполне может произойти случайно. Чем больше Z-score, тем больше вероятность того, что наблюдаемое выравнивание появилось неслучайно. Опыт показывает, что Z-score > 5 уже говорит о значимости исходного выравнивания.
P-value. Многие программы выдают величины Р (Р-value) - вероятности того, что выравнивание не лучше, чем случайное. Связь Z-score и Р зависит от распределения весов контрольных выравниваний, которое не соответствует нормальному распределению.
Ориентировочно значения P-value можно интерпретировать следующим образом:
P ≤ 10-100 |
точное совпадение; |
10-100 < Р < 10-50 |
последовательности почти идентичны, например, аллели или полиморфизмы; |
10-50 < Р < 10-10 |
близкородственные последовательности; гомология очевидна; |
10-10 < Р < 10-1 |
обычно дальнеродственные последовательности; |
Р > 10-1 |
по-видимому, соответствие незначимо. |
E-value. Программы поиска по базам данных, в том числе и PSI- BLAST, указывают E-value.
E-value выравнивания - это ожидаемое количество последовательностей, которые бы имели Z-score такой же (или лучше), как если бы мы в качестве запроса дали программе случайную последовательность.
Ориентировочно значения E-value можно интерпретировать следующим образом:
Е < 0,02 |
вероятно, последовательности являются гомологами; |
0,02 < Е < 1 |
гомология не очевидна; |
Е > 1 |
следует ожидать, что это случайное совпадение. |
Следует отметить, что статистические оценки полезны и необходимы, но они не могут заменить здравый смысл и тщательный и аккуратный анализ биологичности результатов.
Существует множество эмпирических правил интерпретации процента идентичных аминокислотных остатков в оптимальном выравнивании белковых последовательностей.
Если два белка содержат более 45% идентичных остатков в их оптимальном выравнивании, то есть все основания предполагать, что эти белки имеют подобные структуры и, скорее всего, общую или, по крайней мере, сходную функцию.
Если они содержат более 25% идентичных остатков, они, вероятно, имеют подобный фолдинг.
С другой стороны, низкая степень сходства последовательностей не может исключить возможность гомологии.
Рассел Дулитл (Russell F. Doolittle) определил область 18-25% сходства последовательностей как область двусмысленности (или, область неоднозначности), для которой предположение о гомологии можно высказывать только в качестве гипотезы. Парные выравнивания, которые находятся ниже этой области, малоинформативны.
При этом отсутствие значимого сходства последовательностей совсем не означает отсутствие сходства структур.
Например, аминокислотные последовательности гомологичных белковых ДНК-захватов (DNA sliding clamps) дрожжей (белок lplq) и Е. coli (белок 2ро1) подобны только на 12%, но они практически одинаковы по структуре и функциям (рисунок 58).
Рисунок 58 - Белки ДНК-захваты: а - дрожжевой белок lplq; б - белок 2ро1 Escherichia coli
Хотя область неоднозначности и ненадежна для выводов, но для решения вопроса об истинном родстве важна также "текстура" (профили) выравнивания - изолированы ли эти сходные остатки и распределены по всей последовательности или же они образуют "айсберги" - локальные участки высокого сходства (ещё один термин Дулитла), которые могут соответствовать общему активному центру. Также полезно использовать дополнительную информацию об общих лигандах или функциях. В случае если пространственные структуры известны, то мы можем проверить их сходство непосредственно.
Эмпирические правила являются скорее рекомендациями, чем закономерностями. Приведём ещё несколько характерных примеров.
Миоглобин кашалота и леггемоглобин люпина имеют 15% идентичных остатков в оптимальном выравнивании. Это также ниже определённой Дулитлом области неоднозначности. Однако известно, что обе молекулы имеют сходные трехмерные структуры, содержат гемовые простетические группы и связывают кислород. Они действительно являются удалёнными гомологами.
Последовательности N- и С-концевых частей в одном и том же белке роданез имеют 11% идентичных остатков в оптимальном выравнивании. Если бы они возникли в разных белках, нельзя было бы судить об их родстве, исходя лишь из последовательностей. Однако такая ситуация в одном белке дает основание полагать, что они произошли путём дупликации и дивергенции генов. Очевидное сходство их структур подтверждает их родство.
Две протеазы химотрипсин и субтилизин имеют последовательности схожие на 12%. Эти сериновые протеазы выполняют сходную функцию и их активный центр образован тремя характерными для них остатками. Тем не менее, они имеют разную пространственную укладку и не родственны (рисунок 59).
Схожесть их каталитических функций - это пример конвергентной эволюции. Поэтому не стоит предполагать родственную связь между белками с непохожими последовательностями, основываясь только на схожести их функций.
Рисунок 59 - Схема строения сериновых протеаз: а - типа трипсина; б - типа субтилизина. Схематически изображены а-спирали, ß-листы и ß-цилиндры. Район активного центра показан чёрным треугольником
Контрольные вопросы и задания
1. Каковы недостатки метода динамического программирования?
2. За счёт чего сокращается время расчётов в методе динамического программирования?
3. Чем отличаются методы Нидлмена-Вунша и Смита-Уотермана?
4. Каков алгоритм заполнения ячеек F(i,j) матрицы динамического программирования?
5. Используя матрицу замен аминокислот BLOSUM62 и фиксированный штраф за пропуски d = 8, методом Нидлмена-Вунша построить глобальное выравнивание двух фрагментов (и вычислить его счёт (вес))
6. Какие существуют два отличия алгоритма локального выравнивания от алгоритма глобального выравнивания?
7. Что такое k-кортеж?
8. Какие три статистических параметра используют для оценки значимости выравнивания?