Основы биоинформатики - Огурцов А.Н. 2013

Методы биоинформационного анализа
Множественное выравнивание последовательностей
Визуализация результатов выравнивания

Множественным называют выравнивание двух и более последовательностей.

Групповой анализ последовательностей, входящих в семейства генов, предполагает установление связей между более чем двумя членами группы, что позволяет выявить скрытые консервативные характеристики семейства.

Цель множественного выравнивания последовательностей состоит в том, чтобы произвести краткую, но исчерпывающую характеристику данных о структуре последовательностей, на основании которой можно будет принять решение о принадлежности этих последовательностей к рассматриваемому семейству генов. По сравнению с попарным, множественное выравнивание даёт больше информации об эволюционной консервативности. Для того чтобы множественное выравнивание было максимально информативным, оно должно содержать равномерную выборку близко и отдалённо связанных последовательностей.

Для построения оптимального множественного выравнивания последовательностей в соответствующие столбцы сводят как можно больше подобных знаков. Множественное выравнивание группы последовательностей может обеспечить информацию о наиболее подобных областях, присущих этой группе. В белках такие области могут быть представлены консервативными доменами - функционально активными или структурными.

Если известна структура одного или нескольких членов выравнивания, то иногда возможно предсказать, какие аминокислоты образуют подобные пространственные структуры в других белках-членах выравнивания или какие гены занимают те же участки в последовательностях других нуклеиновых кислот - членов выравнивания.

Множественное выравнивание последовательностей применяют также для предсказания зондов, специфичных к другим членам группы, или для открытия семейства подобных последовательностей - из одного или разных организмов.

Для облегчения анализа результатов множественного выравнивания белков аминокислотные остатки разных типов окрашивают на экране компьютера разными цветами. Один из возможных способов окраски представлен в таблице 16.

Таблица 16 - Один из возможных способов окраски аминокислотных остатков при визуализации множественного выравнивания белковых последовательностей

Цвет

Тип остатка

Аминокислоты

Жёлтый

Маленькие неполярные остатки

Gly, Ala, Ser, Thr

Зелёный

Гидрофобные

Cys, Val, He, Leu, Pro, Phe, Tyr, Met, Trp

Фиолетовый

Полярные

Asn, Gin, His

Красный

Отрицательно

заряженные

Asp, Glu

Синий

Положительно

заряженные

Lys, Arg

Пример использования одной из цветовых палитр представлен на рисунке 60.

Важным элементом визуализации результатов множественного выравнивания являются аннотации или консенсусы.

Простейший вид аннотации использует программа ClustalW, в которой степень консервативности физико-химических свойств аминокислот в данной позиции выравнивания (в данном столбце) обозначается символами: "*" - ’’идентичность"; ":" — "консервативность" и "." — "полуконсервативность" замен аминокислот в пределах данного столбца (рисунок 27).

Рисунок 60 - Представление множественного выравнивания белковых последовательностей

Более информативным способом визуализации результатов множественного выравнивания является генерация компьютером консенсусной строки, в которой изображаются те аминокислоты, которые наиболее часто встречаются в соответствующих столбцах данного выравнивания. Пример такого консенсуса - нижняя строка ("Consensus") на рисунке 60.

Для того, чтобы отобразить величину консервативности консенсусную строку изображают в виде гистограммы (рисунок 61(a)), в которой часто подписывают наиболее вероятные аминокислоты, причём размер символа соответствующей аминокислоты пропорционален частоте появления данной аминокислоты в данном столбце множественного выравнивания (рисунок 61(6, в)).

Чтобы множественное выравнивание было информативным, оно должно содержать разные по эволюционному расстоянию последовательности.

Если все последовательности чересчур близкие, то информация, которую они несут, избыточно дублируется, и это выравнивание малоинформативно.

А если все последовательности далеки друг от друга, то трудно будет построить аккуратное выравнивание (кроме тех белков, для которых известны структуры), и в таком случае достоверность результатов и сделанных на их основе выводов оказывается под вопросом.

Рисунок 61 - Примеры аннотаций: а - гистограмма консервативности; б - консенсусная строка с символами аминокислот; в - логограмма в Logo-формате

В идеале множественное выравнивание должно содержать широкий набор (спектр) белков разного уровня сходства, включающий далеко отстоящие экземпляры среди множества близких гомологов.