Основы биоинформатики - Огурцов А.Н. 2013
Основания биоинформатики
Примеры сравнения данных
Примеры биоинформационного анализа
Рассмотрим теперь несколько реальных примеров извлечения последовательностей из банка данных и сопоставления биологических последовательностей для их анализа.
Пример 1. Получим аминокислотную последовательность панкреатической рибонуклеазы лошади.
Используем сервер UniProt (Universal Protein Resource) - для доступа к базам данных EMBL, GenBank, DDBJ и др.: http://www.uniprot.org/.
Введем идентификатор Swiss-Prot для панкреатической рибонуклеазы лошади RNPHORSE в поле поиска (рисунок 23) и нажмём "Search".
Рисунок 23 - Веб-страница UniProt
Результаты поиска представлены на рисунке 24.
Рисунок 24 - Результаты поиска аминокислотной последовательности панкреатической рибонуклеазы лошади
Затем в этом же окне (рисунок 24) нажмём кнопку "FASTA", чтобы получить аминокислотную последовательность панкреатической рибонуклеазы лошади в FASTA-формате.
Результат показан на рисунке 25.
Рисунок 25 - Аминокислотная последовательность панкреатической рибонуклеазы лошади в FASTA-формате
Этот результат можно скопировать в буфер компьютера и вставить в другие программы.
Пример 2. Получим таким же методом и затем выровняем панкреатические эндонуклеазы лошади (Equus caballus), малого полосатика (Balaenoptera autorostrata) и большого рыжего кенгуру (Macropus rufus).
Вводим по очереди идентификаторы Swiss-Prot для панкреатических эндонуклеаз лошади RNASl_HORSE, малого кита-полосатика RNAS1_BALAC и большого рыжего кенгуру RNAS1_MACRU в окно поиска программы UniProt (рисунок 23).
Нажимая кнопку "FASTA" в окне результатов (рисунок 24), получаем последовательности в формате FASTA.
Затем копируем их в один текстовый (ASCII) файл.
FASTA-описание эндонуклеаз лошади (Equus caballus), малого кита-полосатика (Balaenoptera autorostrata) и большого рыжего кенгуру (Macropus rufus) имеет вид:
Построим для этих последовательностей множественное выравнивание с помощью программы ClustalW2 (рисунок 26)
http://www.ebi.ac.uk/Tools/clustalw2/index.html
Рисунок 26 - Окно программы ClustalW2 с загруженными параметрами задачи
Результат множественного выравнивания последовательностей RNAS1_HORSE, RNAS1_ВALAC и RNAS1_MACRU представлен на рисунке 27.
Рисунок 27 - Результат множественного выравнивания аминокислотных последовательностей панкреатических эндонуклеаз лошади, малого полосатика и большого рыжего кенгуру
Цветные символьные обозначения аминокислот на рисунке 27 появляются после нажатия кнопки "Show Colors" в окне программы. В нижней (консенсусной) строке под последовательностями в таблице выравнивания обозначены следующими символами:
"*" - неизменная (одинаковая во всех последовательностях) аминокислота;
":" - очень сходные по физико-химическим параметрам аминокислоты;
"." - просто сходные по физико-химическим параметрам аминокислоты;
" " - "пробел" означает отсутствие сходства.
Символами в аминокислотных последовательностях показаны вставки, автоматически добавленные программой для оптимального выравнивания. Большие фрагменты последовательностей идентичны. Есть большое число замещений, но только одна внутренняя делеция.
Проведём теперь попарное выравнивание последовательностей. Результаты попарного выравнивания представлены на рисунке 28:
а) лошадь и малый кит-полосатик;
б) малый полосатик и большой коричневый кенгуру;
в) лошадь и большой коричневый кенгуру.
Рисунок 28 - Результаты попарного выравнивания аминокислотных последовательностей панкреатических эндонуклеаз лошади, малого полосатика и большого рыжего кенгуру
При попарном сравнивании последовательностей, число идентичных остатков между парами в этом выравнивании представлено в таблице 4.
Таблица 4 - Число идентичных остатков в последовательностях панкреатических эндонуклеаз
Лошадь и малый полосатик |
95 |
Малый полосатик и большой коричневый кенгуру |
82 |
Лошадь и большой коричневый кенгуру |
75 |
Лошадь и кит имеют больше идентичных остатков. Это согласуется с тем фактом, что лошадь и кит являются плацентарными млекопитающими, а кенгуру - сумчатое.
Таким образом, даже простейший анализ структуры последовательностей с помощью выравнивания демонстрирует важность такой процедуры для оценки эволюционной близости и филогенетических взаимодействий организмов.
Пример 3. Два ныне живущих рода слонов представлены африканским слоном (Loxodonta Africana) и индийским слоном (Elephas maximus). Сравним аминокислотные последовательности митохондриального цитохрома b этих слонов и ископаемого сибирского шерстистого мамонта (Ma mmuthus primigenius).
Ищем аминокислотные последовательности в UniProt (рисунок 29).
Найденные идентификаторы в стандарте Swiss-Prot: CYB_LOXAF, CYB ELEMA, CYB MAMPR - используем для поиска последовательностей и получения последовательностей в FASTA-формате.
FASTA-описание этих цитохромов:
Рисунок 29 - Результаты поиска идентификатора цитохрома b африканского слона Loxodonta Africana в стандарте Swiss-Prot
Копируем эти три последовательности в окно программы ClustalW2 (http://www.ebi.ac.uk/Tools/clustalw2/index.html) и проводим выравнивание. Получаем:
Последовательности мамонта и африканского слона имеют 10 несовпадений, а последовательности мамонта и индийского слона имеют 14 несовпадений. Оказывается, что мамонт ближе к африканскому слону. Возникает вопрос, являются ли такие различия существенными?
Обсудим этот пример подробнее. Мы считаем, что африканский и индийский слоны и мамонты должны быть близкими родственниками — для этого достаточно простого взгляда.
Вопрос первый - можем ли мы сказать только из этих последовательностей, что они принадлежат близким видам?
Вопрос второй - представляют ли эти малые различия эволюционные отклонения, возникшие из отбора, или же они есть просто случайный шум или случайное отклонение?
Необходимо иметь чувствительный статистический критерий для определения значимости совпадений и различий.
Для пояснения данных вопросов, используются два понятия: подобие (или сходство, similarity) и гомология (homology).
Сходство - это наличие или измерение сходства и различия, независимо от источника сходства.
Гомология означает, что последовательности и организмы, в которых они обнаружены, являются потомками общего предка, при этом предполагается, что подобные характеристики имели и предки.
О подобии последовательностей (или макроскопических биологических характеристик) можно судить, проведя их выравнивание, и при этом не подразумеваются никакие исторические гипотезы.
Наоборот, утверждение о гомологии - это утверждение исторических событий, которые почти всегда необозримы. Гомология должна быть предположением, возникающим из наблюдения подобия. Только в некоторых немногочисленных случаях гомология может быть непосредственно наблюдаема: например, в фамильной родословной, демонстрирующей необычный фенотип, как например, губа Габсбургов, или в лабораторной популяции, или в клинических испытаниях, в курсе наблюдения за вирусными инфекциями на уровне последовательностей у индивидуальных пациентов (см. также п. 10.1).
Утверждение, что цитохромы b африканского и индийского слонов и мамонтов гомологичны, означает, что существовал общий предок, который, вероятно, содержал уникальный цитохром b, который путём альтернативных мутаций дал начало белкам мамонтов и современных слонов. Доказывает ли высокая степень сходства последовательностей утверждение о том, что они гомологичны, или есть другие объяснения?
✵ Возможно, что функциональный цитохром b содержит так много консервативных участков, что цитохромы b других животных так же похожи друг на друга, как и цитохромы слона и мамонта. Мы можем проверить это, изучив последовательности этого белка других видов. В результате оказалось, что цитохромы b других животных достаточно сильно отличаются от цитохромов слонов и мамонтов.
✵ Второй вариант состоит в том, что есть специальные условия для хорошего функционирования цитохрома b у слоноподобных животных, и что три последовательности цитохрома b идут от трёх самостоятельными предков, а общее избирательное воздействие вынудило их стать похожими. (Помним, что выводы мы делаем только на основании анализа последовательностей цитохромов b).
✵ Мамонт может быть более близким родственником африканского слона, но со времени последнего общего предка последовательность цитохрома b индийского слона эволюционировала быстрее, чем последовательности африканского слона и мамонта, накапливая больше мутаций.
✵ Существует и четвертая гипотеза о том, что все общие предки слонов и мамонтов имели сильно различающиеся цитохромы b, но жившие слоны и мамонты размножили общий ген путём переноса из неродственных организмов с помощью вирусов.
Предположим, мы доказали, что сходство последовательностей цитохрома b у слона и мамонта может быть достаточным доказательством гомологии, но как тогда быть в случае последовательностей рибонуклеаз в предыдущем примере? Являются ли большие различия панкреатических рибонуклеаз лошади, кита и кенгуру доказательством того, что они не гомологичны?
Ответить на эти вопросы только на основании данных выравнивания последовательностей невозможно.
Специалисты проводят аккуратную калибровку сходства и различия последовательностей по многим белкам из многих видов, для которых таксономическое положение было уже установлено ранее классическими методами.
В примере с панкреатическими рибонуклеазами рассуждения от сходства к гомологии оправданы.
Вопрос о том, ближе мамонты к африканским или индийским слонам, ещё не разрешен, даже используя все имеющиеся анатомические доказательства и сходство последовательностей.
В настоящее время метод анализа сходства последовательностей полностью признан и считается, что это наиболее надёжный метод установления филогенетического родства, несмотря даже на то, что иногда - как на примере со слонами — результаты могут не быть достоверными, а в других случаях даже давать неправильные ответы. Есть множество доступных данных и эффективные инструменты для решения конкретных задач, а также многочисленные инструменты для анализа.
Но никогда машинный анализ не заменит содержательное научное обсуждение профессионалами.