Основы биоинформатики - Огурцов А.Н. 2013

Методы биоинформационного анализа
Филогенетический анализ
Гомология

Термин "гомология" буквально означает происхождение от общего предка. Обычно потомки некоторого общего предка показывают подобие по нескольким признакам. Такие признаки называют гомологичными.

Долгое время термины "гомология" и "подобие" употребляли как взаимозаменимые синонимы - даже несмотря на то, что они формально отличны (см. также п. 4.2, пример 3).

Подобие является мерой сходства или различия и не зависит от источника сходства. Подобие может наблюдаться среди данных, которые можно собрать в настоящее время, и не подразумевает никакой исторической гипотезы.

Напротив, утверждения о гомологии основаны исключительно на умозрительных выводах об исторических событиях, которые практически не поддаются наблюдению. Мера подобия может быть выражена количественно, а гомология - прежде всего качественный показатель.

Гомологичными белками называют белки, чьё происхождение от общего предка доказано. Если же свёртки белков подобны, но первичные последовательности отличны, то такие свёртки считают аналогичными.

Рассмотрим, например, белковое семейство тубулинов - белков, из которых формируются микротрубочки цитоскелета. Согласно упрощенной схеме (рисунок 63) исходно эукариотические клетки имели только один тубулиновый ген, дупликация которого произошла на ранних стадиях эволюции (см. [7], п. 13.2).

Последующая дивергенция различных копий исходного гена тубулина сформировала гены-предки нынешних генов а- и ß-тубулина. По мере того, как различные виды дивергировали от этих эукариотических клеток-предков, каждая из этих генных последовательностей также дивергировала, породив, тем самым, слегка отличающиеся формы а- и ß-тубулинов, которые сейчас можно найти в каждом организме.

Рисунок 63 - Образование различных тубулиновых генов в ходе эволюции эукариот

Сравнительный анализ последовательностей нуклеотидов в ДНК и аминокислот в белках потребовал развития традиционного понятия гомологии. При анализе последовательностей принято различать ортологию и паралогию.

Гомологичные последовательности называют ортологичными, если к их разделению привел акт видообразования: если ген существует у некоего вида, который дивергирует с образованием двух видов, то копии этого гена у дочерних видов называются ортологами.

Гомологичные последовательности называют паралогичными, если к их разделению привело удвоение (дупликация) гена: если в пределах одного организма в результате хромосомной мутации произошла дупликация гена, то его копии называют паралогами.

Ортологи обычно выполняют идентичные или сходные функции. Это не всегда справедливо в отношении паралогов. Ввиду отсутствия давления отбора на одну из копий гена, подвергшегося удвоению, эта копия получает возможность беспрепятственно мутировать далее, что может привести к возникновению новых функций (см. также п. 12.4).

В случае тубулина паралогичными являются генные последовательности а- и ß-тубулинов, которые дивергировали в результате дупликации генов. А ортологичными в случае тубулина являются те генные последовательности, которые возникли в результате видообразования - гены а-тубулина у различных видов, или гены ß-тубулина у различных видов. Оценивая степень подобия тубулинов, имеющихся в настоящее время в различных организмах, можно определить их эволюционное родство (рисунок 64). На рисунке представлена филогенетическая схема (phylogenetic tree), точнее кладограмма (cladogram), представляющая взаимоотношения и родство между последовательностями тубулина.

Рисунок 64 - Филогенетическая схема (кладограмма), показывающая родство между тубулиновыми генными последовательностями

Филогенетической схемой называется схема предполагаемых генеалогических (эволюционных) связей особей, популяций или таксонов различного уровня в разрезе исторического времени; точки "ветвлений" на схеме соответствуют гипотетическим моментам образования новых форм (дивергенции).

Кладограмма - это филогенетическое дерево, не содержащее информации о длинах ветвей (см. рисунки 21, 22, 64).

Если же длины ветвей несут информацию о величине какого-либо параметра, то такое дерево называется филограмма (или фенограмма), например, филограмма, длины ветвей в которой представляют эволюционное время, называется хронограммой (см., например, рисунок 20).

Из трёх типов генетического родства: гомологии, ортологии и паралогии - ортологические последовательности наиболее вероятно кодируют одни и те же функции у белков.

При расшифровке и анализе биологических последовательностей результаты необходимо сверять со всеми возможными источниками биологической информации.

Аналитический процесс осложнён тем фактом, что иногда подобие последовательностей ограничено только некоторой частью выравнивания, как, например, при изучении модульных белков. Модули можно представить как подмножества белковых доменов; это самостоятельные единицы свёртки, примыкающие друг к другу и часто служащие структурными элементами для сборки белковой молекулы (см. п. 6.5). Будучи составными элементами общей конфигурации, они могут быть использованы для передачи богатой палитры различных функций родительского белка - как путём многократных комбинаций какого-либо одного модуля, так и посредством комбинации различных модулей с образованием конфигурационных мозаик. Генетической причиной распространённости модулей в большей мере являются процессы перегруппировки генов, а не только процессы дублирования и слияния генов.