Структура и функционирование белков. Применение методов биоинформатики - Джон Ригден 2014

Распознавание фолда
Определение отдаленной гомологии без протягивания
Проход по сети гомологов

Мы уже видели на примере PSI-BLAST и поиске промежуточных последовательностей, как сочетание ряда взаимосвязей между гомологами может привести к появлению продуктивных поисковых методов. В последних работах положено начало изучению этой сети взаимосвязей на еще более высоком уровне детализации. В подходах на основе профилей делается попытка создания одинарного статистического представления для ряда родственных белков - своего рода “усредненное” представление. Такие подходы, однако, исключают из рассмотрения большую часть информации, имеющуюся в этой сети взаимосвязей. Бейтман и Финн (2007) использовали простой подход по восстановлению части этой информации. В их методе выполняется сравнение результатов двух независимых процедур поиска по профилю и ставится вопрос, является ли число найденных последовательностей, общих для обеих процедур, большим, чем это могло бы оказаться случайно. Если рассматриваемые последовательности близкородственны, то для их профилей будет найдено большое количество общих последовательностей. В противном случае найденные по их профилям последовательности будут иметь только случайное сходство. Такой подход аналогичен исследованию структуры первого порядка сети гомологов, т.е. сравнению соседей одной последовательности с соседями другой. Этот простой подход оказался весьма эффективным при выявлении гомологии (выравниваний, созданных этим методом, нет) и значительно превосходит современные методы сравнения профилей.

Уэстон с сотр. (2004) в своем алгоритме Rankprop более глубоко использовали общую структуру сети гомологов. Ключевым нововведением, которое привело к успеху поисковой машины Google, является её способность использовать общую структуру, делая предположение о ней исходя из структуры локальных гиперссылок сети. Алгоритм Pagerank поисковой системы Google моделирует поведение случайного пользователя сети, который случайно нажимает на последующую ссылку, а также периодически перескакивает на случайную страницу. Веб-страницы ранжируются в соответствии с распределением вероятностей итоговых случайных маршрутов движения. На начальном этапе в алгоритме Rankprop используется сеть подобия последовательностей белков, предварительно рассчитанная при использовании всей базы данных последовательностей. По аналогии с процессом диффузии, интересующий исследователя белок попадает в сеть, после чего информация о ссылках на последовательность этого белка (о связях между последовательностью этого белка и близкими последовательностями других белков) распространяется по сети к соседям, соседям соседей и т.д. Затем белки базы данных ранжируются в соответствии с количеством ссылок, которое они получили на рассматриваемый белок. Показано, что такой подход превосходит стандартные методы поиска профилей по последовательности и сопоставим с методами поиска профилей по профилю, несмотря на то, что для создания первичной сети подобия используется PSI-BLAST.

Наконец, Хегер и его коллеги (2008) разработали алгоритм Maxflow, способный осуществлять проход по крупным сетям гомологов на уровне индивидуальных остатков. Алгоритм выполняет поиск согласованно выровненных пар остатков в сети парных выравниваний. Отличие этого метода от других состоит в том, что она нацелен на создание выравниваний, что имеет ключевое значение при моделировании белков.

Все эти новые подходы, основанные на использовании сетей, являются весьма полезными разработками для выявления гомологии. Серьезным недостатком этой группы методов являются огромные вычислительные ресурсы, необходимые для создания сетей подобия белков масштаба “каждый с каждым”. Представляется очевидным, что производительность этих методов возрастет, если создать по-настоящему полную сеть на основе современных баз данных, которые содержат около 6 миллионов последовательностей. Однако сокращенные базы данных, которые содержат только последовательности с идентичностью менее 50% и имеют гораздо меньший размер, согласно результатам исследований, обладают той же, если не более высокой, производительностью, что и полные базы данных. Также интересно отметить, что область исследований, связанная с распознаванием гомологии, в скором времени, вероятно, получит толчок в развитии, основой которого послужат новые методики на основе теории графов.