Структура и функционирование белков. Применение методов биоинформатики - Джон Ригден 2014

Распознавание фолда
Перспективы

Ни в одном из наиболее успешных методов в последних соревнованиях CASP не использовалось одно лишь протягивание. Во многих методах протягивание не используется вообще. В некоторых методах для оценки потенциальных моделей по завершении построения или в сочетании с методами на основе профилей используются эмпирические потенциалы (см., например, Jones 1999b; Zhang 2007). Первичное преобладание подходов на основе протягивания и последующее снижение их популярности поднимают ряд интересных вопросов. Продолжительные дебаты в области структурной биологии касаются понятий гомологии и аналогии. Очевидно, множество различных последовательностей может иметь схожую укладку. Многие исследователи объясняют это явление процессом дивергентной эволюции общей предковой последовательности под давление отбора в пользу конкретной структуры. Однако некоторые исследователи полагают, что в случаях, когда наблюдаются существенные различия в последовательностях, имеющих одну и ту же укладку, могут иметь место прецеденты конвергентной эволюции, т.е., независимой эволюции в сторону одного и того же способа упаковки при отсутствии общего предка. Это явление сродни конвергентной эволюции крыла летучей мыши и птицы.

Существуют яркие примеры конвергентной эволюции в белках, когда близкие локальные элементы структуры независимо развивались в нескольких случаях. Вероятно, наиболее известным примером является каталитическая триада Ser/His/Asp (Dodson and Wlodawer 1998), обнаруженная по крайней мере в пяти различных белковых укладках, которые сложно считать гомологичными. Такие доказательства в пользу конвергентной эволюции предполагают, что методы протягивания могут оказаться полезны там, где подходы “последовательность-профиль” терпят поражение. И все же, использование протягивания, как представляется, постепенно сходит на нет: происходит его замещение методами на основе последовательностей/профилей.

У этого процесса может быть несколько причин. Во-первых, остается открытым вопрос о том, как проходит сворачивание белка: для целой молекулы или локальных структур, возникших в ходе эволюции множество раз. Природа, возможно, несколько раз “натолкнулась” на простые способы укладки, такие как четырехспиральные пучки, но для более сложных структур такое явление сложно явно доказать. Для некоторых типов укладки, таких как бочонки ТІМ и ß-трилистники, ранее считавшихся примерами конвергенции, появляется все больше данных о гомологии, установленных благодаря повышению чувствительности методов сравнения последовательностей (Copley and Bork 2000; Ponting and Russell 2000).

Во-вторых, даже если истинные аналоги существуют, методы на основе последовательностей могут определять их благодаря общим биофизическим предрасположенностям, необходимым для данной укладки, что, в свою очередь, будет отражено в высококачественном профиле, построенном с использованием множества отдаленных гомологичных последовательностей. В-третьих, широко признанным методом оценки качества предсказаний белковых структур является соревнование CASP. Неприятным побочным эффектом популярности CASP является то, что методы, которые способны установить связи для способов укладки аналогичных белков, как правило, остаются незамеченными из-за наличия методов, способных точно выровнять белковые последовательности относительно близких гомологов из постоянно растущих структурных баз данных белков. Если в базах данных структур можно установить гомологичные связи, это неизменно будет обеспечивать создание лучшей модели по сравнению с аналогичными связями. Т.е., по мере роста баз данных последовательностей и структур необходимость установления аналогии уменьшается, поскольку: а) расширяются возможности более глубокого поиска в пространстве последовательностей, б) появляется все больше близких структурных шаблонов на выбор.

Это приводит нас к выводу о том, что простое определение структур небольшого числа тщательно отобранных белков (Marsden et al. 2007) позволило бы относительно точно моделировать большую часть последовательностей генома. С точки зрения перспектив дизайна новых фолдов или предсказания способов укладки ab initio такие результаты неудовлетворительны. Но для эффективной технологии определения принадлежности структуры к тому или иному геному этого вполне достаточно при условии, что в наличии имеется достаточное количество тщательно подобранных структур.

Неясно, в какой степени улучшение предсказаний структуры обусловлено увеличением размера баз данных и в какой степени - усовершенствованием алгоритмов. База данных последовательностей увеличивается в размерах в геометрической прогрессии, однако количество значимой информации растет отнюдь не так быстро. Подавляющее большинство последовательностей, добавляемых в базу данных последовательностей ежегодно, очень похоже на уже имеющиеся в базе. В последних работах (Chubb, Kelley and Sternberg, рукопись в стадии подготовки) показано, что, несмотря на увеличение размеров баз данных, определение гомологии с помощью стандартных инструментов (таких, как PSI-BLAST) вышло на плато. Таким образом, сложно представить себе дальнейшее значительное увеличение обнаружения гомологии лишь на основе информации из баз данных последовательностей. Неясно также, насколько последние улучшения методов предсказания структуры ab initio могут быть связаны с ростом структурных баз данных, которые содержат фрагменты структуры, оптимальные для использования в методах сборки фрагментов (Zhang and Skolnick 2005).

Базы данных последовательностей и структур будут продолжать расти. Даже если бы развитие алгоритмов предсказания структуры сегодня прекратилось, точность предсказаний структуры продолжала бы расти. Опуская вопросы белкового дизайна, предсказание структуры - практический опыт, полезный для сокращения времени и затрат на определение структуры белка.

Стремление “решить” проблему сворачивания белков по сей день считается одним из “священных Граалей” молекулярной биологии. Но даже в отсутствие такого “решения” представляется вероятным, что в течение разумного периода времени нам удастся получить точные и полезные модели если не для всех, то для большинства белков, встречающихся в природе. Независимо от того, сколько лет (5, 10 или 50) изобретательности и кропотливой работы потребуется от экспериментаторов, определяющих структуры и геномы, и специалистов по моделированию, извлекающих полезную информацию из результатов экспериментов, оно того стоит. И теперь это уже лишь вопрос времени.

Белковый дизайн, однако, остается очень разносторонней и сложной задачей, основанной на глубоком понимании процесса сворачивания белков. Понять процесс белковой укладки - значит понять, как “программное обеспечение” ДНК становится “аппаратным обеспечением”, или “оборудованием” функциональных белков. Это значит на фундаментальном уровне понять природу живых существ. Тем не менее, возможно, для проблемы сворачивания белка не существует элегантного решения. Природе не обязательно использовать элегантное решение - достаточно того, которое работает. С неохотой мы вынуждены признать, что, возможно, нам придется довольствоваться лишь сложным предсказательным аппаратом. Тем не менее, остаются сильны надежды на то, что отыщется простое, вычислительно доступное и до сих пор не открытое объяснение процесса сворачивания белков.

Благодарности. Я бы хотел поблагодарить доктора Бенджамина Джефферис за его активную помощь при подготовке иллюстраций к этой главе.