Структура и функционирование белков. Применение методов биоинформатики - Джон Ригден 2014

Пространственные мотивы
Предыстория и значение

Элейн К. Менг, Бенджамин Дж. Полакко, Патрисиа К. Баббит

Структурные мотивы - это паттерны локальной структуры белка, связанные с его функционированием, и обычно представляющие собой аминокислотные остатки сайта связывания или каталитического центра. Структуры белков с неизвестной функцией могут быть аннотированы после их сравнения с известными структурными мотивами. Для выявления структурных мотивов и поиска их в структурах разработано большое число методов. Эти методы различаются по типу и количеству входных данных, по описанию мотивов и их соответствия, по тому, учитывается ли в результатах статистическая значимость, и по тому, как проводится сопоставление мотивов и функций. Меньший прогресс по сравнению с разработкой алгоритмов был достигнут в создании общедоступных баз данных структурных мотивов, которые одновременно были бы и функционально специфичны, и охватывали широкий диапазон функций. Препятствием стали трудности в создании подробных структурно-функциональных классификаций; масштабные автоматизированные исследования опирались вместо них на уже существующие структурные или функциональные классификации. Дополнением к методам определения структурных мотивов являются методы, ориентированные на описание молекулярной поверхности, сравнение глобальной структуры (типа укладки), предсказание взаимодействий с другими макромолекулами, а также на идентификацию физиологических субстратов путем локирования небольших молекул из соответствующих баз данных.

Elaine С. Meng, Benjamin J. Polacco, and Patricia C. Babbitt

University of California San Francisco (UCSF)

Department of Pharmaceutical Chemistry,

600 16th Street, San Francisco, CA 94158-2517

Patricia C. Babbitt

UCSF Department of Biopharmaceutical Sciences,

1700 4th Street, San Francisco, CA 94158-2330

e-mai1:[email protected]

Сокращения

3D - пространственный, структурный,

CSA - атлас каталитических центров (англ. CSA: Catalytic Site Atlas),

DRESPAT - обнаружение повторяющихся участков боковых цепей (англ. DRESPAT: Detection of REcurring Sidechain PATtems),

EC - классификация ферментов (англ. EC: Enzyme Commission),

FFF- нечеткая функциональная форма (англ. FFF: Fuzzy Functional Form),

GASPS - генетический алгоритм поиска паттернов в структурах (англ. GASPS: Genetic Algorithm Search for Patterns in Structures),

GO - генная онтология (англ. GO: Gene Ontology),

PAR-3D - выявление остатков активного центра белка при помощи пространственных структурных мотивов (англ. PAR-3D: Protein Active site Residues using 3-Dimensional structural motifs),

PDB - база данных PDB (англ. PDB: Protein Data Bank),

PINTS - паттерны в негомологичных третичных структурах (англ. PINTS: Patterns in Non-homologous Tertiary Structures),

S-BLEST - инструмент поиска локального окружения на основе структры (англ. S-BLEST: Structure-Based Local Environment Search Tool),

SCOP - структурная классификация белков (англ. SCOP: Structural Classification of Proteins),

SOIPPA - независимый порядок следования при выравнивании двух профилей (англ. SOIPPA: Sequence Order-Independent Profile-Profile Alignment),

SPASM - пространственное расположение боковых и главных цепей (англ. SPASM: SPatial Arrangements of Sidechains and Mainchains),

TESS - поиск шаблона и суперпозиция (англ. TESS: TEmplate Search and Superposition), БД - база данных,

CKO - среднеквадратичное отклонение,

КФ - классификация ферментов,

МД - молекулярно-динамический

Применение геномного подхода к биологии стало причиной появления не только обширных данных о последовательностях и структурах, но и перспективы получения полного “списка деталей” для многих организмов. Однако от такого списка мало пользы, если нет некоторого понимания того, для чего каждая деталь предназначена. Даже имея на руках целые последовательности генома, были идентифицированы не все гены, а значительному числу идентифицированных генов не была аннотирована какая-либо функция. Количество последовательностей значительно превосходит количество имеющихся структур, поэтому присваивание функции (функциональное аннотирование) в значительной степени выполнялось с использованием масштабного поиска в пространстве последовательностей, и переносом на рассматриваемый белок функциональной информации о любых достаточно сходных последовательностях (аннотирование по аналогии). Многие структурные мотивы были выявлены в определенных наборах белков и связаны с каким-то аспектом функционирования белка или его структуры. Однако надежность и функциональная специфичность аннотирования по аналогии уменьшается по мере того, как последовательности становятся менее схожими (Devos and Valencia 2001; Rost 2002). Говоря о функциональной специфичности, мы имеем в виду узость нашего суждения; например, термин “лейциновая аминопептидаза” является более специфическим, чем “пептидаза”.

Рассмотрение структур белков может выявить важные сходства или возможные эволюционные связи, которые не видны при рассмотрении одних лишь их последовательностей. Белки могут разойтись в процессе эволюции настолько далеко, что их последовательности не могут быть достоверно выровнены, но сходство общей структуры, или фолда, все еще сохранится (Chothia and Lesk 1986; Rost 1997). Использование сходства фолдов для аннотирования по аналогии (см. Главу 6) обладает той же ограниченностью, что и использование сходства последовательностей: с одной стороны, надежность аннотирования по аналогии уменьшается с ростом удаленности между родственными белками, а с другой стороны, белки с очень схожими фолдами могут выполнять различные функции (Babbitt and Gerlt 1997; Todd et al. 2001). Таким образом, для точного описания и предсказания функции белка нужно рассматривать детали его структуры, примером которых могут служить структурные мотивы, представляющие собой паттерны локальной структуры. В процессе эволюции идентичные белки могут дивергировать путем накопления случайных нейтральных изменений, которые не изменяют его функции (нейтральный дрейф), и сохраняют структурные компоненты, которые важны для выполнения этой функции. В идеале, эти функционально необходимые структурные компоненты и будут описываться структурными мотивами, которые также будут служить как чувствительные и специфичные признаки функции. Наличие общего структурного мотива может также отражать конвергентную эволюцию между различными фолдами, фиксируя аналогичное расположение боковых цепей, связанное со схожей функцией. Хорошо известным примером является каталитическая триада сериновой протеазы Asp-His-Ser, используемая механически сходным образом структурно разнородными протеазами (см. ниже).

Проекты по структурной геномике направлены на определение структуры всех белков, что является признанием важности этой информации для аннотирования и других приложений - таких, например, как разработка лекарств. Огромный объем этой задачи может быть несколько уменьшен за счет группировки схожих последовательностей и выбора представительной мишени в каждой группе, что позволит построить сравнительные модели для оставшихся последовательностей. На протяжении нескольких последних лет общее число структур в Protein Data Bank (PDB) (Berman et al. 2000) и в проектах по структурной геномике растет все более быстрыми темпами, причем функция для многих из этих структур неизвестна. Такая тенденция позволяет предположить, что методы, связанные с структурными мотивами, станут более распространенными и полезными, поскольку появляется все больше расшифрованных и смоделированных структур.