Структура и функционирование белков. Применение методов биоинформатики - Джон Ригден 2014

Пространственные мотивы
Специфичные методы
Мотивы, заданные пользователем

Работы по изучению структурных мотивов могут быть описаны с точки зрения того, как в них решается проблема выбора этих мотивов. Первая группа - это работы, которые сосредоточены на оценке методов нахождения соответствий с каким-либо мотивом, заданным пользователем, и оставляющие проблему выбора подходящего мотива пользователям метода или дальнейшим исследованиям. Вторая группа - это работы, в которых проблема нахождения мотива или создания библиотек мотивов рассматривается как важная, если не первостепенная, цель для методов, развиваемых в этих работах.

Методы для выявления определяемых пользователем структурных мотивов, как правило, демонстрируются на нескольких мотивах, известных из литературы. Самым распространенным примером является каталитическая триада Ser-His-Asp, впервые обнаруженная в сериновых протеазах (Blow et al. 1969; Wright et al. 1969), а затем и в других гидролазах, таких как эстеразы и липазы. Являясь хорошей тест-системой благодаря очень хорошей изученности и наличию в базе данных PDB большого числа её структур, эта каталитическая триада часто используется для оценки производительности методов создания и оценки структурных мотивов. Эта триада встречается в различных типах укладки, и, таким образом, охватывает случаи как дивергентной, так и конвергентной эволюции (Рис. 8.2).

При рассмотрении сериновых протеаз геометрическое хэширование с использованием минимальной структурной информации - только расположение альфа-углеродов (а не типов остатков или их порядка в последовательности) - позволило выявить не только другие сериновые протеазы, но также и сходные подструктуры в субтилизинах, которые содержат каталитическую триаду в ином типе укладки (Fischer et al. 1994). Независимость от порядка остатков в последовательности является важной особенностью многих методов, связанных с структурными мотивами; однако в обсуждаемой работе эти подструктуры были относительно большими (>50 остатков) и были выявлены из целых структур, а не заданы заранее.

Image

Рис. 8.2. (Цветную версию рисунка см. на вклейке.) Две сериновые протеазы, совмещенные по их каталитическим триадам, показывают близкое сходство остатков в активном центре, несмотря на разницу в общей укладке, а) Из ленточного представления трипсина (синий/голубой, PDB код 1sgt) и протеиназы К, гомолога субтилизина, (красный/розовый, PDB код 2ркс), видно, что два белка имеют различный тип укладки без соответствующих друг другу элементов вторичной структуры, кроме каталитических триад (стержневое представление на рисунке), которые частично накладываются. Считается, что у них нет общего предшественника, б) Боковые цепи остатков каталитической триады изображены увеличенными, чтобы показать сходство в их ориентации (1sgt: Asp102, His57, Ser195; и 2pkc: Asp39, His69, Ser224). Сходство каталитической триады в этих негомологичных структурах говорит о способности структурных мотивов выявлять схожие функции белков в тех случаях, когда методы, основанные на использовании гомологии, потерпели бы неудачу. Рисунок создан с помощью программы визуализации UCSF Chimera (Pettersen et al. 2004) (http://www.cgl.ucsf.edu/chimera)

В другой ранней работе в этой области группа Торнтон классифицировала структуры протеаз и липаз, содержащих каталитические триады, на четыре группы по типу укладки (Wallace et al. 1996). Было замечено, что атомы кислорода серина и аспарагиновой кислоты занимают приблизительно постоянное положение относительно гистидинового кольца во всех четырех группах, тогда как остальные атомы боковых цепей хорошо совмещаются друг с другом только в пределах каждой группы. Был составлен общий структурный мотив, или шаблон, содержащий только гистидиновое кольцо и два атома кислорода, а также шаблоны, специфичные для каждой группы и содержащие боковые цепи целиком. Для ускорения процесса сравнения был разработан метод геометрического хэширования TESS (англ. TEmplate Search and Superposition, поиск и суперпозиция шаблона) (Wallace et al. 1997).

В этом методе один остаток шаблона представляет собой систему отсчета, а окружающие его атомы заключаются в ячейки пространственной решетки, и информация хэшируется. Исследуемые структуры требуют аналогичной предварительной обработки, при которой каждый остаток того же типа, что и эталонный остаток шаблона (например, гистидин каталитической триады), используется для определения пространственного паттерна для хэширования. Помимо необходимости предварительной обработки и хранения файла, программа TESS накладывает некоторые ограничения на определение мотивов и их поиск в структурах. Для решения этих вопросов без принесения в жертву скорости расчета был разработан алгоритм JESS (не аббревиатура), реализующий поиск с возвратом при решении задач с ограничениями (Barker and Thornton 2003); алгоритм выполняет поиск в глубину среди эффективно упорядоченных дескрипторов структур. В работе также описывается получение математического ожидания путем сравнения каждого структурного мотива с эталонным набором структур и моделированием результирующего диапазона значений СКО как суперпозиции нормальных распределений (Barker and Thornton 2003).

Было показано, что “нечеткие функциональные формы” (англ. “Fuzzy functional forms” (FFF)), состоящие из альфа-углеродов важных остатков, могут быть использованы для отбора как экспериментально определенных, так и смоделированных структур низкого или среднего разрешения (Fetrow and Skolnick 1998; Di Gennaro et al. 2001). Глутаредоксины и тиоредоксины были распознаны по мотиву, включающему два цистеина и пролин, с дополнительным ограничением, что пролин должен быть в цис-форме, а цистеины должны образовать мотив СххС возле N-конца спирали. Рибонуклеаза Tl была распознана по мотиву, содержащему шесть остатков. В последующих работах использование нечетких функциональных форм для опознавания больших семейств с целью более тонкой классификации сочетали с рассмотрением профилей активных центров, основанных на последовательности (Cammer et al. 2003). Нечеткая функциональная форма мотива активного центра дисульфид окидоредуктазы, найденного во многих белках, показана на рис. 8.3.

В программе ASSAM для поиска заданного пользователем паттерна остатков используется изоморфизм подграфов (Artymiuk et al. 1994). Каждая из функциональных групп боковых цепей представлена двумя или тремя псевдоатомами, и расстояния между этими точками в мотиве сравниваются с соответствующими расстояниями в структуре. Остатки могут быть промаркированы либо по типу, либо согласно химической классификации (например, по гидрофобности). Для каталитических триад был продемонстрирован компромисс между специфичностью и степенью допустимого отклонения расстояний, а также представлены и рассмотрены дополнительные примеры. Улучшения в оригинальной программе включают в себя возможность использовать атомы основной цепи и маркировать остатки по типу вторичной структуры и степени доступности растворителю (Spriggs et al. 2003).

Image

Рис. 8.3. (Цветную версию рисунка см. на вклейке.) Нечеткая функциональная форма мотива активного центра дисульфид окидоредуктазы, обнаруженного во многих белках. На рисунке представлены глутаредоксин бактериофага Т4, laaz, цепь А (слева), человеческий тиоредоксин, 4trx (посередине) и дисульфидоксидоредуктаэа, 1dsb, цепь А (справа). Нечеткую функциональную форму определяют три ключевых остатка - два цистеина (боковые цепи показаны красным) и пролин (боковые цепи показаны голубым). Структура активного центра этих белков консервативна, хотя в остальной части белков проявляются некоторые различия.

С использованием этих трех ключевых остатков были определены характерные черты активного центра белка (в каждом белке фрагменты показаны синими лентами).

На глобальном выравнивании последовательностей этих трех белков, выполненном с помощью программы ClustalW, показана локализация ключевых остатков (подчеркнуты и выделены красным и голубым) и характерные фрагменты активного центра (синие). Выравнивание иллюстрирует отсутствие общего сходства в последовательностях между тремя белками, даже несмотря на то, что структура активного сайта высоко консервативна

В программе SPASM (англ. SPatial Arrangements of Sidechains and Main-chains, пространственное расположение боковых и главных цепей) каждый остаток структурного мотива представлен альфа-углеродом (СА) и/или центром масс боковой цепи (SC) (Kleywegt 1999). Пользователь определяет, какие типы остатков могут быть сопоставлены каждому остатку мотива, а для выявления хитов используется алгоритм полного поиска в глубину. Совмещению паттернов для вычисления СКО предшествует отбор по расстояниям между псевдоатомами СА-СА и SC-SC внутри каждого вероятного мотива. Дополнительно могут быть учтены ограничения на порядок остатков в последовательности. Среди примеров можно назвать использование паттерна активного центра из трех кислотных остатков для распознавания семейства глюканаз. Исполняемые и прочие файлы программы SPASM могут быть загружены с сайта Uppsala Software Factory (см. Таблицу 8.2).

Таблица 8.2. Веб-серверы для загрузки программного обеспечения по структурным мотивам

Название и URL

Описание

Скачиваемые файлы

Nestor3D

www.staffnet.kingston.ac.uk/~ku33185/Nestor3D.html

Программа Nestor3D создает консенсусный мотив исходя из входных структур и инструкцию по их совмещению

Файлы Nestor3D Java jar, требующие Java 1.5 или более поздние версии, протестировано только для Windows

PAR-3D

www.sunserver.cdfd.org.in:8080/protease/PAR_3D

Программа PAR-3D проверяет структуру на соответствие диапазонам расстояний между точками и углов для заранее опредленных мотивов

Скрипт PAR-3D и геометрическое описание мотивов двух металл-содержащих сайтов, шести протеаз и десяти ферментов гликолитического пути

Uppsala Software Factory

www.alpha2.bmc.uu.se/usf

Программа SPASM сравнивает определяемые пользователем структурные мотивы с базой данных структур, программа RIGOR сранивает рассматриваемую структуру с базой данных структурных мотивов.

Исполняемые файлы программ SPASM and RIGOR для Unix-платформ, включая Mac OS X; индексируемые БД для SPASM и RIGOR. БД RIGOR включает 73164 мотива из единичных структур, из которых 57719 имеют маркировку типов остатков и 15445 - не имеют.

В группе под руководством Баббитт использовали программу SPASM не только с мотивами семейств, каждый из которых связан с одной функцией (катализируемой реакцией), но и с мотивами надсемейств, связанными с общим механизмом одной из ступеней различных полных реакций (Meng et al. 2004). Мотивы, полученные на основе единичных структур, позволяли определять надсемейство с большей чувствительностью и специфичностью, чем консенсусные мотивы, подтверждая предположение, что усреднение координат может оказаться вредным, когда структуры слишком дивергентны.

Для обнаружения всех мотивов со значениями СКО меньше порогового алгоритм Match Augmentation (“Увеличение совпадения”) выполняет приоритетный поиск, стартуя с трех остатков в структурном мотиве, совпавших наилучшим образом, и постепенно включая остатки, совпавшие менее удачно (Chen et al. 2005). Остатки были представлены в виде альфа-углеродов с промаркированным типом остатка и отранжированы по степени эволюционной важности, которая следовала из выравнивания последовательностей (Kristensen et al. 2006), хотя также могут быть использованы и иные методы ранжирования. Указание приоритетов уменьшает пространство поиска, а дальше производительность улучшается за счет эффективного сравнения расстояний. Увеличение совпадений (расширение списка совпадающих остатков) происходит за счет метода поиска в глубину, основанного на использовании стека. Наконец, статистическая значимость оценивается с помощью непараметрической модели, основанной на распределении значений СКО для случая, когда мотив сравнивается с выборкой белковых цепей, взятых из базы данных PDB. Для этой цели оказалось достаточным уже 5%-ных случайных выборок (Chen et al. 2005). Было показано, что для мотивов, состоящих из 5-8 точек, представляющих изофункциональные семейства (члены которых катализируют идентичные реакции), усредненные координаты мотива обеспечивают ту же чувствительность, что и наиболее чувствительные мотивы единичных структур, и специфичность, схожую со средней специфичностью мотивов единичных структур (Chen et al. 2007b).