Структура и функционирование белков. Применение методов биоинформатики - Джон Ригден 2014

Примеры: предсказание функции структур, полученных в проектах по структурной геномике
Примеры масштабного предсказания функции белков

Несмотря на то, что проекты по структурной геномике привели к получению огромного количества структур за последние годы, насчитывается неожиданно мало примеров использования этих структур для предсказания их функции. Здесь мы рассмотрим различные попытки улучшить эффективность предсказания функции белков на основе их структуры, используя некоторые мишени из структурной геномики. Краткое описание этих примеров и методов приведено в Таблице 11.1.

Обзор 15 гипотетических белков с известной пространственной структурой и процедуры предсказания их функций (Teichmann et al. 2001) дает некоторое представление о качестве таких предсказаний. Структуры в совокупности с выравниванием гомологичных последовательностей были использованы для определения углублений на поверхности белка, и если углубления были образованы консервативными остатками, то это указывало на активный центр. Используя информацию о всех возможных кофакторах в структурах и доступные экспериментальные данные для рассматриваемого белка или родственных последовательностей, было сделано настолько точное предсказание функци, насколько это позволяла существующая информация. Оказалось, что из 15 белков подробное предсказание было выполнено для четверти, еще для половины удалось получить хоть какую-то информацию о функции, а для оставшейся четверти не удалось получить вообще никакой информации.

Таблица 11.1. Примеры предсказания функции для масштабного анализа и их источники.

В таблицу сведены рассматриваемые в обзорах примеры, в которых была предпринята попытка улучшить эффективность предсказания функции белков на основе их структуры, используя некоторые мишени из структурной геномики. Для каждого из белков в публикациях, рассмотренных в Разделе 11.3, дается краткое описание проведенного анализа вместе с отметкой в соответствующем столбце, показывающей, какой из методов анализа структуры оказался наиболее информативным

Исследование

Белок

Описание

Ключевой метод анализа, позволивший определить функцию

Укладка/ структура (см. Главу 6)

Поверхность/ расселина (см. Главу 7)

Шаблон (см. Главу 8)

Связанный

лиганд

Kim et al. (2003)

MJ0882

Определение потенциальной метил- трансферазной активности благодаря сходству в укладке - впоследствии экспериментально подтвержденное.

X





MJ0577

Обнаружение связанной АТФ позволило предположить АТФ-гидролизную активность.




X


TM841

Обнаружение связанного пальмитата показало возможность связывания жирных кислот.




X


MJ0226

Обнаружение нового фолда со слабым сходством с нуклеотид-связывающими белками и белком НАМ1.

X





MJ0285

Многомерная структура, образующая полую сферу с окошками, вызвала вопросы о принципе действия.

X





MPN625

Обнаружение двух консервативных цистеинов, лежащих в углублении потенциального активного центра, схожего с активным центром в семействе 2-цистеин пероксиредоксинов.


X



Watson et al. (2007)

ВіоН

Новая карбоксилэстераза. Поиск по шаблону ферментативного активного центра выявил каталитическую триаду



X



IsdG

Сравнение укладок и методы обратного шаблона указали на монооксигеназную активность

X


X


Adams et al. (2007)

ChuS

Три из четырех консервативных гистидинов оказались примыкающими к одной из двух больших расселин или смотрящими в неё, демонстрируя необычную координацию гема.


X




YgiN

Сходство укладки с белком ActVA-Orf6, принадлежащим семейству монооксигеназ. Обнаружение двух более ранних сообщений, предоставивших дополнительные аргументы в пользу этого сходства.

X





YjjX

Сходство укладки с нуклеотид-связывающими белками. Пристальное изучение активного центра выявило значительные сходства, что позволило предположить новую ИТФ/КТФ*-азную активность.

X

X




YhhW

Сходство укладки с многофункциональным семейством. Локальные сходства поверхности указали на глубокий заряженный карман рядом с металл-связывающим центром. Имеет значительное сходство с кверцитин 2,3-диоксигеназой.

X

X




z3393

Общее структурное сравнение и локальное сравнение молекулярной поверхности позволяет предположить гентизат 1,2-диоксигеназную активность.

X

X



* ИТФ - инозинтрифосфат, ІТР; КТФ - ксантозинтрифосфат, ХТР)

В 2003 Kim с сотр. опубликовали анализ восьми структур, часть из которых была получена в Берклиевском Центре по Структурной Геномике. Этот анализ позволил взглянуть на структуры с функциональной или эволюционной точки зрения и разделить их на пять категорий:

1. Удаленные гомологи. Здесь вывод о функции белка делается на основе структурного сходства, которое, однако, не вытекает из сравнения последовательностей. В качестве примера авторы приводят белок MJ0882, который сначала был отнесен к метилтрансферазам на основе сходства укладки, а затем это было экспериментально подтверждено (Huang et al. 2002).

2. Белки с неожиданно присутствующими лигандами. Здесь вывод о функции делается из случайно обнаруживающегося лиганда или кофактора. Первый пример, анализ белка MJ0577 из Methanococcus jannaschii, включил в себя обнаружение в структуре связанной АТФ, что позволило предположить АТФ-гидролитическую функцию. Более тщательный анализ АТФ-связывающего кармана в MJ0577 показал наличие нескольких мотивов, характерных для нуклеотид-связывающих белков, но их взаимное расположение отличалось от существующих аналогов, поэтому традиционными методами обнаружения мотивов их выявить не удалось. Последующая экспериментальная проверка подтвердила АТФ-гидролитическую функцию, но только в присутствии клеточного экстракта, что означает, что белок является молекулярным переключателем и требует для своего функционирования одного или нескольких белков-партнеров. Второй пример, анализ белка ТМ841 из Thermotoga maritime, показал, что этот белок принадлежит большому семейству DegV по классификации Pfam и группе белков COG1307, функция которых не известна. Получение структуры ТМ841 показало наличие связанной молекулы пальмитиновой кислоты, т.е. способность белка связывать жирные кислоты. Сравнение с другими членами семейства DegV и группы COG1307 выявило большую консервативность в области связывания карбоксильной группы кислоты и меньшую в области связывания хвоста, позволяя предположить, таким образом, что различные члены этих семейств могут селективно связывать жирные кислоты с различной длиной хвоста.

3. “Сумеречные белки”. Здесь ни последовательность, ни структура не позволяют сделать однозначный вывод о функции белка. В представленном примере структура белка MJ0226 имела новую укладку, но была слегка похожа на нуклеотид-связывающие белки (Hwang et al. 1999). Экспериментальный анализ позволил определить биохимическую функцию как новую нуклеотид-трифосфатазу. В совокупности с небольшим сходством с белком НАМ1 (Noskov et al. 1996) это позволило авторам предположить, что роль белка состоит в предотвращении мутаций посредством удаления нестандартных нуклеотид-трифосфатов. Это предсказание позже было подтверждено в эксперименте по комплементации (Stepchenkova et al. 2005).

4. Новая молекулярная функция при известной клеточной функции. Здесь общая функция белка известна, но биохимические детали механизма раскрываются при изучении его структуры. В первом цитированном примере, анализе белка MJ0285 из М. Jannaschii, белок был аннотирован как небольшой белок теплового шока, появляющийся при внутриклеточном стрессе. Структура показала, что 24 молекулы белка образуют полую сферу с восемью треугольными “окошками” и шестью квадратными (Kim et al. 1998). Исходя из этих данных был поставлен вопрос, захватываются ли частично денатурированные белки внутрь сферы или прикрепляются к ней снаружи? Результаты биохимических экспериментов дали веские аргументы в пользу того, что частично денатурированные клеточные белки в случае стресса прикреплены к сфере снаружи, что предохраняет их от агрегации и инактивации. Во втором примере анализируется белок MPN625, являющийся членом семейства OsmC. В это семейство входят довольно несхожие последовательности, но множественное выравнивание позволяет выявить два консервативных цистеина. Кристаллографическая структура MPN625 позволила увидеть, что два эти цистеина лежат в углублении потенциального активного центра, напоминающего активный центр в семействе 2-цистеин пероксиредоксинов, чья функция состоит в инактивации активных форм кислорода (Schroder et al. 2000). Таким образом, сравнение двух активных центров вместе с данными о клеточной функции позволило понять молекулярную функцию белков этого семейства и объяснить различие в специфичности к субстратам.

5. Белки, функция которых остется неизвестной. Здесь приводится два примера: белок Aq1575 из Aquifex aeolicus и белок MPN314 из Mycoplasma pneumonia, которые оба являются гипотетическими белками, принадлежащими доменам с неизвестной функцией по классификации Pfam. Данные о консервативности остатков позволяют предположить возможные активные центры для обоих белков, но изучение баз данных как мотивов, так и функций не смогло дать каких-либо ключей к пониманию молекулярной функции этих белков. Возможно самым широким анализом, выполненным к настоящему времени, стал анализ, выполненный Watson et al. (2007), которые оценивали эффективность сервера для предсказания функции белков по их структуре ProFunc, используя структуры, полученные в Центре по структурной геномике на Среднем Западе (Midwest Center for Structural Genomics, MCSG). В этой работе все 319 белков, полученных в MCSG на первой стадии проекта по структурной геномике PSI-1 (N1H/NIGMS Protein Structure Initiative), были классифицированы на те белки, функция которых известна, те белки, о функции которых можно сделать какие-либо предпололожения, и те белки, о функции которых ничего не известно. Дальнейшей оценки подвергались только белки с известной функцией, поскольку целью работы являлась оценка того, насколько успешно алгоритмы ProFunc смогут эту функцию предсказать. В итоге серверу было предложено 93 белка с известной структурой, а в ответ были получены и сохранены совпадения с наивысшими оценками, предсказанные каждым методом. Затем результаты были соотнесены с датами размещения каждой структуры, чтобы убедиться в том, что рассчитанные оценки действительно показывают, насколько успешным мог бы быть сервер, будь он использован для априорного предсказания функции. Наконец, наилучшие итоговые предсказания каждого из методов были сопоставлены с известной функцией каждого из белков и на основе этого было сделано заключение о правильности предсказания.

Результаты исследования показали, что из всех методов, являющихся компонентами сервера ProFunc, метод распознавания фолда и метод “обратного шаблона” оказываются самыми успешными, правильно предсказывая функцию приблизительно в 60% случаев. Подробное рассмотрение показало, что оба эти метода часто верно предсказывают функцию для одного и того же белка, но есть и примеры, где лишь один из методов оказывается успешным. Причина этого кроется в природе методов: в то время, как распознавание фолда нацелено на узнавание общего сходства в сравниваемых белках, метод “обратного шаблона” выполняет локальные сравнения. Одним из главных недостатков этого исследования стала его неспособность ответить на вопрос, что является более точным: предсказание функции белка по его структуре или по его последовательности? Однако это является общей проблемой, приемлемого решения которой в литературе к настоящему моменту не описано из-за внутренних трудностей, возникающих при аккуратном возврате к конкретной дате состояния баз данных последовательностей, равно как и построенных на их основе мотивов и профилей.

Кроме общего сравнения методов Уотсон с сотр (Watson et al. 2007) представили несколько специфических примеров предсказания функции, часть из которых была проверена. Примером успешного предсказания функции по структуре стал белок ВіоН из Escherichia coli (Sanishvili et al. 2003). Было известно, что этот белок принимает участие в синтезе биотина, но его биохимическая роль не была установлена. Анализ структуры с помощью ProFunc выявил высокозначимое соответствие (СКО 0,28 А) между шаблоном активного центра этого фермента и каталитической триадой липаз Ser-His-Asp. Сопоставление типов укладки с помощью DALI выявило структурное сходство белка ВіоН с множеством белков, имеющих различные ферментативные функции, хотя идентичность последовательностей этих белков оказалась низкой - 15-25%. Примерами наиболее полного соответствия стали бромопероксидаза (КФ 1.11.1.10), аминопептидаза (КФ 3.4.11.5), две эпоксидгидролазы (КФ 3.3.2.3), две галоалкандегалогеназы (КФ 3.8.1.5) и лигаза (КФ 4.2.1.39). Лишь тщательный анализ этих ферментов вручную и обзор литературы мог бы показать с такой же ясностью, что все эти ферменты имеют каталитическую триаду Ser-His-Asp в своих активных центрах. В то же время поиск по шаблону ферментативного активного центра позволил обнаружить наличие таких триад мгновенно. Экспериментальное изучение белка ВіоН показало, что он является новой карбоксилэстеразой, действующей на субстраты с короткой ацильной цепью (Sanishvili et al. 2003).

Другим примером, показывающим, как сведения о функции могут быть получены путем анализа структуры, является гипотетический белок (IsdG) из Staphylococcus aureus. Анализ последовательности с помощью ProFunc выявил множество функций, включая монооксигеназную, цистеинпептидазную, оксидоредуктазную, метилтрансферазную, эпимеразную, транспортную, потенциальную РНК-связывающую и другие. После того, как структура была проверена с помощью сервиса MSDfold/SSM, оказалось, что все наиболее подходящие типы укладки соответствуют гипотетическим белкам без функциональной аннотации, а остальные, менее подходящие типы, различным монооксигеназам. Не было выявлено никакого значительного соответствия ни с ферментами, ни с ДНК или лигандами, но сканирование по обратным шаблонам дало большое число соответствий. Опять же большая часть этих соответствий пришлась на белки с неустановленной функцией, но первым содержательным совпадением стала монооксигеназа из Streptomyces coelicolor (PDB код llq9). Таким образом, результаты как сравнения фолдов, так и методов “обратного шаблона” указывают на монооксигеназную функцию. Последующий экспериментальный анализ позволил охарактеризовать белок как гем-разрушающий фермент, структурно схожий с монооксигеназами (Wu et al. 2005). Это прекрасный пример того, как анализ структуры дал дополнительные свидетельства в пользу одного из многих равноценных предсказаний, полученных из анализа последовательности.

В более поздней работе Адамса с сотр. (Adams et al. 2007) обсуждается аннотация функции гипотетических белков на основе их структуры. В работе приводится пять примеров, когда несколько методов в сочетании с биохимическими анализами позволили описать функцию белка. Первый пример - это белок (ChuS) с новым типом укладки, для которого исследования оперона и нокаут гена позволили предположить, что белок участвует в захвате и утилизации гема. Структура была получена для апо-формы белка и, поскольку тип укладки оказался совершенно новым, первоначальное предсказание функции на основе структуры не принесло конкретных результатов, но последующий биохимический анализ позволил предположить гемоксигеназную функцию. Множественное выравнивание последовательности ChuS с его гомологами выявило четыре консервативных гистидина, три из которых со структурной точки зрения примыкали или были направлены в одну из двух широких расселин на противоположных сторонах белковой глобулы. Это наблюдение подтолкнуло дальнейшие структурные исследования по совместной кристаллизации белка ChuS с гемом и мутагенезу консервативных гистидинов, в результате чего было обнаружено, что координация гема происходит здесь иначе, чем в других расщепляющих гем ферментах, и что ChuS является первой гемоксигеназой идентифицированной в Е. coli.

Во втором примере рассматривается случай белка YgiN. С помощью веб-сервера MSDfold (SSM) его структура была сопоставлена с типичными структурами по классификации SCOP и показала сходство укладки с белком ActVA-Orf6 - монооксигеназой из S. coelicolor.

Представители семейства этой монооксигеназы участвуют в синтезе больших поликетидных соединений при биосинтезе антибиотиков в Грам-положительных бактериях. Белок ActVA-Orf6 действует как фермент на поздних стадиях процесса, подстраивающего противогрибковое соединение - дигидрокалафунгин - для придания ему специфичной активности (Sciara et al. 2003). Поскольку для Е. coli продукция такого соединения не была описана, то ожидалось, что природный субстрат для YgiN будет отличаться. Первые попытки биохимически охарактеризовать фермент оставались бесплодными до тех пор, пока в литературе не были обнаружены два более ранних сообщения, на самом деле относящихся к белку YgiN. Эти дополнительные экспериментальные данные, а также уже использо- вавшайся структурная информация о различных субстратах, позволила авторам сделать предположение об участии белка YgiN в метаболизме менадиона. Дальнейшая экспериментальная работа с этим белком позволила закристаллизовать его как в апо-форме, так и с менадионом и с флавина-дениндинуклеотидом (Adams and Jia 2006).

Третим примером является белок YjjX, для которого предположения о функции нельзя сделать ни на основе его расположения в геноме, ни на основе мотивов в последовательности. Структура этого белка имеет укладку, сходную с рядом нуклеотид-связывающих белков (включая ранее рассмотренный белок MJ0226 из работы Kim et al. 2003). Детальное рассмотрение активных центров YjjX и обнаруженных структурных совпадений позволило выявить значительное сходство в ряде консервативных и полуконсервативных остатков. Дальнейший биохимический анализ дал основания классифицировать белок YjjX как новую инозинтрифосфатазу/ксантозин-трифосфатазу, которая действует в Е. coli как служебный фермент во время окислительного стресса для предотвращения накопления неканонических оснований и их последующего встраивания в нуклеиновые кислоты.

Четвертый пример отличается от предыдущих тем, что включает аннотацию белка внутри надсемейства. В этом примере была определена структура белка YhhW (ранее аннотированного как принадлежащего надсемейству купинов) и, как и ожидалось, в ней был обнаружен белковый остов, аналогичный имеющемуся у известных купинов, однако анализ последовательности давал сильные аргументы в пользу близкого родства с пиринами. Большое разнообразие функций в надсемействе купинов не позволяет составлять аннотации на основе общего структурного сходства, поэтому авторы обратились к локальным сходствам на поверхности белков. Обнаружение глубокого заряженного кармана рядом с металл-связывающим сайтом в YhhW и одним из его гомологов h-пирином позволило предположить, что он является активным центром. Рассмотрение этого кармана выявило значительное сходство с карманом в кверцитин-2,3-диоксигеназе, которое было дополнительно подтверждено успешным докингом кверцитина в гомологи пирина. Кверцитин-2,3-диоксигеназная активность была подтверждена затем и биохимическими тестами и стала первой ферментативной функцией, определенной для белков пиринового семейства. Этот пример иллюстрирует также проблемы, возникающие при работе с большими белковыми надсемействами. Часто общее сходство, такое, как сходство укладки, оказывается недостаточным для определения функции и необходим более детальный анализ.

Последний пример из работы Адамса касается другого представителя надсемейства купинов - продукта гена z3393 из Е. coli. Его последовательность показывает, что он ближе к гентизат-1,2-диоксигеназе, чем к остальным купинам. Сравнение общей структуры и локальных свойств молекулярной поверхности также выступает в пользу гентизат-1,2-диоксигеназной активности, и авторы надеятся, что полученная ими структура z3393 поможет будущим исследованиям фермента с механистической точки зрения и последующему пониманию того, как гентизат-оперон может быть связан с патогенными штаммами Е. coli.