Структура и функционирование белков. Применение методов биоинформатики - Джон Ригден 2014

Предсказание функции белков на основе их теоретических моделей
Точность и добавленная ценность основанных на моделях предсказаний
Реализация

Знание добавленной ценности конкретного свойства структуры или поверхности моделей ставит вопрос, будут ли они полезными при предсказании функции. В 1998 Фетроу и Сколник предложили многошаговую процедуру, которая позволяет идентифицировать функциональные сайты белков в моделях низкого и среднего разрешения (Fetrow and Skolnick 1998). Основываясь на геометрии, идентичности остатков, расстоянии между атомами Са и конформации, остатки активного центра стали трехмерным дескриптором, названным нечеткой функциональной формой (англ. Fuzzy Functional Form, FFF). С помощью таких форм были проанализирован набор пространственных моделей с целью отобрать те из них, которые содержат сходные пространственные мотивы. Применимость метода была подтверждена идентификацией новых членов семейства дисульфидных глутаредоксин/тиоредоксин белков в геномах дрожжей (Fetrow and Skolnick 1998) и Е. coli (Fetrow et al. 1998), функции которых не могли быть определены ранее на основе сравнения последовательностей. Большим достижением метода FFF и ему аналогичных стало то, что они позволили отделить пары белков, имеющие сходные активные центры, от тех, которые могут иметь сходные укладки, но необязательно сходные центры.

Дальнейшим развитием методики FFF стал метод построения профиля активного центра (Cammer et al. 2003), который был успешно объединен с экспериментальными методиками для выявления новых сериновых гидролаз в дрожжах (Baxter et al. 2004). Особенностью этого метода стало то, что упор был сделан не на остатки, консервативные во всем семействе, а на ключевые функциональные остатки, которые были специально выявлены среди всех белков с заданной функцией безотносительно к сходству их последовательностей. Таким образом, метод может применяться для идентификации и аннотации различных функциональных центров, включая каталитические центры, регуляторные центры и сайты связывания кофакторов.

Стоит упомянуть также и гибридный подход, совмещающий анализ поверхности белка с эволюционными методами, который был предложен Павловски с сотр. (Pawłowski and Godzik 2001). Они создавали карту поверхности белковой молекулы нанесением распределения различных свойств (таких, как заряд или гидрофобность) на сферу, аппроксимирующую поверхность белка. Этим способом можно сравнить белковые молекулы целиком и сделать вывод об их глобальном функциональном сходстве, например, согласно какой-либо численной мере сходства между их картами. Было показано, что сравнение таких карт поверхности позволяет улучшить предсказание функции белка по сравнению с общими методами анализа последовательности и способно воспроизводить известные примеры варьирования функции с разнородной группе белков, включая выявление неожиданных наборов общих функциональных свойств для казалось бы удаленных паралогов. Было показано, что этот метод, теперь имеющий вебинтерфейс (Sasin et al. 2007), является достаточно устойчивым и допускает использование моделей по гомологии вместо экспериментальных структур.

Другие исследования были посвящены вопросу, могут ли более специфичные предсказания функций быть выполнены столь же точно для моделей, как и для экспериментальных структур. Результаты метода MetSite, который объединяет информацию о последовательности и структуре, для металл-связывающих сайтов оказались воодушевляющими (Sodhi et al. 2004). Хотя производительность при анализе моделей была ниже, чем при анализе экспериментальных структур, правильные предсказания металл-связывающих сайтов были выполнены примерно для половины достоверных моделей, полученных с помощью mGenTHREADER. Примечательно, что эти модели содержали лишь атомы основной цепи, поэтому ошибки в расположении боковых цепей никак не сказывались на производительности. Аналогичный метод предсказания способности к связыванию ДНК также был разработан как для экспериментальных структур, так и для моделей, и использовал информацию о последовательности белка, пространственную асимметрию в распределении некоторых остатков и дипольных моментов (Szilagyi and Skolnick 2006). Этот метод также расчитан на структуры, содержащие только Ca-атомы. При анализе моделей с СКО менее 6 А от природной структуры производительность этого метода была лишь чуть ниже, чем при анализе экспериментальных структур. Таким образом, метод можно использовать для моделей любого происхождения, включая модели ab initio и модели, полученные методами распознавания фолда, для которых, правда, следует ожидать более низкой точности.

Одно из важных практических применений моделей белков состоит в виртуальном скрининге баз данных низкомолекулярных соединений в поисках подходящих ингибиторов для детальной разработки и создания соединений-лидеров (Jacobson and Sali 2004). Поскольку наша книга посвящена функциям белков, то такие применения в этой главе обсуждаться не будут. Тем не менее, докинг небольших молекул, точно такой же, как и в фармацевтическом сценарии, начинает использоваться для предсказания функций белка. Этот способ, как обсуждалось в Главе 8, подразумевает, что соединения, наилучшим образом подошедшие по сравнению с другими кандидатами, предположительно и являются истинными лигандами (Hermann et al. 2007; Song et al. 2007). В связи с этим здесь следует упомянуть работы по изучению пригодности белковых моделей для низкомолекулярного докинга по сравнению с экспериментальными структурами. Вот две работы, в каждой из которых делается вывод о пригодности моделей, но используются разные критерии сравнения с экспериментальными структурами. Макговерн и Суаше (McGovern and Shoichet 2003) сравнивали обогащение известных лигандов по сравнению с пустышками в решениях докинга для голо- и апо-форм девяти ферментов и их моделей. Шаблоны, которые были выбраны для моделирования, имели общую идентичность последовательности с мишенями на уровне 34-87% и до 45-100% в активном центре. Наилучшее обогащение было достигнуто для восьми шло-форм, двух апо-форм и трех моделей, подтверждая, таким образом, преимущество экспериментальных структур. Тем не менее, почти все модели показали результат, лучший, чем случайная выборка активных соединений. Модели, построенные по более близким шаблонам, в целом оказались более эффективными, но небольшие конформационные искажения в активном центре могли испортить эту картину в отдельных случаях. Позднее Оширо с сотр. (Oshiro et al. 2004) сравнили обогащение заведомо активных соединений в результатах докинга для нескольких экспериментальных структур и моделей CDK2 и фактора Vila. Выбранные для создания моделей шаблоны имели идентичность последовательностей в окрестности активного центра на уровне 37-77%. Примечательно, что эффективность моделей оказалась сравнимой с эффективностью экспериментальных структур в тех случаях, когда идентичность была выше 50%, и существенно снижалась в противном случае. Суммируя результаты двух этих работ, можно сделать вывод, что использование моделей для проведения докинга оправдано только в случае отсутствия экспериментальной структуры. Будет заманчивым оценить эффективность моделей в предсказаниях функции непосредственно по результатам докинга, подобных тем, которые были описаны выше.