Структура и функционирование белков. Применение методов биоинформатики - Джон Ригден 2014

Распознавание фолда
Точность выравнивания, качество моделей и статистическая значимость

В распознавании фолда можно выделить две проблемы: 1) выявление подходящего шаблона и 2) выравнивание с этим шаблоном. Очевидно, что любой полезный метод предсказания структуры белков на основе моделирования по шаблону должен как минимум обладать способностью выявить подходящие шаблоны. Тем не менее, качество получаемой модели не зависит от качества определения шаблона и целиком определяется качеством выравнивания. Ошибки в выравнивании, несмотря на использование шаблона высокого качества, будут в любом случае приводить к построению модели низкого качества.

До настоящего момента мы полагали, что система, способная точно определить шаблоны, будет также создавать точные выравнивания. Исключения составляют некоторые классификаторы на основе метода опорных векторов, которые обсуждаются в разделе 3.3. Несмотря на то, что упомянутое допущение, как правило, справедливо, существует множество случаев, когда оно не выполняется. Во-первых, в большинстве описанных систем шаблоны по сути ранжируются с использованием некоторой оценки выравнивания. Иными словами, в таких методах всегда существует модель с самой высокой оценкой. Однако тот факт, что данное выравнивание оценивается выше других, не означает, что оно не содержит ошибок. Во-вторых, в большинстве из этих методов предпринимается попытка определить признаки чрезвычайно отдаленной гомологии. В этом качестве методы могут просто определять некоторые консервативные мотивы, или “пятна” сходства, прерываемые длинные участками последовательности, для которых сходство установить нельзя. В итоге создается выравнивание, которое по существу представляет собой “шум”. Это, в свою очередь, приводит к большим погрешностям в создаваемой пространственной модели.

По этим причинам многие группы исследуют методы повышения точности выравнивания и предсказания качества получаемых моделей. Существует три способа, с помощью которых можно решить проблему точности выравнивания: 1) непосредственное усовершенствование алгоритмов создания выравниваний; 2) создание большого количества выравниваний и разработка системы отбора лучшего варианта; 3) построение пространственных моделей на основе множества большого количества выравниваний и оценка полученных моделей.