Структура и функционирование белков. Применение методов биоинформатики - Джон Ригден 2014

Пространственные мотивы
Специфичные методы
Обнаружение мотива

8.3.2.1. Литература

Пожалуй, самый надежный, но наименее автоматизируемый подход к обнаружению мотивов состоит в изучении опубликованной литературы в поиске экспериментальных данных о том, какие остатки важны для функционирования белка. В случае структурных мотивов акцент делается на остатки, которые обеспечивают специфическое связывание или каталитическую способность, а не поддержание стабильности структуры, хотя разделить эти аспекты функционирования не всегда возможно.

Атлас каталитических центров (Catalytic Site Atlas, CSА) (Таблица 8.1) содержит несколько сотен семейств ферментов, для каждого из которых приводится структура с аннотациями остатков каталитического центра, полученными из литературы, и набор родственных последовательностей (Porter et al. 2004). Представительные структурные шаблоны (структурные мотивы), основанные на функциональных атомах боковых цепей или на а- и ß-атомах углерода, доступны для ряда семейств (Torrance et al. 2005). Можно выполнить поиск этих мотивов в интересующей структуре или скачать БД мотивов с сайта Атласа (Таблица 8.1). Поиск осуществляется с помощью программы JESS (Barker and Thornton 2003); допускается соответствие между химически схожими типами остатков, такими как аспартат и глутамат. Статистическая значимость оценивается по формуле, которая включает число остатков в мотиве, число точек на один остаток, распространенность остатка и параметры, эмпирически подобранные при рассмотрении распределений СКО как экспонент от степенных функций (Stark et al. 2003). Данная формула оценивает фоновые распределения СКО априори, поэтому нет необходимости сравнивать каждый мотив со случайным или эталонным набором структур.

8.3.2.2. Ненаправленный поиск

Ненаправленный поиск означает обнаружение общих паттернов в случайном наборе структур, где “случайный” означает, что выбор не был основан на наличии каких-либо общих черт или функций. На практике оказывается, что есть слишком много возможных комбинаций аминокислотных остатков в структурах, чтобы можно было рассмотреть их все, поэтому пространство поиска должно быть ограничено.

Рассел провел всевозможные попарные сравнения структур в представительном наборе структур (Russell 1998). Пространство поиска было ограничено условиями на расстояния и исключением из рассмотрения неполярных остатков, цистеинов, связанных дисульфидными мостиками, и остатков, недостаточно консервативных в выравниваниях последовательностей. Для выявления случаев конвергентной эволюции не учитывались совпадения между белками со схожими фолдами. В результате были найдены несколько металл-содержащих сайтов связывания и паттернов активных центров, включая каталитическую триаду.

Программа TRILOGY также не учитывает остатки, которые недостаточно консервативны в выравниваниях последовательностей (Bradley et al. 2002). Необходимо, чтобы паттерны присутствовали как минимум в трех разных надсемействах по классификации SCOR выявляются тройки потенциально совместимых остатков, включая консервативные замены, и объединяются в более широкие паттерны. Однако эта программа предназначена для определения паттернов в последовательности и структуре одновременно, а не просто структурных мотивов; паттерны остатков должны быть сходными в пространстве последовательностей также как в трехмерном пространстве.

Олдфилд проанализировал представительный набор структур посредством исключения небольших неполярных остатков, представления остальных остатков в виде одиночных точек, объединения троек остатков в группы похожих типов и сортировки расстояний между остатками в этих группах по интервалам шириной 0,5 Å (Oldfield 2002). В получившейся трехмерной гистограмме (в каждой тройке есть три расстояния между остатками) интервалы с высокой заселенностью представляют собой распространенные паттерны таких троек остатков. По мере возможности такие паттерны объединяли между собой для включения в них более чем трех остатков. С помощью такой процедуры были выявлено несколько известных структурных мотивов, таких как сайты связывания и каталитические триады. В рассматриваемой работе описаны также программы для поиска мотивов в структурах белков (Oldfield 2002).

Другое исследование включало в себя всевозможные парные сравнения вероятных функциональных сайтов, образованных такими остатками внутренней поверхности углублений, которые либо расположены рядом с лигандом, либо консервативны в выравнивании последовательностей (Ausiello et al. 2007). Несмотря на направленность на выявление сайтов, потенциально важных для функционирования белка, этот поиск был все же ненаправленным, так как структуры не были сгруппированы по какими-либо структурным или функциональным критериями. Для определения случаев конвергентой эволюции авторы сосредоточились на тех случаях, в которых совпавшие остатки имели различный порядок в соответствующих последовательностях. Были обнаружены как известные примеры таких перестановок, так и новые примеры. Совпадения нескольких остатков были найдены с помощью программы Query3D (Ausiello et al. 2005а), которая выполняет полный поиск в глубину, используя двухточечное представление остатков - а-атом углерода и геометрический центр боковой цепи. Программа Query3D определяет совпадения до десяти пар остатков, где соответствующие остатки принадлежат к сходным типам и мотивы совмещаются со значением СКО ниже порогового.

8.3.2.3. Индивидуальные структуры

Некоторые базы данных структурных мотивов были созданы с использованием только информации о каждой структуре отдельно. Например, мотивы сайтов связывания могут быть составлены путем рассмотрения остатков, расположенных на определенном расстоянии от лигандов, нуклеиновых кислот или даже цепей других белков. Часто эти исследования сосредотачиваются на поиске методов, а не на создании баз данных, а некоторые из них также представляют результаты исследований других типов, в частности, поиск мотивов, описанных в литературе.

Сервер PINTS (Patterns in Non-homologous Tertiary Structures, шаблоны в негомологичных третичных структурах) (Stark and Russell 2003) (Таблица 8.1) сравнивает рассматриваемую структуру с базой данных структурных мотивов, представляющих собой либо сайты связывания, определяемые как остатки, расположенные на расстоянии 3 Å от лиганда, либо мотивы, аннотированные в строке SITE структурного файла белка из PDB. С другой стороны, можно сравнить мотивы, определяемые пользователем, с базами данных белков (например, представленными на различных уровнях по классификации SCOP), или две конкретные структуры между собой. Как и в более ранней работе Рассела по ненаправленному поиску, PINTS производит поиск в глубину, не рассматривает неполярные остатки, использует атомы боковых цепей и допускает совпадение некоторых схожих типов атомов. Статистическая значимость оценивается по разработанному авторами методу (Stark et al. 2003), вышеописанному для CSA. На веб-сайте PINTS также доступны результаты еженедельного сравнения структур, только что депонированных в PDB, с базами данных мотивов (Stark et al. 2004) (Таблица 8.1).

В дополнение к мотивам, записанным в строке SITE, база данных PDBSite (Ivanisenko et al. 2005) (Таблица 8.1) включает сайты взаимодействия с другими белками, РНК и ДНК. В сайт взаимодействия включены остатки, имеющие как минимум три атома, расположенных на расстоянии в пределах 5 А от другой цепи. Все сайты в базе данных или их выборку можно сравнить с рассматриваемой структурой с помощью программы PDBSiteScan (Ivanisenko и др. 2004) (Таблица 8.1), которая использует данные о типах остатков, положении атомов основной цепи и задаваемые пользователем пороговые значения. Результат совмещения рассматриваемой структуры и найденных структурных мотивов может быть загружен в PDB формате.

Программа RIGOR по существу не отличается от программы SPASM, за тем лишь исключением, что выполняет обратный процесс: сравнивает структуру с базой данных структурных мотивов, а не мотив с базами данных структур (Kleywegt 1999). Исполняемые файлы программы RIGOR и связанные с ней базы данных мотивов доступны для скачивания на вебсайте Uppsala Software Factory (Таблица 8.2). База данных включает сайты вокруг связанных лигандов, фрагменты, составленные из следующих друг за другом одинаковых остатков, и некоторые другие группы остатков. Каждый сайт связывания лиганда включен дважды - с маркировкой типа остатков и без таковой. Совпадение с немаркированным мотивом может означать, что такой мотив может быть включен в рассматриваемую структуру методами белковой инженерии.

Обнаружение структурных мотивов занимает центральное место в предсказаниях функции, которые выполняются двумя серверами, объединяющими результаты, полученные с использованием сторонних данных. Эти серверы детально обсуждаются в Главе 11, здесь же вкратце упомянуты для полноты картины. Сервер ProKnow (Pal and Eisenberg 2005) (Таблица 8.1) выполняет для рассматриваемой структуры множественный поиск на основе последовательностей или структур, включая поиск структурных мотивов единичных структур с помощью программы RIGOR. Каждая база данных, по которой сервер ProKnow выполняет поиск, содержит аннотации по системе ГО, и конечным результатом является список возможных аннотаций для рассматриваемой структуры и их байесовские оценки (оценки вероятности). Однако многие из термов системы ГО носят достаточно общий характер. Второй интегральный метод, сервер ProFunc (Laskowski et al. 2005b) (Таблица 8.1) также выполняет множественный поиск на основе последовательностей и структур.

Программа JESS (Barker and Thornton 2003) используется для поиска шаблонов активных центров ферментов в базе данных CSA и поиска троек остатков, связывающих лиганды или нуклеиновые кислоты, в невырожденной выборке из базы данных PDB. Для более полного охвата пространства структур, также осуществляется поиск “обратного шаблона”, когда рассматриваемая структура разбивается на структурные мотивы, которые сравниваются с представительным набором исходных структур базы данных PDB (Laskowski et al. 2005а). Хиты программы JESS затем оцениваются расширением области сравнения остатков до сферы радиусом 10 Å с центром в найденном мотиве. Совпадения сортируются с помощью оценочной функции, которая положительно оценивает наложение пар остатков схожих типов со схожим расположением в последовательности и порядком следования. Таким образом, поиск мотива сделан более специфичным, но менее локальным, и, следовательно, хуже подходящим для определения примеров конвергентной эволюции. Выполняется поиск каждого мотива в выборке структур из базы данных PDB, и математические ожидания вычисляются из предположения о распределении экстремальных значений оценочных функций (Laskowski et al. 2005а).

Сервер SuMo (Jambon et al. 2005) (Таблица 8.1) сравнивает рассматриваемую структуру либо с базой данных “полных структур из PDB” (все структуры, но повторно встречающиеся цепи удалены), либо только с лиганд-связывающими сайтами из той же базы данных. Рассматриваемой структурой может быть либо вся структура целиком, либо её цепь, либо только её лиганд-связывающий сайт. Сервер представляет структуры как графы треугольников химических групп, среди которых различные доноры и акцепторы водородных связей, ароматические кольца и так далее (Jambon et al. 2003). При сравнении пары структур в первую очередь выявляются пары схожих треугольников, а затем согласующиеся наборы пар, или патчи. Патчи затем уточняются удалением пар химических групп, которые относительно плохо накладываются либо значительно отличаются по степени заглубленности.

Веб-сервер программы Protemot (Chang et al. 2006) (Таблица 8.1) сравнивает структуру с базой данных сайтов связывания мотивов, определяемых как остатки, в которых по крайней мере один атом находится в пределах 4,5 Å от лиганда. Из базы данных были исключены вырожденные цепи с идентичностью последовательностей 60% и сайты связывания биологически малоинтересны лигандов. Возможно выполнение поиска либо всех мотивов, либо тех, которые встречаются в структуре ферментов, либо тех, встречаются в структуре определенных классов ферментов. При выполнении поиска рассматриваемая структура редуцируется до альфа-атомов углерода с промаркированным типом остатка, находящихся возле углубления сайта связывания. Эта информация хэшируется и сравнивается с хэшами элементов базы данных. Для сопоставления остатков пользователь устанавливает пороговое значение сходства между ними. Из этих грубых совпадений сто лучших затем уточняются для учета большего числа остатков, и в итоге остаются только те совпадения, у которых наблюдается одинаковая направленность углублений и значение СКО лежит в пределах 1,5 Å. Эти совпадения изображаются графически, однако списка сопоставленных остатков не приводится, выдается лишь информация о PDB кодах хитов.

Веб-сервер pdbFun (Ausiello et al. 2005b) (Таблица 8.1) позволяет сравнивать наборы пробных и целевых остатков с помощью программы Query3D (Ausiello et al. 2005a) (описана в предыдущем разделе). Остатки могут быть либо указаны вручную по отдельности, либо могут быть использованы их заранее заданные наборы или булевские комбинации таких наборов. Один из типов заранее заданных наборов представляет собой сайт связывания, т.е. остатки, находящиеся в пределах 3,5 Å от лиганда. Также возможно использовать активные центры базы данных CATRES, определенные из литературных данных (Bartlett et al. 2002). Пробный набор может содержать остатки только одной цепи, тогда как целевой набор может содержать вплоть до всей базы pdbFun (-50000 цепей). Процесс указания наборов пробных и целевых остатков очень удобен для применения, но может и ввести в заблуждение. Для обеспечения быстрого поиска, пороговые значения СКО задаются очень жесткими и не могут быть скорректированы. Однако программа Query3D может быть получена от разработчиков для локального использования (на Unix-платформах), и этом случае пользователь может задать желаемые пороговые значения.

8.3.2.4. Положительные примеры

Локальные структурные особенности, общие для всех белков, выполняющих определенную функцию или входящие в состав конкретного структурного класса, могут трактоваться как структурные мотивы. При таком подходе используются разнообразные положительные примеры для определения того, какие атомы или остатки могут быть включены в мотив, хотя координаты мотива могут быть взяты из единичной структуры, а не из усредненных данных. В процессе получения мотивов отрицательные примеры не рассматриваются, хотя они часто используются при оценке этих мотивов.

Некоторые лиганд-ориентированные исследования используют жесткую часть лиганда для совмещения сайтов связывания. Например, для сравнения различных сайтов связывания аденинмононуклеотида было использовано их совмещение по аденину. Одно из исследований включало всевозможные сравнения доступного на тот момент 121 аденинмононуклеотидного комплекса (38 комплексов после отсева повторов) (Kobayashi and Go 1997). Для каждой пары структур было оценено число соответствующих пар атомов (на основе элементов и соседнего расположения) возле аденина и степень их совмещения. Было обнаружено высокое сходство между структурами с различной укладкой: они имели общий структурный мотив из атомов сегментов основной цепи длиной по четыре остатка и трех остатков, разнесенных в последовательности (Kobayashi and Go 1997).

Аналогичный подход был использован при создании консенсусных мотивов сайтов связывания (Nebel et al. 2007). Так как к моменту этого исследования стало доступно гораздо больше структур, то комплексы с аде- нинмоно-, -ди- и -трифосфатами были рассмотрены отдельно. Сходство между парой структур оценивали как долю таких атомов в окружении лиганда, которые присутствуют в обеих структурах. Структуры были сгруппированы согласно этим значениям сходства, а неподходящие структуры были исключены из рассмотрения. В пределах каждой группы были сохранены только общие во всех парных сравнениях атомы, и их расположение было усреднено для создания структурного мотива. Наконец, очень похожие мотивы были объединены. Результирующие 13 мотивов, полученные на основе анализа от 3 до 20 структур, содержат от 6 до 71 атома и в большинстве случаев соответствуют некоторым известным классификациям структур или функций. Координаты мотивов доступны в качестве дополнительной информации к публикации (Nebel et al. 2007).

С помощью программы Nestor3D (Nebel 2006) были разработаны консенсусные шаблоны для порфирин-связывающих сайтов. Шаблоны, созданные с помощью этой программы, могут включать атомы, функциональные группы в виде псевдоатомы и “растворитель” (фактически он представляет собой точки на решетке для представления объема углубления). Программа Nestor3D также включает графический интерфейс и доступна для скачивания (Таблица 8.2). Пользователи должны указать список файлов PDB и подходящие для совмещения структур атомы; некоторые другие параметры могут быть настроены дополнительно.

Всевозможные сравнения 3737 фосфатных окружений из белок-нуклеотидных комплексов позволили классифицировать их на 476 компактных кластеров и 10 более широких групп (Brakoulias and Jackson 2004). Полученное разделение на кластеры в целом согласуется с классификациями, в основе которых лежат глобальная структура или функция белка. Для выявления соответствующих наборов атомов использовался эффективный метод обнаружения клик, поэтому не было необходимости использовать атомы лиганда для совмещения структур.

Программа SOIPPA (англ. Sequence Order-Independent Profile-Profile Alignment, Выравнивание профилей, независящее от порядка следования) находит общие паттерны локальной структуры при парных сравнениях (Xie and Bourne 2008). Структура белка редуцируется до его а-атомов углерода, каждому из которых ставится в соответствие значение геометрического потенциала и профиль возможных замен, полученный из автоматического выравнивания последовательностей. Геометрический потенциал а-атома углерода рассчитывается исходя из расстояния от него до поверхности белка и расположения соседних а-атомов углерода (Xie and Bourne 2007). Возможное совпадение между двумя структурами начинается с пары точек со схожими геометрическими потенциалами; к ним могут быть добавлены соседние пары, если они согласуются по расстояниям и углам с нормалью к поверхности.

Каждой паре а-атомов углерода присваивается её вес исходя из схожести их профилей замен, и затем находится подграф с максимальным общим весом. Оценочная функция выравнивания после совмещения атомов представляет собой сумму по всем парам, включающую вес пары, степень совпадения атомов пары в пространстве и угол между нормалями к поверхности. Статистическая значимость оценивается с помощью непараметрической модели распределения значений оценочной функции, когда паттерн сравнивается с представительным набором структур. Программа SOIPPA использовалась для сравнения разнообразных аденин-связывающих структур и для поиска репрезентативного набора структур для совмещения с известными функциональными сайтами; программа была способна выравнивать сайты связывания и выявлять локальные сходства лучше, чем это позволяли делать глобальные сравнения последовательностей или структур. Эта работа была в большей степени ориентирована на определение взаимосвязей, чем на обнаружение мотива.

Для определения функционально важных атомов в структурах, имеющих общую функцию, но эволюционно не связанных между собой или находящихся в отдаленном родстве, был предложен метод общих структурных клик (англ. Common Structural Cliques method) (Milik et al. 2003). Каждый белок сводится к графу, который включает в себя только репрезентативные атомы каждой боковой цепи. Затем для определения общих структурных клик, т.е. наборов атомов с эквивалентными типами и межатомными расстояними в обоих структурах, извлекаются и сравниваются между собой наборы из четырех атомов. Такие клики объединяются в более крупные наборы соответствующих друг другу атомов.

Примечательно, что получающиеся структурные мотивы могут иметь различный вес, даже равный нулю, для различных межатомных расстояний, что позволяет говорить о совпадении даже тогда, когда определенные расстояния значительно варьируются из-за конформационной подвижности. Например, мотив может включать атомы, расположенные в одном из шарнирно соединенных доменов. Малый или нулевой вес междоменных расстояний позволяет выявить мотив в структурах с различными конформациями шарнира, тогда как веса внутридоменных расстояний могут сохраняться высокими для определения точных геометрических связей в пределах каждого домена. Ограничением этого метода является невозможность автоматического сочетания результатов, полученных из попарных сравнений.

Программа DRESPAT (англ. Detection of REcurring Sidechain PATtems, обнаружение повторяющихся паттернов боковых цепей) извлекает общий мотив из набора структур, являющихся положительными примерами (Wangikar et al. 2003). Каждый белок сводится к графу из функциональных атомов (по одному на остаток), исключая остатки с неполярными боковыми цепями и цистеины, связанные дисульфидными мостиками. Затем выделяются паттерны из трех или более остатков и сравниваются с паттернами других структур, состоящими из остатков того же типа, при этом в дополнение к функциональным атомам учитываются а- и ß-атомы углерода, и не рассматриваются те совпадения, у которых отклонения в расстояниях между точками и/или значения СКО больше, чем заданные пороговые значения. Другим настраиваемым параметром является размер паттерна (по умолчанию от трех до шести остатков) и число входящих структур, которые должны содержать этот паттерн.

На основе встречаемости паттернов в случайно выбранном наборе структур были получены эмпирические соотношения для расчета статистической значимости обнаруженных паттернов, исходя из их размера, общего числа структур и числа структур, которые должны содержать этот участок. Результаты были представлены для невырожденных наборов из 17 надсемейств по классификации SCOP. Было обнаружено, что мотивы, состоящие как минимум из четырех остатков и полученные из наборов, содержащих 5 и более структур, обычно соответствуют функциональным сайтам. При рассмотрении только попарных сравнений эволюционно родственных структур было получено слишком много дополнительных паттернов. Программу DRESPAT можно получить от ее разработчиков в виде кода на C++ (Wangikar et al. 2003).

Сервер fiinClust (Ausiello et al. 2008) (Таблица 8.1) определяет структурные мотивы, общие для различных входных структур, которых может быть до 20. Структуры в дальнейшем отбираются по степени идентичности последовательностей и затем попарно сравниваются с помощью программы Query3D (Ausiello et al. 2005а). Программа Query3D использует представление остатка в виде двух точек: альфа-углерод и геометрический центр боковой цепи. Кроме максимальной идентичности последовательностей, пользователь может указать, должны ли пороговые значения для СКО и близости боковых цепей быть низкими, средними или высокими; должны ли быть исключены из рассмотрения гидрофобные или заглубленные остатки; и можно ли разрешить сопоставление остатков сходных типов, а не только идентичных. Сервер сообщает о мотивах из трех или более остатков, обнаруженных в трех или более входных структурах.

Сервер PAR-3D (англ. Protein Active site Residues using 3-Dimensional structural motifs, остатки активного центра белка, выявленные с помощью структурных мотивов) (Goyal et al. 2007) (Таблица 8.1) сравнивает загруженную структуру с мотивами шести классов протеаз, десяти ферментов гликолитического пути и металл-содержащих сайтов, состоящих их 3 или 4 остатков (Goyal and Mande 2008). Мотивы, каждый из которых был получен из обучающего набора структур, представлены в виде допустимых интервалов межатомных расстояний или других геометрических скаляров, а не как пространственные координаты. Значения чувствительности и специфичности для мотивов доступны на веб-сайте, и сама программа (Perl-сценарии и связанные с ними файлы данных) также может быть загружена с этого сайта.

8.3.2.5. Положительные и отрицательные примеры

Основное различие между подходом с “положительными и отрицательными примерами” и подходом с “положительными примерами” состоит в том, что в процессе обнаружения мотивов первый подход в явном виде рассматривает структуры, не принадлежащие интересующему классу. Другими словами, создание мотива и оценка его специфичности взаимосвязаны.

Отсеивание по геометрическим параметрам уточняет либо существующий мотив, либо список потенциально важных остатков, основанный на их геометрической уникальности (Chen et al. 2007а). Распределения СКО для кандидатов в мотивы (подгрупп из входного списка), получаются сравнением их с репрезентативной выборкой структур. Отсеивание по геометрическим параметрам не требует разделения на положительные и отрицательные примеры; вместо этого предполагается, что хвост кривой распределения с низким СКО отображает истинно положительные примеры, а остальная часть - ложноположительные примеры. Среди мотивов с определенным числом остатков выбирается обладающий самым высоким значение медианы СКО, и он рассматривается как наиболее геометрически уникальный, поскольку он обеспечивает лучшее разделение между основной частью распределения и хвостом с низким СКО. Главное ограничение такого подхода состоит в том, что “правильные” остатки должны быть включены в исходный мотив.

Рассматривая положительные и отрицательные примеры структур, алгоритм GASPS (англ. Genetic Algorithm Search for Patterns in Structures, генетический алгоритм поиска паттернов в структурах) находит паттерны остатков, которые позволяют лучше всего разделить эти две группы (Polacco and Babbitt 2006). При этом предварительный список остатков не требуется, и от метода не зависит, как определены группы с положительными и отрицательными примерами. Основной инструмент поиска представляет собой программу SPASM (Kleywegt 1999), использующей представление остатков в виде альфа-углеродов и геометрических центров боковых цепей и допускающей совмещение остатков только одинакового типа. Для ограничения пространства поиска, программа GASPS рассматривает только 100 наиболее консервативных остатков структуры, которые определяются по автоматически построенному выравниванию последовательностей. Первоначальный кандидат в мотивы строится случайным выбором одного остатка и затем также случайным выбором еще четырех остатков, которые находятся вдали от первого остатка.

Каждый из 50 первоначальных кандидатов оценивается с точки зрения того, насколько хорошо он позволяет разделить положительные и отрицательные примеры структур в терминах значений СКО для наилучших совпадений. В каждом цикле генетического алгоритма 16 мотивов с наивысшей оценкой становятся родителями 36 новых мотивов, и после 50 циклов лучший мотив объявляется победителем. Мотивы могут содержать от трех до десяти остатков. Для разных надсемейств (Babbitt and Gerlt 2000) и сериновых протеаз были получены чувствительные и специфичные мотивы. Было обнаружено, что большая часть остатков в мотивах функционально важна, но в некоторых случаях оказалось, что остатки, не имеющие известной функциональной роли, имеют такое же прогностическое значение (Polacco and Babbitt 2006).

Сервер GASPSdb (Polacco and Babbitt, статья готовится к печати) (Таблица 8.1) сравнивает рассматриваемую структуру с базой данных структурных мотивов, ранее созданной с помощью программы GASPS для некоторых схем классификации белков: надсемейств и семейств по классификации SCOP, белков, имеющих общие молекулярные функции по системе ГО, и белков, входящих в состав надсемейств по классификации SCOP и являющихся молекулярной функцией по системе ГО. Использовался невырожденный набор структур. Мотив создавался на основе каждой структуры из группы положительных примеров, структуры из остальных групп рассматривались как отрицательные примеры. Мотивы создавались только для групп, содержащих не менее 6 невырожденных структур. Для поиска на сервере используется программа RIGOR (Kleywegt 1999). Для коммерческого использования этого продукта нужно связаться с разработчиками для получения лицензии (см. веб-сайт Uppsala Software Factory, Таблица 8.2). Статистическая значимость оценивается с помощью функции, разработанной авторами программы PINTS (Stark et al. 2003).