Принципы структурной организации белков - Г. Шульц 1982

Предсказание вторичной структуры по аминокислотной последовательности
Оценка предсказательных методов
Критерии оценки методов

Различные критерии качества метода отражают разные аспекты проблемы предсказания. Для того чтобы сопоставить различные методы, предложены разнообразные критерии — показатели качества. С их помощью оценивается результативность предсказаний для отдельных положений остатков в данном белке по параметрам w, x, у, z (см. определение в табл. 6.3). Каждый из этих параметров отражает различные аспекты предсказаний, их арифметические комбинации сопоставлять довольно трудно. Полный перечень способов оценки дан в табл. 6.4.

Наиболее распространенный показатель дает завышенные значения. Если по показателю Q1 можно судить о завышениях в предсказаниях вторичных структур, то показатель Q2вовсе их не учитывает; в экстремальном случае, когда каждый остаток предсказывается спиральным (w = 1), показатель Q2принимает значение, отвечающее оптимальному соответствию (Q2 = 1). Наиболее распространенным является, по-видимому, показатель Q3, который, однако, дает завышенные значения. В этом случае положительные и отрицательные правильные предсказания (табл. 6.3) входят с равными весами. Поскольку, однако, среднее содержание спиралей в белках, как известно, приближается к 35% [201], то вероятность отрицательного правильного предсказания спирали приблизительно в два раза выше вероятности положительного правильного предсказания. Следовательно, наибольший вклад в показатель Q3 вносят отрицательные предсказания; эта ситуация иллюстрируется примерами 1 и 2 табл. 6.4. Пример 1 иллюстрирует неверное предсказание, когда не было найдено ни одного спирального остатка. Тем не менее величина показателя Q3 в этом случае достигает 0,70. В менее экстремальном примере 2 только половина спиральных остатков определена правильно, а другая половина — неправильно. Полученный показатель (Q3 = 0,80) здесь близок к значению для оптимального соответствия. Для ß-структур преобладание отрицательных правильных предсказаний выражено еще более резко, поскольку среднее содержание этих структур в белках составляет всего около 15% [201].

Таблица 6.3 Четыре возможных случая при отнесении остатка к a-спирали (или другим типам вторичной структуры)

Конформационное состояние остатка


Процентное содержание случая в данном белке

предсказание

наблюдение

Оценка предсказания

Спиральное

Спиральное

Положительное правильное

предсказание

W

Неспиральное

Неспиральное

Отрицательное правильное предсказание

X

Неспиральное

Спиральное

Недопредсказание

У

Спиральное

Неспиральное

Сверхпредсказание

Z




w + x + у + z = 1.

Показатели, занижающие отрицательные правильные предсказания. Таким показателем, занижающим вклад отрицательного правильного предсказания, является Q4. В примерах 1 и 2 он более правильно отражает ситуацию, чем показатель Q3. В показателе Q5 отрицательные правильные предсказания учитываются путем не простого прибавления х, как в Q3, а путем умножения на 1/(1 — х). В связи с этим он дает более разумные значения для примеров 1 и 2. Однако этот показатель не получил сколько-нибудь широкого распространения. Показатель Q6 представляет собой монотонную функцию Q3 и не дает дополнительной информации. Показатель Q7 есть не что иное как общий статистический критерий. Поскольку в этом случае используются средние значения [384], вклад отрицательных правильных предсказаний уже не будет завышенным; так, например, отрицательные правильные предсказания а-спирали для данного положения остатка получатся с низким весом, если в белке всего несколько спиралей, и с большим весом, если спиралей много.

Таблица 6.4 Критерии оценки качества предсказания3

a Два примера иллюстрируют чувствительность критериев оценки.

Предсказание всех трех типов вторичной структуры должно производиться одновременно. Ни один из обсуждаемых показателей качества не учитывает a-, ß- и rt-структуры одновременно. Очевидно, что все три предсказания не независимы (никто не предсказывает ß-структуру там, где обнаружен высокий a-потенциал) и что общий результат предсказания данным методом может быть надежно описан только объединенным показателем. Простым объединенным показателем может служить величина

Qoбщ3 = wa+ wβ + wrt+ wклубок

где wa, wβ и wrt— процентное содержание правильно (положительно) предсказанных a-, ß- и rt-остатков, а wклубок — отрицательное правильное предсказание, соответствующее величине х в выражении для Q3. Поскольку белки содержат в среднем около 35% спиралей, 15% ß-структур, 25% поворотов и 25% клубков, то все четыре вклада приблизительно сбалансированы без преобладания вклада отрицательного предсказания.

Современное состояние предсказательных методов

В двух белках с неизвестной структурой более чем двум третям остатков была приписана правильная вторичная структура. Предсказательная способность методов охарактеризована в табл. 6.5, где приведены результаты опробования на двух белках: аденилаткиназе [383] и Т4-лизоциме |384], а также проиллюстрирован уровень соответствия в базовом наборе. Для каждого белка было сделано по нескольку предсказаний, однако в табл. 6.5 входят только средние значения по двум лучшим предсказаниям. Очевидно, что в параметрах Q и Q3rtпреобладают отрицательные правильные предсказания и что они дают завышенную оценку. Более достоверные коэффициенты корреляции Q7 имеют величину 0,45; они свидетельствуют о наилучших предсказаниях для а- и наихудших для rt-структур. Значение Qобщ3 достигает 68%, что указывает на правильное предсказание более чем двух третей остатков. Для аденилаткиназы показатели Q3 и Q7выше, чем для Т4-лизоцима, однако значения Qобщ3 близки. Это несоответствие объясняется тем, что для аденилаткиназы число сверхпредсказаний больше, чем для Т4-лизоцима, а сверхпредсказание сильнее сказывается на значении Qобщ3чем на показателе Q3или Q7.

Обычно качество предсказания не зависит от класса белка. Содержание спиралей в обоих рассмотренных белках составляет около 55% по сравнению со средней величиной 35% [201]. Следовательно, общую правильность полученных результатов нельзя было предвидеть априори. Однако анализ качества предсказаний по базовому набору [382], выраженный в значениях Q7, показал, что оно очень близко к полученному для обоих белков (табл. 6.5). Таким образом, современные методы позволяют достичь коэффициентов корреляции около + 0,45 в отношении a-, ß- и rt-предсказаний, что намного выше случайного набора. В своем обзоре Ленстра [382] подразделил базовые данные по белкам на четыре класса в соответствии с табл. 5.2. За исключением a-предсказания в классе 2 (ß-белки), которое представляется предельно сложным, качество предсказания практически одинаково для всех классов белков.

Если имеется несколько предсказаний, их можно усреднить.

При оценке предсказаний для аденилаткиназы был предложен дополнительный метод коллективного предсказания [383]. Он состоит в усреднении (без относительных весов) всех индивидуальных предсказаний. В случае аденилаткиназы такое усреднение лучше согласовывалось с наблюдаемыми данными, чем любое из индивидуальных предсказаний. Такой подход был применен также Аргосом и сотр. [381], которые усреднили результаты пяти методов предсказания для всех известных белковых структур.

Оценка индивидуальных результатов — ключ к дальнейшим улучшениям. Вообще говоря, для улучшения предсказаний необходимо анализировать все индивидуальные результаты отдельно. Для этого можно воспользоваться обоими рассмотренными выше случаями аденилаткиназы и Т4-лизоцима, поскольку они позволяют читателю самому оценить возможности методов. Но опять-таки следует иметь в виду, что опробование было проведено на белках, которые представляют только два из пяти классов, перечисленных в табл. 5.2. Этот недостаток удалось обойти Ленстра [382], который сравнил результаты трех индивидуальных и одного коллективного методов предсказания по всему базовому набору, используя в качестве критерия показатель Q7. Он обнаружил отчетливые различия в качестве предсказаний. По-видимому, наилучшие результаты дает коллективный метод [383].

Самосогласованность можно использовать в качестве критерия качества. Существенно иной подход к оценке качества метода предсказания состоит в применении его к нескольким гомологичным белкам. Можно полагать, что такие белки свертываются одинаковым образом и имеют одинаковую вторичную структуру. Следовательно, предсказания должны быть инвариантны по отношению к наблюдаемым заменам аминокислот: чем меньше вариаций, тем лучше метод предсказания. Такая проверка качества трех методов предсказания была проведена на 24 гомологичных последовательностях рибонуклеазы поджелудочной железы [385].

Таблица 6.5 Показатели качества при опробовании на двух белках и при соответствии в базовом набореа


Структурный класс белка (табл. 5.2)

Число остатков

а

β

rt

Сумма

Q3a

Q

Q3rt

Q7x

Q

Q7rt

Qобщ3

Аденилаткиназа

4

194

0,54

0,12

0,24

0,90

0,77

0,92

0,86

0,56

0,58

0,60

0,67б

Т4-лизоцим

3

164

0,57

0,07

0,15

0,79

0,69

0,87

0,75

0,42

0,28

0,20

0,29в

0,55

0,10

0,20


0,73

0,90

0,81

0,49

0,43

0,40

0,68

Базовый набор

1









0,50

0,41


Базовый набор

2









0,22

0,45

0,37


Базовый набор

3









0,58

0,51

0,45


Базовый набор

4









0,51

0,50

0,43











0,45

0,49

0,42


а Для обоих белков [383, 384] усреднены два лучших значения. Базовый набор включает все белки с известной структурой, данные взяты из работ Іагано [356] и Аргоса и сотр. [381] в том виде, как они представлены Ленстра [382].

Число под чертой есть среднее значение верхних величин.

б Среднее из предсказаний Нагано [353] и Чоу и Фасмана [340].

в Среднее из предсказаний Птицына и сотр. [371, 380] и Бэджиса и сотр. [31].

Возможные улучшения методов, основанных на стереохимических данных. Возможно ли дальнейшее улучшение предсказаний? Расширение базового набора в этом плане вряд ли может оказаться полезным. Это совершенно очевидно для склонностей синглетов и дублетов, поскольку для них наблюдаемые частоты встречаемости уже достаточно высоки для получения хороших средних значений. Таким образом, в рамках вероятностных методов вряд ли возможны существенные улучшения. В этом отношении перспективы методов, основывающихся на стереохимических данных, представляются более благоприятными. Сейчас, по-видимому, уже нецелесообразно раздельно рассматривать a-, ß- и rt-структуры. Наступило время комбинированных методик. Нужно также стараться предсказывать класс белка. Конечная цель — предсказание укладки цепи — по-прежнему выглядит отдаленной.