Основы биоинформатики - Огурцов А.Н. 2013
Информационные принципы в биотехнологии
Анализ и предсказание белков
Программы предсказания белков
Существует множество программ предсказания, предполагающих опознавание неизвестных белков по наличию известных химических и физических свойств аминокислот. Многие из этих программ доступны через Интернет по следующим адресам:
- http://expasy.org/proteomics - через сервер ExPASy, принадлежащий Швейцарскому институту биоинформатики (Swiss Institute of Bioinformatics);
- http://www.embl.de/services/bioinformatics/index.php - через серверы EMBL http://www.embl.fr/ или http://www.embl.de/, принадлежащие Европейской молекулярно-биологической лаборатории (European Molecular Biologу Laboratory);
- http://www.sanger.ac.uk/resources/software/ - через сервер The Wellcome Trust Sanger Institute;
- http://www.bioinf.manchester.ac.uk/dbbrowser/PRINTS/PRINTS.html - через сервер университета Манчестера;
- http://www.cmpharm.ucsf.edu/~nomi/nnpredict.html - программа предсказания вторичной структуры белков;
- http://pbil.ibcp.fr/htm/index.php?page=pbil_ibcp_Software.html - через сервер The Institute for the Biology and Chemistry of Proteins (IBCP);
- http://www.ch.embnet.org/software/COILS_form.html - программа предсказания скрученных спиралей (coiled coil regions) в составе белков;
- http://www.ebi.ac.uk/Tools/ - через сервер The European Bioinformatics Institute (ЕВI);
- http://roselab.jhu.edu/dist/manual/index.html - программа LINUS (Local Independently Nucleated Units of Structure).
Программа LINUS (Local Independently Nucleated Units of Structure) - это программа предсказания структуры белка по аминокислотной последовательности, разработанная G.D. Rose и R. Srinivasan. Данная процедура полностью априорна, то есть работает только с самой последовательностью, не опираясь ни на экспериментальные данные, ни на известные структурные корреляции. В LINUS реализован "иерархический" алгоритм - сворачивание начинается с коротких фрагментов, постепенно объединяя их в более длинные.
Основная идея LINUS заключается в том, что структура локальных участков белка - коротких аминокислотных фрагментов - определяется локальными взаимодействиями внутри этих участков. В процессе фолдинга, каждый сегмент предпочтительно будет принимать наиболее энергетически выгодные конформации. Однако эти предпочтительные конформации и даже самые выгодные из них - те, что с неизбежностью реализуются в нативной структуре белка, - лишь ненамного превышают порог термодинамической стабильности.
Локальная структура будет претерпевать множество переходов, до тех пор, пока не отыщется подходящее стабилизирующее взаимодействие. Компьютер отдаёт предпочтение тем из локальных структур, которые чаще появляются в ходе расчётов и, поэтому, могут передавать свои структурные свойства последующим генерациям и таким образом влиять на конечный результат. Процедура использует технический принцип храповика (ratchet) для того, чтобы направить расчёты по наиболее эффективному пути.
LINUS начинает работу с вытянутой полипептидной цепочки аминокислот. В ходе расчётов производится возмущение случайно отобранных троек последовательно расположенных остатков, и оценивается энергия результирующей конформации. Стерически затруднённые структуры отбраковываются; остальные энергетические вклады рассчитываются только для локальных взаимодействий.
Для того, чтобы сделать выбор - принять возмущённую структуру, или вернуться к её предшественнику - используется метод Монте-Карло (см. ниже). В LINUS эти стадии многократно повторяются; в процессе работы создаётся статистика структурных предпочтений для всех аминокислот.
Далее локальные фрагменты собираются в более крупные, основываясь на рассчитанной статистике структурных предпочтений. При этом границы зоны, внутри которой рассчитываются взаимодействия, постоянно расширяются - от локальных фрагментов до целой глобулы.
Представление процесса сворачивания белка в программе LINUS реалистично по своей сути, хотя и приближённо. В моделировании участвуют все атомы белка, кроме атомов водорода, и функция энергии при этом рассчитывается приблизительно, а динамика упрощена. Функционал энергии учитывает
1) стерическое отталкивание атомов;
2) кучность погружённых гидрофобных остатков;
3) водородные связи;
4) солевые мостики.
LINUS в большинстве случаев успешно предсказывает структуры небольших фрагментов белка (в диапазоне структур от супервторичных структур до доменов) и в некоторых случаях может интегрировать их в правильную общую структуру.
Методы Монте-Карло широко используются в расчётах белковых структур, для эффективного перебора конформаций, для поиска минимума сложной функции, а также во многих других оптимизационных задачах. Простые минимизационные процедуры, основанные на движении вниз по градиенту энергии, неэффективны, так как зачастую расчёты сходятся к локальному минимуму, далёкому от нативной структуры.
Идея метода заключается в том, чтобы использовать случайные числа в решении вопроса, ответ на который трудно вычислить точно. Название метода было придумано одним из авторов метода Николосом Метрополисом (Nicholas Constantine Metropolis) в честь его дяди, который был азартным игроком.
Для того чтобы с помощью метода Монте-Карло найти минимум функции многих переменных - например, функции энергии белка, зависящей от переменных, определяющих его конформацию, будем считать, что эта функция зависит от набора переменных х, и для любого набора значений этих переменных мы можем подсчитать значение функции - энергию конформации белка ε(х).
В качестве x может выступать набор координат атомов белка или торсионных углов основных и боковых цепей аминокислот.
Метод Монте-Карло применяют в соответствии со следующей процедурой.
1. Случайным образом генерируются начальные условия - набор переменных x. Подсчитывается энергия полученной конформации ε = ε(х).
2. Создаётся возмущение переменной х→х' для того, чтобы сгенерировать следующее состояние.
3. Подсчитывается энергия нового состояния ε(х').
4. Даётся ответ на вопрос, принять новую, возмущённую, конформацию или вернуться к прежней, исходной:
а) если энергия уменьшилась, ε = ε(х) > ε(х'), то новое состояние принимается за исходное для следующего шага расчётов и в качестве начальных условий для следующего шага принимаются: х'→х и ε = ε(х').
б) если энергия увеличилась или осталась неизменной, то есть ε(х) ≤ ε(х'), то можно отвергнуть новое состояние или принять его с вероятностью ехр[-∆/(kТ)], где ∆ = ε(х') - ε(х); k- константа Больцмана; Т - эффективная температура.
5. Вернуться к пункту 2.
Вся изюминка метода находится в пункте 4(6). Он позволяет выбираться из "ловушек" локальных минимумов.
Вероятность того, что такое движение вверх по энергии будет принято, определяется эффективной температурой Т. В данном случае Т не физический, а лишь числовой параметр, управляющий расчётом.
Для любого значения температуры, вероятность принять новую структуру с более высокой энергией тем меньше, чем больше эта разница в энергии.
Для любого значения ε, если температура низкая, то значение ε(x)/(kT) - будет высоким, а значение ехр[-ε(x)/(kjT)] - низким.
И наоборот, если температура высокая, то значение ε(х)/(kТ) будет низким, а экспонента ехр[-ε(х)/(kT)] - близка к единице.
С увеличением температуры увеличивается вероятность того, что возмущенная структура с большей энергией будет принята.
Эта достаточно простая идея оказалась крайне эффективной для многих приложений при расчёте белковых структур и в других областях.
Существует развитие метода Монте-Карло - так называемый "управляемый отжиг" (simulated annealing), - в котором варьируется значение параметра Т: вначале температура делается высокой для того, чтобы разрешить различные конформационные изменения, а потом - понижается, для того чтобы свести систему к минимуму энергии.