Основы биоинформатики - Огурцов А.Н. 2013

Информационные принципы в биотехнологии
Секвенирование биологических последовательностей и экспрессия генов
Открытая рамка считывания

Открытыми рамками считывания называют отрезки последовательности ДНК, не прерываемые стоп-кодонами (которые привели бы к прекращению синтеза белка), и ограниченные соответствующими сигналами начала (старт-кодон) и конца трансляции (стоп-кодон). Таким образом, открытой рамкой считывания может считаться любая последовательность нуклеотидов до появления первого стоп-кодона (tga, таа или tag), которая кодирует некоторое минимальное число аминокислот (около 100). Определение открытой рамки считывания у прокариотов не представляет трудностей. У эукариот отыскание открытой рамки считывания усложнено наличием интронов.

Обычно правильной рамкой считывания считают самую длинную рамку, не прерываемую стоп-кодоном. Именно её и считают открытой рамкой считывания (open reading frame, ORF). Найти конец открытой рамки считывания намного легче, чем отыскать её начало.

В качестве индикаторов областей ДНК, предположительно кодирующих белки, можно использовать несколько характеристик. Одна из таких характеристик - достаточная длина открытой рамки считывания. В точном определении начала кодирующей последовательности может быть полезно также распознавание примыкающих последовательностей Козак: (5')-ассаugg-(3') - специфического нуклеотидного окружения старт-кодона. "Kozak sequence" названа, в честь Марилин Козак, которая открыла её (см. [7], п. 5.1).

Кроме того, было установлено, что наборы используемых кодонов отличаются в кодирующих и некодирующих областях.

В частности, частоты использования кодонов для кодирования определённых аминокислот отличаются у организмов разных видов, а правила использования кодонов нарушаются в тех областях последовательности, которые не предназначены для трансляции.

Статистический анализ частот использования кодонов может быть полезен также и для определения 5'- и 3'-UTR (а также для опознавания неправильных трансляций), потому что в этих областях наблюдается нехарактерно высокая встречаемость редко используемых кодонов.

Таблица 17 иллюстрирует значительную изменчивость в выборе кодонов, которые различные организмы используют для кодирования аминокислоты серин.

Для кодирования серина существует шесть возможных кодонов, которые в принципе могут использоваться с равной частотой всякий раз, когда в кодирующей последовательности определяется серин (таблица 2). В действительности, однако, организмы чрезвычайно избирательны в отношении кодонов. Отраженные в таблице 17 характерные различия в частотах встречаемости кодонов могут быть использованы в качестве дополнительного фактора в предсказании областей ДНК, предположительно кодирующих белки

Помимо характерной для каждого вида модели использования кодонов, многие организмы оказывают общее предпочтение нуклеотидам g или с над а или t в третьей позиции кодона (wobble-позиции) (см. [7], п. 4.4). Закономерное отклонение частоты встречаемости нуклеотидов в этой позиции в сторону g или С также может внести вклад в предсказание ORF.

Таблица 17 - Частоты использования сериновых кодонов (в процентах), отмеченные у разнообразных опытных организмов

Кодон

Escherichia coli,

кишечная палочка

Drosophila melanogaster,

плодовая мушка

Homo sapiens, человек

Zea mays, кукуруза

Saccharomyces cerevisiae, пивоваренные дрожжи

agt

3

і

10

4

5

age

20

23

34

30

4

teg

4

17

9

22

1

тса

2

2

5

4

6

тст

34

9

13

4

52

тсс

37

42

28

37

33

Хорошим средством опознавания ORF в области, расположенной выше старт-кодона генов прокариотов, является обнаружение сайтов связывания рибосом (которые помогают направлять рибосомы к правильным позициям начала трансляции).

Альтернативный сплайсинг у эукариот может привести к тому, что потенциальные продукты гена будут иметь разные длины, поскольку в конечной транскрибированной мРНК могут быть оставлены не все экзоны (хотя порядок расположения экзонов всегда сохраняется) (см. [7], п. 2.5).

Если процесс редактирования мРНК приводит к трансляции полипептидов различной длины, то такие конечные белки называют вариантами сращения или альтернативно сращёнными формами. Таким образом, результаты поиска в базе данных по образцам кДНК или мРНК (информация посттранскрипционного уровня), обнаруживающие многочисленные пробелы в совпадениях с последовательностью запроса, могут быть следствием альтернативного сплайсинга.