Основы биоинформатики - Огурцов А.Н. 2013

Основания биоинформатики
Геномы и протеомы
Геномика

Достижения в области биологии и химии позволили значительно повысить скорость информационной расшифровки последовательностей генов и белков. С появлением технологии рекомбинантных ДНК появилась возможность относительно просто встраивать последовательности чужеродной ДНК во многие биологические системы. Кроме того, благодаря этой технологии было освоено быстрое массовое производство специфичных последовательностей ДНК - необходимых компонентов лабораторного анализа биологических последовательностей.

Технология синтеза олигонуклеотидов дала возможность исследователям конструировать необходимые короткие фрагменты ДНК из последовательностей нуклеотидов.

Во-первых, эти олигонуклеотиды могут быть использованы для зондирования обширных библиотек кДНК с целью извлечения генов, содержащих эту последовательность.

Во-вторых, эти фрагменты ДНК могут быть использованы в качестве праймеров в полимеразных цепных реакциях (ПЦР) для амплификации или модификации известных последовательностей ДНК.

Анализ биологических последовательностей проводится в случаях, когда необходимо:

а) распознать последовательности, которые кодируют белки, определяющие весь клеточный метаболизм (структурные гены);

б) обнаружить последовательности, которые регулируют экспрессию генов или иные клеточные процессы.

Предметом геномики является развитие и применение методов молекулярной картографии и секвенирования, а также методов описания, расшифровки и анализа целых геномов организмов и полных наборов генных продуктов.

Под геномом организма понимают суммарную ДНК гаплоидного набора хромосом и каждого из внехромосомных генетических элементов, содержащуюся в отдельной клетке зародышевой линии многоклеточного организма. Анализ полных геномов даёт информацию о глобальной организации, экспрессии, регулировании и эволюции наследственных материалов (рисунок 39).

Рисунок 39 - Анализ генома: иерархическое представление

Разделяют структурную, функциональную и сравнительную геномику.

Структурная геномика занимается составлением генетических и физических карт, а также расшифровкой полных геномов.

Генетические карты служат исходным материалом для построения физических карт и карт последовательностей с более высоким разрешением и, кроме того, указывают молекулярные точки входа при клонировании генов.

Физические карты дают представление о том, как именно клоны из библиотек геномных клонов распределены в целом геноме. Они обеспечивают информацию для позиционного клонирования. Последовательности ДНК генома необходимы при описании функций всех генов, включая экспрессию и регуляцию генов.

Функциональная геномика занимается общим изучением структуры, картин экспрессии, взаимодействий и регуляции молекул РНК и белков, кодируемых геномом. Это всесторонний функциональный анализ генов и не содержащих гены последовательностей, проводимый на уровне целых геномов.

Сравнительная геномика рассматривает методы сравнения полных геномов различных биологических видов с целью определения функций каждого гена, а также эволюционных связей организмов-носителей этих геномов.

Расшифровка полной геномной последовательности ДНК какого-либо организма даёт возможность распознать все гены этого организма и таким образом определить его генотип. Для выполнения обработки, анализа и описания огромного числа генов и больших количеств ДНК были изобретены специальные экспериментальные методы.

Поскольку обычные методы секвенирования могут быть применимы только к коротким отрезкам ДНК (100-1000 пар оснований), более длинные последовательности можно разделить на фрагменты, а затем собрать заново, чтобы получить полный сиквенс большого отрезка ДНК.

Сиквенс (от англ. sequence — последовательность) - это последовательность нуклеотидов в фрагменте ДНК. Для получения полного сиквенса используются два основных метода:

1) метод прогулки по хромосоме (chromosome walking) или праймер-опосредованная прогулка, который даёт шаг за шагом сиквенс большого отрезка ДНК;

2) метод дробовика (shotgun sequencing), который намного быстрее, но и сложнее, так как используются случайные фрагменты ДНК, которые затем необходимо собрать вместе (с помощью специальных компьютерных программ).

Метод дробовика (Shotgun sequencing или шотган-секвенирование-клонирование) - метод, используемый для секвенирования длинных цепей ДНК (см. также п. 11.2).

Суть метода состоит в получении случайной массированной выборки клонированных фрагментов ДНК - контигов (сontig, от англ. contiguous - смежный, прилегающий) - данного организма (то есть "дробление" генома). Затем эти контиги секвенируют обычными методами, использующими обрыв цепи (см. ниже п. 6.3). Полученные перекрывающиеся случайные фрагменты ДНК затем собирают с помощью специальных программ в одну целую большую последовательность. Однако некоторую трудность при сборке могут представлять ДНК-повторы.

Анализ геномных последовательностей показывает, что каждый организм располагает как определённым набором "операционных" генов (housekeeping genes, гены "домашнего хозяйства"), необходимых для протекания основных метаболических процессов (таких как размножение, гликолиз, синтез АТФ, обслуживание генетических механизмов, анаболизм и катаболизм), так и набором "информационных" генов, продукты которых определяют специфику данного организма.

Расшифровка полного генома даёт те базовые знания, на основании которых можно анализировать экспрессию генов и синтез белков, но сама по себе такая расшифровка недостаточна для определения полного набора белков организма.

Размер генома, то есть количество генетической информации на клетку, и последовательность нуклеотидов в ДНК - практически всегда постоянны для всех особей одного вида, но сильно различаются у разных видов.

В таблице 5 представлены размеры геномов некоторых организмов. Не вся ДНК кодирует белки. Кроме того, некоторые гены представлены многочисленными копиями. Поэтому число генов в геноме не может быть оценено только из размера генома.

Таблица 5 - Размер геномов

Организм

Число nap оснований

Число генов

Комментарий

Вирус фХ-174

5386

10

вирус, инфицирующий Е. coli

Человеческая

митохондрия

16569

37

субклеточная органелла

Вирус Эпштейна-Барра (EBV)

172282

80

вызывает мононуклеоз

Mycoplasma pneumoniae

816394

680

возбудитель эпидемии циклической пневмонии

Rickettsia prowazekii

1 111 523

878

бактерия, возбудитель эпидемического тифа

Treponema pallidum

1 138 011

1039

бактерия, вызывает сифилис

Borrelia burgdorferi

1 471 725

1738

бактерия, вызывает болезнь Лайма

Aquifex aeolicus

1 551 335

1749

бактерия из горячих источников

Thermoplasma acidophilum

1 564 905

1509

архея, не имеет клеточной стенки

Campylobacter jejuni

1 641 481

1708

частая причина пищевых отравлений

Helicobacter pylori

1667 867

1589

основная причина язвы желудка

Methanococcus jannaschii

1 664 970

1783

архея, термофил

Hemophilus influenzae

1 830 138

1738

бактерия, причина инфекций среднего уха

Thermotoga maritima

1 860 725

1879

морская бактерия

Archaeoglobus fulgidus

2 178 400

2437

архея

Deinococcus radiodurans

3 284 156

3187

радиационно-устойчивая бактерия

Synechocystis

3 573 470

4003

цианобактерия, сине-зеленая водоросль

Vibrio cholerae

4 033 460

3890

возбудитель холеры

Mycobacteri um tuberculosis

4 411 529

4275

возбудитель туберкулеза

Bacillus subtilis

4214814

4779

грамположительная почвенная бактерия

Escherichia coli

4 639 221

4406

кишечная палочка

Pseudomonas aeruginosa

6 264 403

5570

прокариот

Saccharomyces cerevisiae

12,1∙106

5885

дрожжи

Caenorhabditis elegans

95,5∙106

19099

Червь

Arabidopsis thaliana

1,17∙108

25498

цветковое растение (покрытосемянное)

Drosophila melanogaster

1,8∙108

13601

плодовая мушка

Fugu rubripes

3,9∙108

30000

рыба-собака (Fugu fish)

Человек

3,2∙109

34000