Основы биоинформатики - Огурцов А.Н. 2013

Основания биоинформатики
Предмет биоинформатики
Особенность биоинформационных данных

Биологию традиционно считают описательной, а не аналитической наукой. Несмотря на то, что последние успехи науки не изменили это основное направление, радикально изменилась сущность биологических данных.

До последнего времени все биологические наблюдения носили в основном случайный характер, правда, с различным уровнем точности и некоторые были проведены действительно с очень хорошим качеством.

Первая особенность биологических данных последнего поколения исследований состоит в том, что данные стали не только количественными и более точными, но, как в случае нуклеотидных и аминокислотных последовательностей, они стали дискретными.

Расшифровать геномную последовательность индивидуального организма или клона стало возможным не только полностью, но и, что принципиально, точно. Ошибки эксперимента никогда не могут быть полностью исключены, но для современного секвенирования генома они чрезвычайно низки.

Это не означает, что биология стала аналитической наукой. Жизнь действительно подчиняется законам физики и химии, но она слишком сложна и зависима от цепи исторических случайностей, чтобы сегодня можно было бы детально объяснить её свойства, исходя из фундаментальных принципов. А достигнутая точность фиксации геномов не является достаточным условием для объяснения явления жизни.

Вторая очевидная особенность биоинформационных данных — это их огромное количество. Сейчас банки данных нуклеотидных последовательностей содержат около 20 млрд, нуклеиновых пар оснований. Если мы возьмем в качестве единицы измерения размер генома человека (НUmаn Genome Equivalent, HUGE), то этот объём информации эквивалентен 7 HUGE. База данных только белковых структур содержит более 86 000 записей, каждая из которых является полным описанием координат ~400 аминокислотных остатков данного белка в трёхмерном пространстве (рисунок 1) - http://www.pdb.org/.

Рисунок 1 - Веб-страница Банка белковых данных PDB

Огромны не только размеры отдельных банков данных, но и экспоненциальные темпы их увеличения. Так, например, в таблице 1 представлена динамика заполнения базы данных генетических последовательностей GenBank, http://www.ncbi.nlm.nih.gov/genbank/. А на рисунке 2 эти данные представлены в графическом виде.

Такое количество и качество биологических данных стимулирует исследователей к достижению следующих целей:

✵ Увидеть картину мира живых существ чётко и целиком, то есть понять интегрирующие аспекты биологии организмов, рассматриваемых как согласованные комплексные системы.

✵ Связать между собой последовательность, трёхмерную структуру, взаимодействия и функции отдельных белков, нуклеиновых кислот и их комплексов.

✵ Использовать данные о современных организмах как основу для изучения организмов во времени'.

- назад в прошлое, чтобы вычислить последовательность событий в эволюционной истории (филогенетический анализ),

- вперёд к научно обоснованной модификации биологических систем (биотехнология).

✵ Способствовать применению этих знаний в медицине, сельском хозяйстве и других областях.

Таблица 1 - Динамика роста базы данных GenBank

Год

Число пар оснований

Число последовательностей

Год

Число пар оснований

Число последовательностей

1982

680 338

606

1996

651 972 984

1 021 211

1983

2 274 029

2 427

1997

1 160 300 687

1 765 847

1984

3 368 765

4 175

1998

2 008 761 784

2 837 897

1985

5 204 420

5 700

1999

3 841 163 011

4 864 570

1986

9 615 371

9 978

2000

11 101 066 288

10 106 023

1987

15 514 776

14 584

2001

15 849 921 438

14 976 310

1988

23 800 000

20 579

2002

28 507 990 166

22 318 883

1989

34 762 585

28 791

2003

36 553 368 485

30 968 418

1990

49 179 285

39 533

2004

44 575 745 176

40 604 319

1991

71 947 426

55 627

2005

56 037 734 462

52 016 762

1993

157 152 442

143 492

2006

69 019 290 705

64 893 747

1994

217 102 462

215 273

2007

83 874 179 730

80 388 382

1995

384 939 485

555 694

2008

99 116 431 942

98 868 465

Рисунок 2 - Динамика заполнения базы данных GenBank генетических последовательностей http://www.ncbi.nlm.nih.gov/genbank/genbankstats-2008/

Молекула ДНК состоит из тысяч нуклеотидов, и поэтому определение полной последовательности нуклеотидов целой молекулы хромосомной ДНК представляет собой весьма сложную задачу (см. [6], п. 5). С появлением технологии клонирования генов и полимеразной цепной реакции (ПЦР) учёные получили возможность выделять отдельные фрагменты хромосомной ДНК (см. [7], п. 11). Эти достижения, в свою очередь, проложили путь к развитию быстрых и эффективных методов секвенирования ДНК.

В конце 70-х годов XX века появились два метода секвенирования, основанные, соответственно, на реакциях обрыва цепи и химического расщепления. Эти методы с некоторыми незначительными видоизменениями заложили основу для революции секвенирования 80-х и 90-х годов и последующего рождения биоинформатики.

Благодаря своей чувствительности, специфичности и возможности автоматизации, ПЦР считается передовым методом анализа образцов геномной ДНК и построения генетических карт. Последующие усовершенствования базовой технологии ПЦР дополнительно увеличили мощность и практическую ценность этой методики.

Ещё в начале 80-х годов XX века исследователи вручную (с помощью электронных самописцев) считывали последовательности ДНК с картины полос на гель-плёнке. В 1987 году Стивен Кравец (Stephen А. Krawetz) разработал первое программное обеспечение для устройств автоматического считывания информации с гелиевых плёнок.

С момента получения в 1987 году первой последовательности, секвенированной полуавтоматическим методом, практической реализации ПЦР в 1990 г. и внедрения способа флуоресцентного мечения фрагментов ДНК, производимых методом полимерного копирования по Сангеру (см. [7], и. 11.2), было осуществлено крупномасштабное секвенирование, внесшее неоценимый вклад в развитие биоинформатики. Одновременно значительное развитие получили технологии автоматизированной регистрации результатов секвенирования последовательностей.

В начале 90-х годов Крейг Вентер (John Craig Venter) с сотрудниками изобрёл новый метод определения генов. Вместо того чтобы секвенировать хромосомную ДНК с предельным разрешением в один нуклеотид, группа Вентера выделила молекулы мРНК, копировала их в молекулы кДНК и затем секвенировала некоторую часть молекулы кДНК, в результате чего были созданы ярлыки экспрессируемых последовательностей (expressed sequence tags, EST, термин, впервые предложенный Энтони Керлавейдж (Anthony Kerlavage).

Эти EST-последовательности могли быть использованы в качестве указателей (идентификаторов, "отпечатков пальцев") для выделения целого гена. Кроме того, подход с применением ярлыков EST повлек за собой организацию огромных баз данных нуклеотидных последовательностей и, как полагают, развитие метода EST показало осуществимость

проектов высокопроизводительного обнаружения новых генов и явилось ключевым толчком для развития прикладной геномики.

В 80-х годах XX века начался ряд проектов по созданию подробных генетических и физических карт генома человека (рисунок 3). Цель этих проектов состояла в расшифровке полной последовательности нуклеотидов генома человека и в определении локусов (фиксированных положений, локализации на хромосоме) предполагаемых 30 000 генов. Работа столь большого размаха стимулировала развитие новых вычислительных методов анализа генетических карт и данных секвенирования последовательностей ДНК, а также потребовала разработки новых методов и лабораторного оборудования для расшифровки и анализа ДНК.

Для максимально быстрого ознакомления широкого круга исследователей с результатами расшифровки потребовалось разработать усовершенствованные средства распространения полученной информации.

Международную научно-исследовательскую программу, явившуюся результатом этой глобальной инициативы, назвали проектом "Геном человека" (Human Genome Project, HGP). Более подробную информацию об этом и других проектах расшифровки геномов можно получить по адресам:

✵ http://genomics.energy.gov/;

✵ http://oml.gov/sci/techresources/Human_Genome/publicat/tko/index.html;

✵ http://www.geneontology.org/GO.refgenome.shtml;

✵ http://www.genome.gov/.

В 2007 г. начат проект "1000 геномов" (The 1000 Genome Project) http://www.1000genomes.org - расшифровка полных геномов 1000 человек, каждый содержащий 6 Гига-пар оснований (6 Gbp), а всего 6 Терапар оснований (6 ТЬр) [56]. К марту 2012 г. полное описание расшифрованных генов составило более 250 000 файлов объёмом более 260 Терабайт. Для этого проекта был создан Центр координации данных (DCC, Dato Coordination Center) и были разработаны технологии секвенирования нового поколения (Next-generation sequencing (NGS) technologies) [57], которые снизили стоимость секвенирования одного генома до US$5000.

Рисунок 3 - Веб-страницы геномных проектов: а - Геномной программы Департамента Энергии США; б - То Know Ourselves; в - Проект аннотации геномов; г - Национальный институт исследования генома человека