Основы биоинформатики - Огурцов А.Н. 2013

Основания биоинформатики
Инфраструктура биоинформатики
Биоинформационные данные, сети и базы

Компьютеры хранят информацию о последовательностях в виде строк - простых рядов последовательных знаков. Каждый знак выражен двоичным кодом и представлен наименьшей единицей информации, называемой байтом. Каждый байт состоит из 8 битов, и каждый бит может принимать значение 0 либо 1, что даёт 255 различных комбинаций битов, то есть возможность кодирования одним байтом 255-ти знаков.

Последовательность ДНК обычно хранится и обрабатывается в компьютере в виде ряда 8-битовых слов в упомянутом двоичном формате. Белковая последовательность представлена как ряд 8-битовых слов, состоящих из буквенных обозначений аминокислот в двоичной форме.

Обычно информацию о последовательности ДНК или белка записывают в текстовый файл в стандартном формате ASCII или в формате программы FASTA (FAST Alignment - быстрое выравнивание).

Файл данных в формате FASTA включает в себя строку-титр (заголовок) и строки данных о последовательности. Описание последовательности следует за строкой-титром, в начале которой стоит знак «>». Первое слово в этой строке - название последовательности, далее идёт описание последовательности. Остальные строки содержат саму последовательность. При чтении файла данных программа FASTA игнорирует пустые строки, а также все знаки пробелов или пропусков в последовательности. Файл, объединяющий в себе множество последовательностей, построен по тому же принципу - строки, содержащие описание последовательностей, идут друг за другом.

Структура последовательности в формате FASTA:

✵ Начинается с простой строки описаний. В первой колонке должно стоять ">". Остальное содержимое заголовочной строки является произвольным, но должно быть информативным.

✵ Следующие строки содержат последовательность, по одному символу на каждый остаток.

✵ Используются однобуквенные коды для нуклеотидов и аминокислот, заданные Международным Объединением Биохимии и Международным Объединением Чистой и Прикладной Химии (ШВ/ШРАС).

http://www.chem.qmw.ac.uk/iupac/misc/naabb.html

http://www.ehern.qmw.ас.uk/iupac/AminoAcid/

✵ Используют обозначения Sec и U как трёхбуквенный и однобуквенный коды для селеноцистенина:

http://www.chem.qmw.ac.uk/iubmb/newsletter/1999/item3.html

✵ Строки могут иметь разную длину; это граница с "рваным" правым краем.

✵ Обычно нуклеотиды записывают маленькими буквами, а аминокислоты - большими.

Пример формата FASTA для фермента глутатион пероксидаза быка:

>gi 1121664 IspIР004В5IGSHC_BOVIN GLUTATHIONE PEROXIDASE

MCAAQRSAAALAAAAPRTVYAFSARPLAGGEPFNLSSLRGKVLLIENVASLUGTTVRDYTQ

MNDLQRRLGPRGLWLGFPCNQFGHQENAKNEEILNCLKYVRPGGGFEPNFMLFEKCEVNGE

KAHPLFAFLREVLPTPSDDATALMTDPKFITWSPVCRNDVSWNFEKFLVGPDGVPVRRYSR

RFLTIDIEPDIETLLSQGASA

Строка заголовка имеет следующие поля:

> - обязательный первый символ первой строки;

gi | 121664 - это GІ-номер geninfo, идентификатор, назначенный Национальным Центром США по Биотехнологической информации (NCBI). Каждая последовательности в банке данных имеет уникальный идентификатор GI. NCBI собирает последовательности из разных источников, включая первичные архивы данных и заявления на получение патента. Его номера GI обеспечивают общий и непротиворечивый идентификатор-"зонтик", накладывающийся на различные соглашения для баз данных-источников. Если база данных-источник обновляет информацию, NCBI создаёт новую запись с новым номером GI, если эти изменения затронули последовательность, но обновляет и сохраняет запись, если изменения коснулись только информации, не входящей в последовательность, например, цитирование литературы.

Запись sp | Р00435 свидетельствует, что источником информации является Swiss-Prot, и что номером доступа к записи Swiss-Prot является Р00435.

GSHC_BOVIN GLUTATHIONE PEROXIDASE это идентификатор Swiss-Prot для последовательности и видов, (GSHC BOVIN), за которым следует имя молекулы.

EMBnet - European Molecular Biology net. Чтобы связать европейские лаборатории молекулярной биологии, применявшие в своих исследованиях методы биоинформатики и вычислительной биологии, в 1988 году была организована сеть. Эта сеть, получившая название EMBnet (European Molecular Biology net), была разработана с целью предоставления информационных и образовательных услуг сотрудникам лабораторий, расположенных в различных государствах Европы, через специально выделенные узлы, работающие на местных языках.

Впоследствии организация этой сети избавила отдельные учреждения от необходимости хранить периодически обновляемые копии ряда биологических баз данных, устанавливать программы поиска, покупать дорогостоящие пакеты коммерческих программ и т. д.

Сегодня EMBnet обслуживает 34 узла. Из них 20 узлов - специально выделенные Национальные узлы. Соответствующие нации обязаны поддерживать базы данных, предоставлять программное обеспечение и сетевые услуги (анализ последовательностей, моделирование белков, создание генетических карт и т. д.), обеспечивать поддержку и обучение пользователей, а также проводить научные исследования и внедрять новые разработки.

Восемь узлов EMBnet имеют специальное назначение. Это учебные, производственные или научно-исследовательские центры, которые предназначены для работы со специальными знаниями в определённых узких областях биоинформатики. В основном они ответственны за обслуживание баз данных и разработку программного обеспечения для нужд биологии.

Остальные шесть узлов были интегрированы в EMBnet как Присоединённые узлы. Это центры вычислительной биологии в неевропейских странах, которые предоставляют своим пользователям те же виды услуг, что и типичный Национальный узел. Почти все эти узлы предлагают отвечающий современному уровню доступ к базам данных и программам анализа последовательностей, наряду с разнообразными средствами молекулярного моделирования, анализа геномов, картографирования генов и т. д.

Система выборки последовательностей SRS (Sequence Retrieval System) является сетевым браузером баз данных молекулярной биологии. Она была разработана с целью предоставления пользователям EMBnet дополнительных сервисных услуг. Интернет-адрес SRS следующий: http://srs.ebi.ac.uk/ (рисунок 4). SRS позволяет вносить любую одноуровневую базу данных в предметный указатель любой другой базы данных.

Рисунок 4 - Веб-страница SRS@EBI

Преимущество этой системы состоит в том, что производные указатели могут быть быстро найдены, что позволяет операторам выбирать, связывать ссылками и получать доступ к записям во всех ресурсах, объединённых данной системой. По своему желанию пользователь SRS может легко переопределять список подключённых баз данных. Система выборки последовательностей связывает базы данных нуклеиновых кислот, ярлыков EST (Expressed Sequence Тags), белковых последовательностей, образцов белковых свёрток, структур белка, а также специализированные библиографические базы данных.

Таким образом, SRS представляет собой очень мощную систему, дающую пользователям возможность формулировать запросы в базы данных различных типов через единый унифицированный интерфейс, без необходимости волноваться о внутренней структуре данных, языках запросов и т. п.

SRS - это интегрированная система информационного поиска во многих разнородных базах данных последовательностей и передачи выбранных последовательностей аналитическими средствами, например, программ сравнения и выравнивания последовательностей.

В общей сложности SRS может производить поиск более чем в 140 базах данных последовательностей белков и нуклеотидов, метаболических путей, пространственных структур и функций белков, геномов, описаний болезней и фенотипов.

Сюда же входят небольшие базы данных, такие как базы данных структурных мотивов белков Prosite (http://prosite.expasy.org/) и Blocks (http://blocks.fhcrc.org/), базы данных факторов транскрипции и специализированные базы данных некоторых патогенов.

Помимо собственно доступа к огромному числу баз данных, SRS обеспечивает тесные связи (посредством перекрёстных ссылок) между базами данных и лёгкость в запуске приложений.

Поиск в отдельной базе данных может быть расширен до поиска в полной сети, то есть все записи, имеющие отношение к некоторому белку, могут быть легко найдены во всех содержащих их базах данных. Программы поиска подобия и построения выравниваний могут быть запускаемы непосредственно, причем без сохранения результатов запроса в промежуточном файле.

NCBI (National Center for biotechnology Information - Национальный центр биотехнологической информации) был основан в 1988 году в США как подразделение "Национальной медицинской библиотеки" (National Library of Medicine) и расположен в университетском городке "Национального института здоровья" (NIH), Bethesda (Бетесда), штат Мэриленд (http://www.ncbi.nlm.nih.gov/).

Задача NCBI - разработка новых информационных технологий для изучения молекулярных и генетических процессов, протекающих в здоровом и больном организме.

К специальным целям относятся - создание автоматизированных систем хранения и анализа биологической информации, развитие передовых технологий машинной обработки информации, облегчение доступа пользователей к базам данных и программному обеспечению, а также координация усилий по сбору биотехнологической информации по всему миру.

Помимо этого, NCBI обслуживает GenBank - базу данных последовательностей ДНК (http://www.ncbi.nlm.nih.gov/genbank/), созданную при NIH.

Группы аннотаторов создают записи о структуре расшифрованных последовательностей - на основании как информации из научной литературы, так и информации, представляемой самими исследователями, - и осуществляют обмен ими с такими международными базами данных нуклеотидов, как EMBL (European Molecular Biologу Laboratory) и DDBJ (DNA Data Bank of Japan).

Entrez. Подобно SRS для сети EMBnet, в NCBI был разработан браузер Entrez (http://www.ncbi.nlm.nih.gov/sites/gquery) с целью обеспечения выборки данных молекулярной биологии (а также организации ссылок на библиографические источники) из баз данных, объединённых в NCBI (рисунок 5).

Entrez позволяет связывать друг с другом похожие записи из разных баз данных, вне зависимости от того, есть ли между ними перекрёстные ссылки. Entrez обеспечивает доступ к:

✵ базам данных последовательностей ДНК - GenBank, EMBL и DDBJ;

✵ базам данных белковых последовательностей —

Swiss-Prot (http://www.expasy.org/sprot/),

PIR (http://pir.georgetown.edu/),

PRF (http://www.genome.jp/dbget-bin/www_bfind7prf),

SeqDB, PDB, последовательностей белка, полученных трансляцией последовательностей ДНК;

✵ базам данных картографирования генома и хромосом, трёхмерных белковых структур из PDB;

✵ библиографической базе данных PubMed.

Рисунок 5 - Веб-страница Entrez

Подобная связь между различными базами данных - сильная сторона данной системы. Entrez можно назвать отправным пунктом для выборки последовательностей и структур из ресурсов NCBI.

Entrez - сетевая информационно-поисковая система. Она интегрирует информацию, содержащуюся во всех базах данных NCBI. Это общий внешний интерфейс для всех баз данных, поддерживаемых NCBI, и притом чрезвычайно удобный.

В общей сложности Entrez имеет связь с 11 базами данных. NCBI разработал модель отношений разнородных данных, описывающих последовательности. Благодаря этому стало возможно бурное развитие программного обеспечения и интеграции баз данных, находящихся в ведении популярной информационно-поисковой системы Entrez. На этой же модели построена база данных GenBank.

К преимуществам этой модели следует отнести возможность лёгкого перехода между описанием последовательностей ДНК и кодируемых ими белков, генетическими картами хромосом и пространственными структурами соответствующих белков, а также списком опубликованной литературы, содержащей относящуюся к этим объектам информацию.

Модель данных NCBI работает непосредственно с последовательностью ДНК и последовательностью белка. Процесс трансляции представлен в виде связи между этими двумя последовательностями, а не взаимными аннотациями друг на друга.

Аннотации, содержащие описание белка (например, продукты распада пептида), представлены в виде характеристик, аннотированных непосредственно на последовательности белка.

Благодаря этому принципу стало очень удобно анализировать последовательности белка, полученные путём трансляции, и характеристики кодирующих последовательностей ДНК с помощью программы BLAST или любого другого средства выборки последовательностей (и притом без потери обратной связи с исходным геном). Набор, состоящий из последовательности ДНК и продуктов её трансляции, называют набором NucProt (NucProt set). Разработанная в NCBI модель данных описывает тип последовательности как "сегментированная последовательность" (segmented sequence).

GenBank, EMBL и DDBJ представляют восстановленные сборки сегментированных последовательностей в виде непрерывно покрытых областей (или контигов). Entrez показывает такую сборку как линию, соединяющую все составляющие её последовательности.

Контиг (от англ. contiguous - смежный, прилегающий) - это (1) набор клонированных фрагментов ДНК, непрерывно перекрывающих в известном порядке часть генома или весь геном; (2) вид физической карты, в которой маркерами являются клонированные фрагменты (см. также п. 6.2).

Зеркала и Интранет. Зеркалами называются дублирующие серверы, предоставляющие услуги и информацию почему-либо недоступного основного сервера. Чтобы получить доступ к необходимому веб-узлу, нужно набрать его URL в адресной строке браузера.

Многие учебные заведения имеют "Интранет", то есть корпоративную локальную сеть, к которой можно подключаться только с компьютеров данного учреждения.

Именно разветвлённая сеть (WWW) делает "Всемирную паутину" столь мощной. Для начального ознакомления рекомендуются следующие основные шлюзовые веб-узлы:

Помимо перечисленных веб-узлов, есть большое число специальных узлов, так или иначе относящихся к биологии. В поиске этих ресурсов могут быть полезны универсальные поисковые машины:

Контрольные вопросы и задания

1. Что такое World Wide Web?

2. Чем отличается системное и прикладное программное обеспечение? Приведите примеры.

3. Чем отличается Download от Upload? Какими тремя способами возможно загружать информацию из Интернета?

4. В чём сходство и различие IP-адреса компьютера и его текстовым именем в иерархической системе доменных имён?

5. Чем отличаются веб-страница и веб-узел?

6. Что такое интернет-браузер? Какие браузеры вы знаете?

7. Что такое гиперссылка?

8. Что такое URL и каков его формат?

9. Как записывается последовательность белка в формате FASTA?

10. Что такое GI-номер?

11. Что такое EMBnet и какой браузер используется в этой сети?

12. Что такое SRS (Sequence Retrieval System) и в какой сети она используется?

13. Что такое NCBI и какой браузер используется в сети NCBI?

14. Что такое Entrez и в какой сети он используется?

15. Что такое контиг?

16. Что такое интернет-зеркала?

17. Что такое Интранет?

18. Какие универсальные поисковые машины вы знаете?