БАЗЫ ЗНАНИЙ ПО МОЛЕКУЛЯРНОЙ БИОЛОГИИ

Пономаренко М. П., Пономаренко Ю. В., Фролов А. С., Подколодный Н. Л., Кочетов А. В., Колчанов Н. А.
Институт цитологии и генетики СО РАН, 630090 Новосибирск
Мы предлагаем способ компьютерного представления молекулярно-биологических знаний и их применения при аннотации ДНК. Для этого создаются специфические базы данных по закономерностям, выявленным в результате анализа экспериментальных данных, т.е. "базы знаний по молекулярной биологии". Каждый документ этих баз знаний описывает все закономерности, выявленные из одной выборки однотипных экспериментальных данных. Описание каждой закономерности делается на ограниченном естественном языке (английском) и, что особенно важно, на языке программирования "Си". Текстовое описание закономерности имеет GeneBank-подобный формат, набор информационно-поисковых полей "ключевых слов" (например, имя сайта, название контекстной особенности, уровень ее статистической значимости). Такое описание является понятным биологу-аннотатору (оно является общепринятым в обычных базах данных), что позволяет ему находить необходимые ему закономерности по их "ключевым словам" с помощью стандартной для молекулярной биологии поисковой системы SRS (Sequence Retrieval System, EBI, Cambridge, UK). В свою очередь, описанием закономерности на языке "Си" является код компьютерной программы для анализа ДНК, РНК или белков на основе использования этой закономерности (например, программы распознавания сайта по его консенсусу). Каждая такая программа имеет гипертекстовую ссылку (адрес в сети ИНТЕРНЕТ), с помощью которого биолог-аннотатор может вызвать эту программу, ввести в нее исследуемую им последовательность и в реальном масштабе времени (менее, чем через 1 минуту) получить результат анализа. Код нашей программы может быть использован биологом-аннотатором для конструирования его программ аннотации геномной ДНК. Нами создаются пять баз знаний: ACTIVITY по активности функциональных сайтов (в текущей версии 16 документов для 49 закономерностей), FEATURES по конформационным и физико-химическим особенностям сайтов (51 и 1402), MATRIX по частотным матрицам сайтов (42 и 567), CONSENSUS по консенсусам сайтов (2 и 66), LEADER-mRNA по 5'-нетранслируемым районам мРНК "высоко\низко" экспрессируемых генов (3 и 99). Работа поддержана РФФИ, ГНТП "Геном человека", Молодежным и Интеграционным грантами СО РАН.