АКТИВИЗАЦИЯ БАЗ ДАННЫХ В РАМКАХ МОЛЕКУЛЯРНО-БИОЛОГИЧЕСКОГО СЕРВЕРА ИЦИГ СО РАН

Лаврюшев С. В., Фролов А. С., Григорович Д. А., Колчанов Н. А.
Институт цитологии и генетики СО РАН, Новосибирск
Для получения нужной пользователю информации применяется, в частности, активизация баз данных. Под этим подразумевается, что элементами хранения в базах являются не только статичные данные, но и активные блоки анализа и развитая система гиперссылок на существующие данные, а так же сценарии анализа данных на основе информации из БД. Главным преимуществом такого подхода является продукция новых знаний на основе текущей экспериментальной информации в ONLINE режиме. Рассмотрим на примере базы данных ТРРД и системы SeqAnn сам метод активизации. Активизация базы данных ТРРД производится с помощью программы нахождения старта транскрипции по известным сайтам SeqAnn. Что делает RGSiteScan Программа SeqAnn создана для поиска конкретного промотора в задаваемой последовательности. Из базы данных ТРРД извлекается информация о совокупности сайтов связывания, экспериментально определенных для этого промотора. На основе этой информации строится метод распознавания. Производится поочередный поиск сайтов связывания в задаваемой последовательности, для каждого строится функция Score (функция вероятности наличия сайта в данной области) задаваемой последовательности. Накопленная информация обрабатывается для получения результирующего Score, отражающего вероятность наличия старта транскрипции в данной области задаваемой последовательности. Полученная функция Score анализируется для поиска наиболее вероятного старта транскрипции или его отсутствии. Отличительной особенностью предлагаемого подхода является построение сценария распознавания промотора в задаваемой последовательности на основе информации о сайтах связывания транскрипционных факторов, извлекаемой из базы данных ТРРД. Алгоритм позволяет использовать для поиска информацию о произвольном количестве сайтов связывания, следовательно, по мере пополнения информации о конкретном промоторе в базе, будет возрастать точность его распознавания в задаваемой последовательности. В результате мы получаем обширную базу профилей, построенных на основе функции Score и последовательностей, которая построена на основе существующей в ТРРД информации, при изменении информации в ТРРД мы автоматически получаем скорректированные данные относительно стартов транскрипции, полученных ранее системой.