АКТИВИЗАЦИЯ БАЗ ДАННЫХ В РАМКАХ МОЛЕКУЛЯРНО-БИОЛОГИЧЕСКОГО СЕРВЕРА ИЦИГ СО РАН
Лаврюшев С. В., Фролов А. С., Григорович Д. А., Колчанов Н. А.
Институт цитологии и генетики СО РАН, Новосибирск
Для получения нужной пользователю
информации применяется, в частности, активизация баз данных. Под
этим подразумевается, что элементами хранения в базах являются
не только статичные данные, но и активные блоки анализа и развитая
система гиперссылок на существующие данные, а так же сценарии
анализа данных на основе информации из БД. Главным преимуществом
такого подхода является продукция новых знаний на основе текущей
экспериментальной информации в ONLINE режиме. Рассмотрим на примере
базы данных ТРРД и системы SeqAnn сам метод активизации. Активизация
базы данных ТРРД производится с помощью программы нахождения старта
транскрипции по известным сайтам SeqAnn. Что делает RGSiteScan
Программа SeqAnn создана для поиска конкретного промотора в задаваемой
последовательности. Из базы данных ТРРД извлекается информация
о совокупности сайтов связывания, экспериментально определенных
для этого промотора. На основе этой информации строится метод
распознавания. Производится поочередный поиск сайтов связывания
в задаваемой последовательности, для каждого строится функция
Score (функция вероятности наличия сайта в данной области) задаваемой
последовательности. Накопленная информация обрабатывается для
получения результирующего Score, отражающего вероятность наличия
старта транскрипции в данной области задаваемой последовательности.
Полученная функция Score анализируется для поиска наиболее вероятного
старта транскрипции или его отсутствии. Отличительной особенностью
предлагаемого подхода является построение сценария распознавания
промотора в задаваемой последовательности на основе информации
о сайтах связывания транскрипционных факторов, извлекаемой из
базы данных ТРРД. Алгоритм позволяет использовать для поиска информацию
о произвольном количестве сайтов связывания, следовательно, по
мере пополнения информации о конкретном промоторе в базе, будет
возрастать точность его распознавания в задаваемой последовательности.
В результате мы получаем обширную базу профилей, построенных на
основе функции Score и последовательностей, которая построена
на основе существующей в ТРРД информации, при изменении информации
в ТРРД мы автоматически получаем скорректированные данные относительно
стартов транскрипции, полученных ранее системой.