ПОИСК ПРОМОТОРОВ НА ОСНОВЕ ИСПОЛЬЗОВАНИЯ ЭКСПЕРИМЕНТАЛЬНОЙ ИНФОРМАЦИИ ОБ ИХ СТРУКТУРЕ
Фролов А. С., Григорович Д. А., Лаврюшев С. В., Пономаренко М. П.
Лаборатория теоретической генетики, Институт цитологии и генетики СО РАН, 630090 Новосибирск
Нами предлагается подход
к распознаванию регуляторных районов-проморов на основе автоматического
использования экспериментальных данных, накапливаемых в специализированных
базах данных. Создан модуль SeqAnn, позволяющий проводить поиск
промоторов заданного типа в последовательностях пользователя.
Поиск промоторов проводится на основе информации, извлекаемой
из базы данных ТРРД. При распознавании используется информация
о структуре этих районов, содержащая набор последовательностей
сайтов связывания транскрипционных факторов и их положение относительно
старта транскрипции. Строится сценарий распознавания, предлагаемый
пользователю, при необходимости вносящему коррективы. Модуль рассчитывает
весовую функцию и находит наиболее вероятный старт транскрипции.
Алгоритм позволяет использовать для поиска информацию о произвольном
количестве сайтов связывания, следовательно, по мере пополнения
информации о конкретном промоторе в ТРРД, будет возрастать точность
его распознавания в задаваемой последовательности. Модуль является
интерактивным и WWW-available. Основными компонентами модуля являются:
база данных - выборка из ТРРД, активные субмодули: выбора
промотора для распознавания в задаваемой последовательности; формирования
сценария распознавания; расчета Score; принятия решения; отображения
полученных результатов. Модуль снабжена гиперссылками на базу
данных ТРРД и ее средства визуализации. При входе в систему предлагается
задать последовательность, в которой будет производиться поиск
и выбрать промотор для поиска его аналога в последовательности.
Промоторы сгруппированы по функциональным группам генов. В настоящее
время имеется пять групп - эритроид-специфичные, растительные,
интерферон-индуцируемые, гистоновые и промоторы рибосомальных
белков. Общее число промоторов, информация о которой накоплена
в специальной базе данных, в настоящее время составляет более
42. На следующем этапе предлагается страница с формой, содержащая
таблицу сайтов, содержащую названия, положение относительно старта
транскрипции и последовательность сайта. Важно отметить, что при
проведении поиска сайтов можно установить интервал, в пределах
которого будет производиться поиск сайтов относительно его положения,
которое определяется информацией из ТРРД. Эта возможность важна,
так как даже в близкородственных генах положение сайтов немного
варьирует. Поиск отдельных сайтов можно отключить, сбросив соответствующий
флажок около имени сайта. После проведения поиска промотора, алгоритм
которого описан, на экране появляется Score, на котором показана
наиболее вероятная точка старта транскрипции. Качество распознавания
оценивалось на примере интерферон-индуцируемых генов. Был проведен
анализ более чем 60 промоторов интерферон-индуцируемых генов,
случайных последовательностей и 30 промоторов тканеспецифичных
генов. Показано хорошее качество распознавания старта транскрипции
в промоторах интерферон-индуцируемых генов. Модуль доступен по
адресу http://wwwmgs.bionet.nsc.ru/programs/seqann /.