ИЗУЧЕНИЕ КОНТЕКСТНЫХ ОСОБЕННОСТЕЙ ПРОМОТОРНЫХ РАЙОНОВ ГЛОБИНОВЫХ ГЕНОВ С ПОМОЩЬЮ МЕТОДА ВЫРОЖДЕННЫХ ОЛИГОНУКЛЕОТИДНЫХ МОТИВОВ
Вишневский О. В., Подколодная О. А., Бабенко В. Н.
Институт цитологии и генетики СО РАН, 630090 Новосибирск
Эффективное и точное распознавание
промоторных районов генов необходимо и для идентификации генов,
и для предсказания тканеспецифичности их экспрессии. Нами предложен
новый метод поиска и изучения специфических контекстных особенностей
в регуляторных последовательностях генов и создан интернет-доступный
компьютерный пакет ARGO для
их анализа. Метод основан на кластеризации всех похожих олигонуклеотидов
заданной длины из разных последовательностей в классы, с дальнейшим
построением консенсусов для каждого класса. Олигонуклеотидный
мотив, полученный с помощью данной процедуры, считается значимым,
если биномиальная вероятность P(n,N)
наблюдать его по
случайным причинам в n и более последовательностях из N
ниже, чем заданный уровень значимости а. Данный подход
был применен для анализа выборки коровых промоторов глобиновых
генов из базы данных EPODB.
Выборка состояла из 64 последовательностей промоторов, и охватывала
участок (-120:+20) п.о. относительно старта транскрипции. Для
данной выборки были получены наборы характеристических мотивов
длины 8, каждый из которых присутствовал не менее чем в 60% последовательностей
с вероятностью присутствия по случайным причинам менее чем 10-10.
Затем мы проанализировали картины распределения каждого из мотивов
вдоль последовательностей промоторов, по сравнению со случайными
последовательностями. Оказалось, что промоторы глобиновых генов
содержат 4 района, содержащих достоверные вырожденные олигонуклеотидные
мотивы. Эти мотивы соответствуют: для района (-90.-70) сайтам
связывания транскрипционных факторов ССААТ-
binding factor, CP1, NFE-6, GATA-1, CDP. CAC- binding protein,
для района (-60;-40) CTF, NF-1, AP-1, Spl,
GATA-1, NFE-6.
CP1, USF,
для района (-40.-20) TBP, TFIID, GATA-1,
для района (+1;+20) GATA-1,
CP1, CTF, NF-1, USF.
Кроме того, с помощью компьютерного моделирования было показано,
что данные мотивы достоверно представлены только в вышеуказанных
районах промоторов, а в окружающих их районах эти мотивы присутствуют
достоверно реже, чем это ожидается по случайным причинам. Данный
факт может являться следствием позиционирующей роли сайтов связывания
транскрипционных факторов в промоторах и использоваться для построения
процедур распознавания промоторов глобиновых генов.