ИЗУЧЕНИЕ КОНТЕКСТНЫХ ОСОБЕННОСТЕЙ ПРОМОТОРНЫХ РАЙОНОВ ГЛОБИНОВЫХ ГЕНОВ С ПОМОЩЬЮ МЕТОДА ВЫРОЖДЕННЫХ ОЛИГОНУКЛЕОТИДНЫХ МОТИВОВ

Вишневский О. В., Подколодная О. А., Бабенко В. Н.
Институт цитологии и генетики СО РАН, 630090 Новосибирск
Эффективное и точное распознавание промоторных районов генов необходимо и для идентификации генов, и для предсказания тканеспецифичности их экспрессии. Нами предложен новый метод поиска и изучения специфических контекстных особенностей в регуляторных последовательностях генов и создан интернет-доступный компьютерный пакет ARGO для их анализа. Метод основан на кластеризации всех похожих олигонуклеотидов заданной длины из разных последовательностей в классы, с дальнейшим построением консенсусов для каждого класса. Олигонуклеотидный мотив, полученный с помощью данной процедуры, считается значимым, если биномиальная вероятность P(n,N) наблюдать его по случайным причинам в n и более последовательностях из N ниже, чем заданный уровень значимости а. Данный подход был применен для анализа выборки коровых промоторов глобиновых генов из базы данных EPODB. Выборка состояла из 64 последовательностей промоторов, и охватывала участок (-120:+20) п.о. относительно старта транскрипции. Для данной выборки были получены наборы характеристических мотивов длины 8, каждый из которых присутствовал не менее чем в 60% последовательностей с вероятностью присутствия по случайным причинам менее чем 10-10. Затем мы проанализировали картины распределения каждого из мотивов вдоль последовательностей промоторов, по сравнению со случайными последовательностями. Оказалось, что промоторы глобиновых генов содержат 4 района, содержащих достоверные вырожденные олигонуклеотидные мотивы. Эти мотивы соответствуют: для района (-90.-70) сайтам связывания транскрипционных факторов ССААТ- binding factor, CP1, NFE-6, GATA-1, CDP. CAC- binding protein, для района (-60;-40) CTF, NF-1, AP-1, Spl, GATA-1, NFE-6. CP1, USF, для района (-40.-20) TBP, TFIID, GATA-1, для района (+1;+20) GATA-1, CP1, CTF, NF-1, USF. Кроме того, с помощью компьютерного моделирования было показано, что данные мотивы достоверно представлены только в вышеуказанных районах промоторов, а в окружающих их районах эти мотивы присутствуют достоверно реже, чем это ожидается по случайным причинам. Данный факт может являться следствием позиционирующей роли сайтов связывания транскрипционных факторов в промоторах и использоваться для построения процедур распознавания промоторов глобиновых генов.