СЛОЖНОСТЬ НУКЛЕОТИДНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ САЙТОВ СВЯЗЫВАНИЯ ТРАНСКРИПЦИОННЫХ ФАКТОРОВ

Косарев П. С., Бабенко В. Н.
Лаборатория теоретической генетики, Институт цитологии и генетики СО РАН, 630090 Новосибирск
Для описания структуры сайтов связывания транскрипционных факторов (ССТФ) определенного типа используют понятия консенсуса и весовой матрицы, которые отражают предпочтительность использования нуклеотидов в позициях сайта. Однако СС разных ТФ, отличаясь нуклеотидными последовательностями, могут обладать некоторыми общими свойствами, отражающими общность молекулярных механизмов взаимодействия этих сайтов с ТФ. В данной работе ССТФ изучаются с точки зрения сложности их нуклеотидных последовательностей. Сложность нуклеотидной последовательности определяется как наименьшее число событий, необходимых для генерации этой последовательности. Событиями являются: (1) генерация нового символа; (2) копирование ранее сгенерированного фрагмента последовательности в определенной ориентации - прямой, инвертированной, симметричной или прямой комплементарной. Задавая определенный набор ориентаций для копирования, например, разрешая копирование только в одной из ориентаций (D-, I-, S- и C- сложности) или в любой (DISC-сложность), можно рассчитать для нуклеотидной последовательности соответствующие сложности. В анализе использовались: (1) выборки ССТФ из базы данных Aligned, содержащей последовательности ССТФ различных типов, выравненные множественным локальным выравниванием и дополненные флангами; (2) промоторы хромосомных генов позвоночных из базы данных EPD. Анализ ССТФ из базы данных Aligned показал, что ряд сайтов имеет пониженную I­сложность. В их число вошли сайты (Ap-1, ATF, c-Fos, c-Jun, CEBP, CRE-BP1, CREB), соответствующие транскрипционные факторы которых являются белками с доменом типа "лейциновая застежка" и связываются с ДНК в виде гомо- или гетеродимеров. Известно, что часто сайты связывания таких факторов состоят из двух инвертированных участков. При анализе профилей, построенных для выборки промоторов, оказалось, что наиболее сложными (по S-, DIS- сложности) в последовательности являются участки, содержащие TATA-бокс. Повышенная S-сложность (и, т.о., "несимметричность") этих участков может иметь отношение к процессу ориентирования белка TBP на TATA-боксе. Описанный подход может применяться для выявления групп сайтов определенного типа.