СЛОЖНОСТЬ НУКЛЕОТИДНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ САЙТОВ СВЯЗЫВАНИЯ ТРАНСКРИПЦИОННЫХ ФАКТОРОВ
Косарев П. С., Бабенко В. Н.
Лаборатория теоретической генетики, Институт цитологии и генетики СО РАН, 630090 Новосибирск
Для описания структуры
сайтов связывания транскрипционных факторов (ССТФ) определенного
типа используют понятия консенсуса и весовой матрицы, которые
отражают предпочтительность использования нуклеотидов в позициях
сайта. Однако СС разных ТФ, отличаясь нуклеотидными последовательностями,
могут обладать некоторыми общими свойствами, отражающими общность
молекулярных механизмов взаимодействия этих сайтов с ТФ. В данной
работе ССТФ изучаются с точки зрения сложности их нуклеотидных
последовательностей. Сложность нуклеотидной последовательности
определяется как наименьшее число событий, необходимых для генерации
этой последовательности. Событиями являются: (1) генерация нового
символа; (2) копирование ранее сгенерированного фрагмента последовательности
в определенной ориентации - прямой, инвертированной, симметричной
или прямой комплементарной. Задавая определенный набор ориентаций
для копирования, например, разрешая копирование только в одной
из ориентаций (D-, I-, S- и C- сложности) или в любой (DISC-сложность),
можно рассчитать для нуклеотидной последовательности соответствующие
сложности. В анализе использовались: (1) выборки ССТФ из базы
данных Aligned, содержащей последовательности ССТФ различных типов,
выравненные множественным локальным выравниванием и дополненные
флангами; (2) промоторы хромосомных генов позвоночных из базы
данных EPD. Анализ ССТФ из базы данных Aligned показал, что ряд
сайтов имеет пониженную Iсложность. В их число вошли сайты
(Ap-1, ATF, c-Fos, c-Jun, CEBP, CRE-BP1, CREB), соответствующие
транскрипционные факторы которых являются белками с доменом типа
"лейциновая застежка" и связываются с ДНК в виде гомо-
или гетеродимеров. Известно, что часто сайты связывания таких
факторов состоят из двух инвертированных участков. При анализе
профилей, построенных для выборки промоторов, оказалось, что наиболее
сложными (по S-, DIS- сложности) в последовательности являются
участки, содержащие TATA-бокс. Повышенная S-сложность (и, т.о.,
"несимметричность") этих участков может иметь отношение
к процессу ориентирования белка TBP на TATA-боксе. Описанный подход
может применяться для выявления групп сайтов определенного типа.