МЕТОД ДИСКРИМИНАНТНОГО АНАЛИЗА ДЛЯ РАСПОЗНАВАНИЯ КОНТЕКСТНЫХ СИГНАЛОВ САЙТОВ СВЯЗЫВАНИЯ НУКЛЕОСОМ

Левицкий В. Г.
Институт цитологии и генетики СО РАН, 630090 Новосибирск
Для распознавания нуклеосомных сайтов применён метод многомерного дискриминантного анализа. В качестве компонент многомерных векторов использованы частоты динуклеотидов. Исходными данными анализа являются две выборки последовательностей ДНК объёма N каждая (сайтов и случайные последовательности). В качестве первой взята выборка из 141 сайта. Пусть g О {1, 2} обозначает номер выборки, n О {1,…,N} номер последовательности, j О {1, 16} тип динуклеотида. Далее подсчитываются: частоты встречаемости динуклеотидов для каждой последовательности ДНК и средние по выборке частоты = ; ковариации = и объединённая ковариационная матрица = + . Дискриминантная функция вычисляется по следующей формуле:

= .

Описанным методом проанализирован ряд регуляторных и структурных районов генов эукариот. Для районов промоторов показано, что район [-200, +50] относительно старта транскрипции характеризуется падением значений распознающей функции, а в районе [+50, +400] наблюдается рост этих значений. Анализ сайтов сплайсинга показал, что значения распознающей функции для интронов существенно больше, чем для экзонов. Это может быть объяснено тем, что экзоны несут в себе дополнительный груз генетического кода. Сателлитная ДНК обладает повышенными значениями распознающей функции по сравнению с геномной ДНК. Данный метод анализа может применяться как для исследования структуры хроматина отдельных генов, так и выборок функционально или структурно связанных районов ДНК. Метод также применим для распознавания других слабых контекстных сигналов в ДНК. Работа поддержана грантом РФФИ (97-04-49740).