СЛАБАЯ ПЕРИОДИЧНОСТЬ НУКЛЕОТИДНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ: ПОИСК, ВЫДЕЛЕНИЕ, ОПИСАНИЕ

Бугаенко Н. Н., Горбань А. Н., Попова Т. Г., Садовский М. Г.
Акадегородок, Институт вычисилительного моделирования СО РАН, 660036 Красноярск; Институт биофизики СО РАН, 660036 Красноярск, Акадегородок
Важным направлением в исследованиях нуклеотидных последовательностей (НП) является выделение, описание и изучение тех или иных структур, существующих на них. Сами такие структуры могут быть определны многими различными способами. Предлагается метод автоматического поиска, выделения и описания такого рода структур на НП, как слабые тандемы, слабые повторы и слабая периодичность. Под слабой периодичностью мы будем понимать существование в НП достаточно продолжительных участков, которые слабо отличаются друг от друга и следуют внутри самой НП в порядке, близком к периодическому (почти периодически). Будем считать два участка последовательности близкими (похожими), если близки их частотные словари (ЧС); под частотным словарём НП понимается набор всех её фрагментов (слов) фиксированной длины, вместе с указанием частот, с которыми они в ней встречаются. Для поиска и выделения структур типа слабой периодичности выделим в изучаемой НП некоторый участок длины 2L+1 нуклеотидов (называемый шаблоном), для которого построим его частотный словарь (ЧС). Отметим в исходной НП все те нуклеотиды ni, с которых начинается слова из ЧС шаблона; индекс i нумерует слова в носителе его частотного словаря. Используя эти точки как центры, построим на них интервалы . Далее, каждому слову из частотного словаря шаблона сопоставим функцию (здесь - длина исследуемого текста): и . Покрытием будем называть функцию

, (1)

где суммирование ведётся по всем словам из носителя ЧС шаблона. Покрытие представляет собой ступенчатую функцию, определённую на целочисленной решётке, соответствующей реальной последовательности. Очевидно, что вид функции существенно зависит от двух параметров: длины шаблона и толщины его частотного словаря q. Напомним, что толщиной словаря q называется длина слов, содержащихся в этом ЧС. Кроме того, вид покрытия зависит и от выбора собственно шаблона. Если при его построении интервал выходит за границы исследуемого текста (это бывает для центров, расположенных достаточно близко к границам), то такие участки будем покрывать усечёнными интервалами, нижняя, либо верхняя граница которых совпадает с границей исследуемого текста. Всякое покрытие может быть хорошим, либо плохим. Назовём покрытие хорошим, если оно связно и полностью покрывает весь исходный текст; в противном случае покрытие будем называть плохим. Всякое плохое покрытие можно сделать хорошим, если увеличить толщину словаря, для которого оно строится, либо увеличить ширину полуинтервала. Всюду впредь будем работать только с хорошими покрытиями. Выделение слабо периодической структуры в НП с помощью покрытия производится стандартными методами спектрального анализа этой функции. В нашей работы мы строили покрытия для хромосом III, IX и XV дрожжей. Выбор именно этих хромосом был обусловлен большим интересом к ним со стороны исследователей, а также тем, что на них находятся многие важные гены. Исследование спектральных свойств покрытия для этих НП показало существование на них структур типа слабой периодичности. Кроме того, для некоторых размеров интервалов и величины шаблона наблюдается заметная корреляция между слабопериодической структурированностью и такими структурами, как, например, интрон-экзонная структура НП.