БАЗА ЗНАНИЙ О НЕКОТОРЫХ БЕЛКОВЫХ ДОМЕНАХ

Существующие методы анализа аминокислотных последовательностей имеют два общих свойства: каждый из них опирается только на одну математическую модель и пригоден для решения достаточно узкого круга задач. В настоящей работе делается попытка разработать гибкий метод для анализа первичной структуры белка, который учитывает большое число методов распознавания образов (построение консенсуса, частотные матрицы, персептрон, линейный дискриминант Фишера, нейронные сети, скрытые Марковские цепи) и, наряду со стандартным 20-буквенным представлением, различные физико-химические свойства аминокислот. Разрабатываемая система общедоступна в среде Интернет по адресу. На основе предоставляемых пользователем положительных и отрицательных примеров (аминокислотных последовательностей) автоматически генерируются тексты программ на языке С, распознающие подобные последовательности в произвольной. Эта система была применена к распознаванию различных ДНК-связывающих доменов (цинковый палец, лейциновая застёжка, гомеодомен и другие). При применении перечисленных методов по одному ошибка составляла, как правило, не более 10%. При применении всего ансамбля методов и усреднении полученных результатов процент неверных предсказаний снижался до 1 и ниже. Результатом работы явилась база знаний Samples_Prot (доступная с помощью системы SRS http://sgi.sscc.ru/srs5/), которую составляют выборки аминокислотных последовательностей доменов, извлечённые из базы данных Swiss_Prot (при её составлении исключались вероятные или классифицированные по гомологии последовательности), и знания об этих доменах в виде текстов распознающих программ с оценкой их достоверности. Подобный вид представления знаний может быть оправдан тем, что каждая из математических моделей и аминокислотных классификаций отражает одну из сторон сложного и многостадийного макромолекулярного взаимодействия, в котором проявляется функция белка и, таким образом, эти знания есть знания о преобладающих механизмах взаимодействия, а применение многих моделей позволяет создать наиболее полную картину макромолекулярных взаимодействий в терминах методов распознавания образов.