АНАЛИЗ АМИНОКИСЛОТНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ БЕЛКОВ С ПОМОЩЬЮ АНСАМБЛЯ МЕТОДОВ ТЕОРИИ РАСПОЗНАВАНИЯ ОБРАЗОВ

Валуев В. П., Куропатов Д. А., Пономаренко М. П.
Институт цитологии и генетики СО РАН, 630090 Новосибирск
Структура белка имеет три иерархических ступени: первичную, вторичную и третичную структуры. Именно последняя имеет решающее значение в проявлении функциональных свойств белка. В то же время экспериментальное определение пространственной структуры и функции белка сопряжено со значительными и зачастую принципиальными трудностями. В работах по предсказанию структуры белков применяется большое число методов теории распознавания образов. Однако в предсказании элементов вторичной структуры, для которого наиболее широко используются нейронные сети, не удаётся преодолеть достигнутый (и достаточно высокий) порог в 75%. Основным методом классификации белков по семействам с общими структурой и функцией является выравнивание последовательностей на основе гомологии, однако последние данные, полученные при анализе полного набора белков организма, показывают, что на основе гомологии удаётся классифицировать не более его трети. В настоящей работе делается попытка создать общедоступный в среде Интернет ресурс, пригодный для решения широкого круга задач, связанных с анализом первичной структуры белка. Текущая версия содержит шесть программ (написанных на языке С), основанных на методах построения консенсуса, весовых матриц, персептрона, линейного дискриминанта Фишера. На основе предоставляемых пользователем положительных и отрицательных примеров (аминокислотных последовательностей) автоматически генерируются тексты программ на языке С, распознающие подобные последовательности в произвольной. Эта система была применена к распознаванию различных ДНК-связывающих сайтов. При применении перечисленных методов по одному ошибка составляла, как правило, не более 10%. При применении всего ансамбля методов процент неверных предсказаний снижался до 1 и ниже. Это свидетельствует о том, что каждый"из методов отражает какую-либо модель взаимодействия, и, поскольку биохимические взаимодействия многостадийны и природа их не до конца известна, именно применение принципиально различных методов может повысить точность распознавания. Созданная система доступна в режиме свободного доступа по адресу: http://wwwmgs.bionet.nsc.ru/Programs/ CodGen2/all_prot.htm.