АНАЛИЗ АМИНОКИСЛОТНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ БЕЛКОВ С ПОМОЩЬЮ АНСАМБЛЯ МЕТОДОВ ТЕОРИИ РАСПОЗНАВАНИЯ ОБРАЗОВ
Валуев В. П., Куропатов Д. А., Пономаренко М. П.
Институт цитологии и генетики СО РАН, 630090 Новосибирск
Структура белка имеет
три иерархических ступени: первичную, вторичную и третичную структуры.
Именно последняя имеет решающее значение в проявлении функциональных
свойств белка. В то же время экспериментальное определение пространственной
структуры и функции белка сопряжено со значительными и зачастую
принципиальными трудностями. В работах по предсказанию структуры
белков применяется большое число методов теории распознавания
образов. Однако в предсказании элементов вторичной структуры,
для которого наиболее широко используются нейронные сети, не удаётся
преодолеть достигнутый (и достаточно высокий) порог в 75%. Основным
методом классификации белков по семействам с общими структурой
и функцией является выравнивание последовательностей на основе
гомологии, однако последние данные, полученные при анализе полного
набора белков организма, показывают, что на основе гомологии удаётся
классифицировать не более его трети. В настоящей работе делается
попытка создать общедоступный в среде Интернет ресурс, пригодный
для решения широкого круга задач, связанных с анализом первичной
структуры белка. Текущая версия содержит шесть программ (написанных
на языке С), основанных на методах построения консенсуса, весовых
матриц, персептрона, линейного дискриминанта Фишера. На основе
предоставляемых пользователем положительных и отрицательных примеров
(аминокислотных последовательностей) автоматически генерируются
тексты программ на языке С, распознающие подобные последовательности
в произвольной. Эта система была применена к распознаванию различных
ДНК-связывающих сайтов. При применении перечисленных методов по
одному ошибка составляла, как правило, не более 10%. При применении
всего ансамбля методов процент неверных предсказаний снижался
до 1 и ниже. Это свидетельствует о том, что каждый"из методов
отражает какую-либо модель взаимодействия, и, поскольку биохимические
взаимодействия многостадийны и природа их не до конца известна,
именно применение принципиально различных методов может повысить
точность распознавания. Созданная система доступна в режиме свободного
доступа по адресу: http://wwwmgs.bionet.nsc.ru/Programs/
CodGen2/all_prot.htm.