КОНЦЕПЦИЯ СИСТОЛИЧЕСКОЙ МОДЕЛИ

ФЕНОМЕНОВ ЗРИТЕЛЬНОЙ РЕПРЕЗЕНТАЦИИ

И ПРОСТРАНСТВЕННОЙ КОНСТАНТНОСТИ[1]

 

Николаев П.П., Николаев Д.П.

 

(Москва)

 

 

1. Предмет исследования и история вопроса.

1.1. О моделях наблюдаемого в психофизиологии и техническом зрении.

Уже полвека актуален вопрос: в какой мере факты перцептивной психологии и данные физиологии зрения могут помочь разработке автономных систем технического зрения? «Нейрокомпьютерная метафора» практических истолкований не дала, хотя тезис параллельной обработки изображений из некогда революционной успел стать концепцией неоспоримой. Сенсорная физиология в части проблем цветовосприятия обеспечила исчерпывающее понимание метода колориметрии и снабдила модельные постановки в области константности цвета феноменологической базой. Исследование метрики цветового пространства трихромата помогло созданию математических моделей цветоконстантности с аналогичным человеческому подразделением оценок: качества тон, насыщенность и светлота/яркость характеризуют спектральные функции тел (их отражательные свойства) и источников (кривую эмиссии) [1-3]. Использование спектральных и геометрических инвариантов среды наблюдения в разработке процедур и механизмов для задач зрения позволило наделить модели свойствами, присущими трихромату в реальной неколориметрической ситуации [2-4]. Это оказалось возможным в результате исследования закономерностей, связывающих признаки сцены с устойчивыми признаками ее изображения, – как итог формального изучения трансформации инвариантов объекта сцены в квази-инварианты сенсорного поля, а далее – в «константы» ощущения. Процедурные подходы, которые следует трактовать объединяющими задачи цветовой и пространственной константности (К), рассмотрим далее на примере задачи динамического стереосинтеза объекта, упомянув, что сходный процедурный прием (метод двойственного отображения точки и прямой на плоскости цветности) был применен нами в модели цветовой К и сегментации [2].

 

1.2. Виды пространственной константности и проблемы их моделирования.

Моделируя различные аспекты в работе систем зрения, обычно изучают режимы (либо каналы) изолированно: известны модели моно- и бинокулярные, ставятся задачи статические (оценки цветовые) и динамические (оценки формы объектов). Наиболее корректными для формального решения обратных задач в техническом зрении считаются условия наблюдения в динамике, а в них – по простоте процедур – для систем монокулярных. Поскольку многие проблемы целостного зрения остались на этом пути неразрешенными (к ним относятся, например, задачи репрезентации, установления структурного соответствия, ассоциативной иконической памяти, семантической сегментации и т.п.), то даже предложения чисто концептуального характера не потеряли для симулируемого визуального процесса своей значимости. Уместен подход к проблеме, казалось бы ее усложняющий не обязательными для технического зрения задачами: не может ли привлечение особенностей человеческого восприятия, связанных с характером работы «живой оптики», глазодвигательного и перцептивно-анализаторного аппаратов, помочь в разработке автономной зрительной системы? Иными словами, то, что нам ныне известно об активном движении глаз в ходе наблюдения и о компенсирующих эти движения механизмах пространственной К, попытаемся осмыслить не как ряд морфофункциональных издержек биологической системы, а как данные о зрительном анализаторе, чьи структурные и функциональные принципы соотносят конструкцию и язык «искусственного зрительного интеллекта» [4]. Глазной орган функционирует как активный сенсор, производя прослеживающие и фиксационные движения, а стабильность зрительного поля обеспечивают при этом механизмы К: ротационную подвижность яблока (а вместе с нею и сдвиги ретинальной проекции) компенсирует К зрительного направления, а смещения бинокулярного эгоцентра (т.е. головы наблюдателя относительно интерьера) – К видимого положения. Модельные постановки задачи параллакс движения дали известную альтернативу разработчикам роботов: полезность привлечения для реконструкции формы объекта (при подвижной камере) информации иной, не визуальной природы (датчики локомоции, как аналог канала проприорецепции). Так в зрении роботов появилась идеология и алгоритмика активного сенсора. В рамках обсуждаемой здесь авторской концепции мы декларируем избыточность этого тезиса, заявляя достаточность одномодального сенсорного потока для большинства задач стереосинтеза. Далее мы покажем схему решения задачи кинетический эффект глубины, для которой постулируются неподвижность сенсора и движение объекта (человек справляется с этой задачей, хотя проприоцептивных сигналов она не предполагает). Ограниченность объема не позволит нам обсудить роль окклюзии в задаче оценки формы и предваряющей ее проблеме установления соответствия (УС) [4] и развитую на Западе теорию оптического потока [5]. Ей мы противопоставляем решение проблемы УС на базе процедур с привлечением проективных инвариантов, присущих геометрии тел, и процесс стереосинтеза по дискретной структуре опорных элементов (ОЭ), для которой на наборе входных картин УС уже завершилось [4].

 

1.3. Полевой принцип гештальт-теории и реализация концепции «наивного изоморфизма» на СВУ параллельной архитектуры «систолического» типа.

Так и не воплощенные в моделях зрения, не потеряли пока притягательности постулаты гештальт-теории, дошедшие из докомпьютерной эпохи. На наш взгляд, наиболее перспективны среди них принципы наивного изоморфизма и актуального поля. Первый трактует создание внутренней 3D модели наблюдаемого, адекватной «по цвету и формам» своему предметному прообразу, второй – утверждает ее «real time» природу. Истолкуем их буквально: в «виртуальном» пространстве репрезентации создаются и далее поддерживаются, уточняя в ходе наблюдения свои характеристики, 3D образы объектов, причем их структура создается как жесткая композиция ОЭ (в общем случае являющихся контрастными «точками» и «фрагментами», т.е. объектами, не исчезающими при рассматривании под другим ракурсом либо в другие моменты времени). Далее в этом пространстве производится интерполяция всех поверхностей, структурированных как «скелет» из ОЭ, с точностью до подобия воспроизводящий форму тел сцены, после чего модель поверхности получает «качества» – перцепты окраски, прозрачности, текстуры и пр., найденные на этапе работы механизмов цветовой К и анализа текстур. При этом «основным перцептивным представлением» должно быть представление эгоцентрическое, в то время как сервисные процедуры могут потребовать объектоцентрического представления (целенаправленный переход от одних координат к другим позволяет строить процедуры динамической оценки формы тел, см. п. 2). Опираясь на положения лучевой оптики и в качестве оптической схемы сенсора выбирая центральную проекцию (плоскую проекцию – для технических и сферическую типа стереографической – для биологических систем), мы описали ранее ряд алгоритмов распознавания 2D и 3D объектов [4, 6] через структуру их ОЭ для специализированной вычислительной среды (СВС) параллельного действия. В прямой зависимости от того, какая задача ставилась, использование тех или иных инвариантов (для задач стереосинтеза и распознавания плоских объектов нами был взят вурф – проективный инвариант, известный еще как «двойное отношение коллинеарного ряда четырех точек в линейном пространстве») позволяло выработать алгоритм ее решения для некой СВС, а принципы организации СВС оказывались для разных задач весьма сходными. Основные из этих принципов (П) таковы: а) П однотипности процедур для всех вычислительных узлов СВС; б) П близкодействия для взаимодействующих узлов и в) П систоличности СВС, т.е. узлов – сотни тысяч, они образуют регулярную сеть, а вычислительный ресурс любого узла невелик. Изоморфную репрезентацию объектов на СВС мы истрактуем как переход некоторой композиции ее узлов (соответствующей топически 3D структуре формируемого представлния) из исходно «пассивного» состояния в «активное». Поступающие данные пополняют и уточняют дискретную модель объекта, как виртуальную композицию активных узлов, интерполирующую его поверхность. Так к неизбежному вырождению размерности образа нами вполне осознанно добавлено вырождение представительства: непрерывное в сцене предстает как дискретное во внутренней модели. Этот подход к моделированию формы нисколько не нов. Не нова и мысль, что практические потребности могут сильно видоизменять общую задачу, меняя тем самым и путь ее решения. Следует, например, вспомнить, что комьютерный бум придал импульс развитию стереофотограмметрии по пути автоматизации ее задач (3D реконструкция рельефа, наблюдаемого с самолета или спутника), т.е. стимулировал разрешение проблемы УС. Неослабный интерес к теме оценки 3D формы по 2D проекциям объясним, поскольку велика комбинаторика технических условий, схем регистрации и «идеализаций» для подобных задач. Таким образом, вполне возможны и новые постановки для этой уже не новой проблемы. Возвращаясь к СВС как к структуре той же размерности, что и реализуемая на СВС модель зрительного пространства («пустого и ненаблюдаемого» – положением пассивных узлов, а для освещенной поверхности тел – узлами «активными»), заметим, что в сравнении с задачей бинокулярного синтеза, где величина бинокулярной базы может стать мерой длин в модели, задача монокулярной оценки формы для объекта в динамике разрешима лишь с точностью до подобия (в декартовом пространстве). Таким же образом, углы, размеры и расстояния в модели могут подразумевать разную «метрику», а пространственный базис модели – разную структуру в зависимости от решаемой зрительной задачи. Но объявленные выше П остаются при этом в силе, а большего «биологизма», нежели в иных парадигмах зрения как процесса вычисления, предлагается достичь за счет смены операциональных приоритетов: 1) там, где это возможно, вычисление заменяют измерением/построением либо обменом данных; 2) само вычисление распределено в узлах СВС, упрощаясь до целочисленной арифметики (и без необходимости прибегать к специальным «функциям» и «операторам»). Т.е., единожды справясь с коннекционистскими трудностями при создании СВС, мы получаем неуниверсальное устройство с лучшими, чем у универсального, показателями в рамках заранее оговоренного списка задач.

 

1.4. Формулировка проблемы «кинетического эффекта глубины».

Обсудим задачу реконструкции 3D формы объекта в динамике применительно к реализации данной и ряда сходных задач в СВС уточняемого типа. Обработка входных картин может вестись безотносительно к схеме их порождения. Бинокулярная пара проекций для статического наблюдения при неизвестных параметрах взаимного ориентирования (в живых системах – при блокировании сигнала об углах вергенции) информационно неотличима от пары картин, последовательно полученных в динамике монокулярного наблюдения, если эти проекции предполагается использовать для стереосинтеза тел сцены. В этом смысле два ракурса объекта, зарегистрированные одновременно либо последовательно, вполне равноценны. Если бы удалось построить процедуру оценки относительной формы объекта по паре проекций (а не по трем или большему числу ракурсов), то развиваемая здесь концепция получила бы новое качество – преимущество общности механизмов. Максимально упростим задачу «кинетической оценки глубины» для акцентации главных особенностей метода ее решения. Будем считать, что в поле зрения монокулярной системы находится один произвольным образом движущийся объект, задаваемый двумя плоскими центральными проекциями жесткой 3D конфигурации его ОЭ (пусть для простоты это будут контрастные точки КТ тела), УС которых уже успешно проведено. В объектоцентрическом представлении сенсор изменяет позицию от такта первой проекции к такту второй. Совокупность двух ракурсов в этих координатах образует 3D конфигурацию двух проецирующих пучков лучей. При этом центры пучков локализованы в точках, соответствующих положениям фокусов сенсора, а лучи связывают центры с каждой из КТ. Так мы эквивалентным для постановки задачи образом переописали динамическую картину через статическую в координатах объекта. Это та физическая модель ситуации, для которой мы построим изоморфную ей внутреннюю модель. Дополнительное непринципиального характера допущение (оно упростит алгоритм решения) сделаем, вводя в процесс наблюдения операцию прослеживания: произвольная КТ t1 избрана как «фиксационная», т.е. оптическая ось совмещена с этой t1 в обоих ракурсах, угол же поворота оси между тактами фиксации предполагается неизвестным. Описанная выше физическая модель сцены обладает свойством, которое мы используем в качестве проверяемого условия в модели СВС нашей задачи: каждая пара корреспондирующих лучей пересекается в своей КТ, т.е. инцидентна некой плоскости (см. Рис. 1). Используем известное из геометрии условие компланарности для четырех точек пространства (двух j=1,2 центров проецирования Fj и 3D координат обрабатываемой КТ в плоскостях Sj проекции) в виде равенства нулю детерминанта третьего порядка от 3D координат этих точек. Встает вопрос об учете неизвестного угла y12 относительной торзии для плоскостей проекции Sj, так как объект необходимо описать в координатах моделирующего сцену «пространства СВС», используя согласованные данные для Sj. Поясним, что y это один из трех углов Эйлера, описывающих вращение объекта. В нашем случае y12 – угол поворота одной из Sj в собственной плоскости вокруг главной оси проекции, согласующий по ориентации известные 2D координаты любой КТ на S1 и S2 с неизвестными их 3D координатами в некой единой декартовой системе. Идею решения стоящей задачи кратко выразим так. Фиксируем позицию F1 в избранной точке пространства D3, репрезентируемого СВС, и ориентируем для D3 направление оптической оси из F1. По отношению к позиции F1 позиция F2 в D3 неизвестна. Для каждого узла n в СВС, репрезентирующего свой 3D сегмент vn в D3, сообразно его относительной позиции «на правах кандидата представлять точку F2», проверяется условие e компланарности двух лучей: прямой в каждую КТ из позиции vn и прямой в ту же самую КТ из точки F1. Тогда узел, наиболее точно представляющий своим относительным положением искомую позицию F2, должен сформировать наименьшую суммарную (по всем КТ) оценку по условию e. «Узел-победитель» и даст итоговую версию 3D реконструкции «скелета» объекта. Она «обязана» оказаться подобной (с масштабным множителем, по теории неопределимым) реальной 3D конфигурации КТ. Для коррекции угла y12 мы также привлекаем условие e, но уже для пересекающихся лучей, связанных с еще одной фиксированной КТ t2. Итак, из шести неизвестных параметров, задающих движение жесткой композиции КТ (три угла Эйлера и три компоненты вектора трансляции) два угловых связаны в акте прослеживания t1, угловой параметр y12 связан условием на t2, а трансляционный произвол разрешается «численным конкурсом» между узлами за представительство позиции F2, (в условиях, когда центр нами F1 фиксирован, задана ориентация его оси и разумным образом для данной плотности узлов выбрано расстояние от t1 до центра F1). От идеи решения перейдем к описанию его алгоритма.

 

2. Модель монокулярной динамической оценки формы объекта.

2.1. Система координат модели и алгоритм решения поставленной задачи.

Итак, наши исходные данные – две центральные проекции КТ тела с известной угловой апертурой этих проекций (либо с известным расстоянием  от центров проецирования  до плоскостей проекций ). Координаты -ой КТ в плоскости -й проекции обозначим как . Наша задача – восстановить 3D координаты КТ тела с точностью до трансляции, поворота и масштабирования объекта как целого (для устранения неопределенности нам понадобилась бы информация о физических координатах центров проецирования). Таким образом, в модельном пространстве координаты центра проецирования и направление оптической оси одной из проекций произвольны. Логично поместить центр первой проекции F1 в начало координат, оптическую ось направить вдоль оси Z, а оси X и Y первой проекции совместить с осями X и Y модельной системы. Тогда модельные координаты КТ в первой проекции примут вид . Модельные координаты КТ во второй проекции запишем в виде . Здесь  – векторы, составляющие матрицу поворота с углами Эйлера :

,        (1)

а  – координаты . Таким образом, мы должны найти шесть параметров положения плоскости , такие, чтобы каждый луч проецирования первой проекции пересекся с соответствующим лучом второй проекции. Можно показать, что (для широкого класса невырожденных конфигураций КТ) количество решений бесконечно велико, причем каждое решение соответствует верной реконструкции и отличается от остальных лишь масштабом. Эту неопределенность можно устранить, задав, например, расстояние от реконструированной первой точки  до центра . Т.е. мы можем потребовать, чтобы  имела координаты , где  – произвольное число, большее . Предположим теперь, что ,  и  нам известны. Тогда из условия пересечения первой пары проекционных лучей в точке  легко найти  и :

             .(2)

Оставшийся угол  найдем из условия пересечения второй пары лучей:

, где .                     (3)

При известных  и  координаты  запишутся в виде:

 

                 (4)

Мы не расписываем здесь весьма громоздкие коэффициенты . Их нетрудно получить из соотношения (1).

Уравнение (2) перепишем в виде

 

, (5)

где . Уравнение (5) имеет два решения:

, .                  (6)

Таким образом, для любых координат ,  и  мы можем найти две тройки углов , совместных с этими координатами. Если нам известно, что перемещение объекта и сенсора между тактами невелико, можно провести вычисления по формулам (2)-(6) для каждого узла n трехмерной решетки, заполняющей ограниченную область вокруг начала координат пространства D3. Истинное положение плоскости второй проекции S2 относительно объекта логично выбрать по условию минимума «невязки» пересечения лучей  (одновременно мы выбираем при этом и правильный вариант ):

 

.            (7)

Знаменатель в выражении (7) нормализует функцию оценки, исключая «ложный» минимум в точке (0, 0, 0) (эта точка является искомым минимумом только в случае неподвижного объекта, когда его реконструкция все равно невозможна). Как показал численный эксперимент, при приближении к этой точке ошибка 3D реконструкции в согласии с теорией нелинейно возрастает.

Найденные 3D координаты для проекции S2, как правило, не будут точными по причине дискретного покрытия непрерывного пространства D3 решеткой узлов – при любой разумной ее плотности, а значит, корреспондирующие лучи проецирования в их модельном приближении не обязаны следовать в общем случае закону пересечения в КТ. Поэтому в качестве оптимальных точек для реконструируемой формы объекта целесообразно выбрать точки середин общих перпендикуляров к корреспондирующим лучам проецирования, что и было практически осуществлено нами в модельном эксперименте.

 

2.2. Численный эксперимент и основные его результаты.

Вышеизложенный алгоритм был реализован в среде Borland Delphi в виде приложения, решающего последовательно прямую и обратную задачи. Эксперимент не имел целью воспроизводить и исследовать феномены окклюзии. В качестве исходных объектов были выбраны облака 16 либо 256 априори корреспондированных КТ, лежащих на полусфере радиуса, задаваемого по выбору через интерфейс программы. 3D распределение КТ также можно было задавать с пульта. Параметры проецирования (в совокупности определяющие кинематику объекта) для каждого такта выбирались каждый раз произвольно. При решении обратной задачи в качестве области значений ,  и  был взят сферический слой с центром в точке , со средним радиусом 6 и толщиной 4. В этой области сетка содержала 219 (около полумиллиона) узлов. Время счета обратной задачи составляло около минуты. Исходный объект и результат реконструкции показан на Рис. 2 (масштабы приравнены искусственно для облегчения сравнения). На Рис 3 и 4 показан вид функции W(D)= в сферических координатах вдоль одной из сфер сферического слоя (в каждой точке из двух полученных значений выбирался угол , соответствующий меньшему значению ). Как можно видеть, распределение W(D) имеет единственный локальный минимум и монотонно ведет себя на всей области определения. В соответствии с аналитическим рассмотрением свойство монотонности не нарушалось в модельном эксперименте с объектами, 3D распределение КТ которых не имело выраженных особенностей плоской либо осевой симметрии. Отлаженная версия программы производила также оценку точности реконструированной формы объекта. На основании накопленной статистики моделирования (десятки вариантов кинематики для каждого из десятка объектов со значительными различиями в распределении и числе КТ) можно сделать вывод об удовлетворительной устойчивости и точности нами предложенного метода.

 

2.3. Иные подходы к решению пространственных задач и перспективы метода.

Рассмотрим вкратце список проблем, оставшихся за рамками предпринятого численного эксперимента. Прозрачность объекта позволила нам исключить из модели проблематику окклюдирования, поскольку заслонение порождает трудности лишь для процесса УС, а корреспонденцию на начальном этапе моделирования мы решили не затрагивать. Но, готовясь к следующему шагу в численной симуляции феноменов стереосинтеза и репрезентации, мы можем обсудить план этого шага. Вводя окклюзию, мы намерены включить в модель и решение задачи УС. Представляется интересным рассмотреть тот подход, что мог бы сочетать методы, развитые нами для цветовой тематики, с необсуждавшейся ранее схемой УС. Среди всевозможных вариантов регулярного относительного движения в системе сенсор/объект зададимся классом плоских движений. Подобное свойство (компланарность структуры центров Fj и им соответствующей КТ для ряда тактов в объектоцентрическом представлении) имеет место при движении: 1) чисто трансляционном; 2) ротационном – вокруг неподвижной оси (не совпадающей с оптической осью сенсора); 3) комбинированном, когда ось ротации перпендикулярна вектору трансляции. В случае коллинеарности оси ротации и вектора трансляции после правильной коррекции торзии конфигурация Fj также окажется компланарной. Для всех этих вариантов метод двойственных отображений, распространенный с плоского, ранее нами рассмотренного случая (там это была двойственность прямой и точки относительно окружности) на 3D случай (здесь – двойственность плоскости и точки относительно сферы) позволит, как мы полагаем, решить совместно задачу УС с задачей реконструкции формы, что само по себе было бы заметным продвижением в моделировании задач пространственной К, позволив к аспекту «систоличности» симуляции добавить исследование заявленных проблем в ключе «коннекционистском», т.е. прибавило бы опыта в моделировании таких систем, в которых основная функциональная нагрузка ложится не на «вычисление» в узлах, а на обмен данными между ними (типа адресов узлов и их статуса активации) при богатой и реально реализующей параллельность работы системе межузловых связей. Остается добавить, что режим прослеживания, введенный в рассмотренный выше алгоритм, не обязателен даже для аналитического варианта решения задачи. Можно показать, что некоторое усложнение процедуры и привлечение иного числа КТ для организации базиса также может обеспечить успешную реконструкцию структуры КТ.

 

 

 

Рис. 1. Упрощенная схема объектоцентрического представления движущегося объекта по двум его ракурсам (для базисных КТ t1 и t2 и их плоских изображений p11, p12, p21 и p22 в центральнопроективной модели с центрами проецирования F1 и F2)

 

Рис. 2. Объект и его одномасштабная реконструкция (слева) и (справа) вид интерфейса программы с окнами задания режимов работы и параметров прямой задачи

 

Рис. 3. Вид минимизируемой функции W(D) (для усиления впечатления глубины точки изображены более светлыми при их удалении от фронтальной плоскости рисунка)

 

 

Рис. 4. Та же функция для того же, что и на Рис. 3, объекта из 16 КТ в ином ракурсе.

 

 

Литература.

1.     Николаев П.П. Модели константного зрительного восприятия // Интеллектуальные процессы и их моделирование. – М.: Наука, 1987. – С. 300-350.

2.     Николаев П.П., Николаев Д.П. Модели константного зрительного восприятия. III. // Сенсорные системы. – 1997. – Т.11. – N2. – С.181-204.

3.     Николаев П.П. Модели константного зрительного восприятия. IV. Часть 1. // Сенсорные системы. – 1998. – Т. 12. – N 3. – С. 352-375.

4.     Николаев П.П. Алгоритмы корреспонденции в задачах распознавания и стереосинтеза. IV // Сенсорные системы. – 1991. – Т. 5. – N 2. – С. 85-98.

5.     Хорн Б.К.П. Зрение роботов. – М.: Мир, 1989. – 488 с.

6.     Николаев П.П. Модели константного зрительного восприятия. II. Полевые алгоритмы репрезентации гладких объектов // Сенсорные системы. – 1995. – Т. 9. – N 4. – С. 110-132.


 



[1] Работа выполнена при поддержке Российского Фонда фундаментальных исследований (грант № 99-04-48791).