Видимое движение ? Часть 1
Содержание:
Описание
В последнем разделе мы рассмотрели, каким образом очень ограниченную информацию о движении в поле зрения можно использовать на достаточно ранней стадии обработки для получения некоторой довольно приближенной информации о разбиении сцены на отдельные поверхности. Мы убедились также в том, что эту задачу можно решить достаточно быстро. Однако, затратив больше времени и усилий, можно превратить наблюдаемое движение в значительно более богатый источник информации. Хотя эксперименты Майлса и Уоллака и О’Коннелла проведены раньше, демонстрационный эксперимент с цилиндрами, поворачивающимися в противоположных направлениях, который был предложен Уллманом (см. рис. 3.52),Рис. 3.52. Иллюстрация эксперимента Уллмана с цилиндрами, поворачивающимися в противоположных направлениях. Точки, нанесенные на оба цилиндра, как показано стрелками, ортографически проектируются на экран, порождая в результате некоторую последовательность кадров, аналогичных приведенным на рис. 3.53. Каждый отдельный кадр представляет собой некоторое множество случайных точек, однако при предъявлении последовательности таких кадров в динамике становятся отчетливо видны поворачивающиеся цилиндры
является пока наиболее ярким и показывает, что зрительная система человека может почерпнуть из наблюдаемого движения.
В эксперименте используется последовательность кадров, каждый из которых представляет собой некоторую проекцию множества точек на два концентрических цилиндра, поворачивающихся в противоположных направлениях. В каждом кадре присутствуют только точки, причем их положения меняются при смене кадров. Как и в случае стереограмм, образованных конфигурациями случайных точек, ни на одном взятом в отдельности кадре не наблюдается никакой структуры. Тем не менее при показе этих кадров в виде фильма отчетливо воспринимаются два цилиндра, вращающиеся в противоположных направлениях.
То, что зрительная система человека обладает замечательным свойством восстанавливать форму неизвестных структур непосредственно по изменению их вида на изображении, ясно из эксперимента. В своей книге, посвященной этой проблеме, С. Уллман существенно продвинулся в построении полной теории, объясняющей, каким образом это может осуществляться. В ее подтверждение им приводятся соответствующие психофизические данные.
Данный раздел содержит резюме работы Уллмана, а также несколько общих проблем, которые я хотел бы обсудить в контексте зрения в целом.
↑ Зачем нужно изучать видимое движение?
Движение является непрерывным по природе процессом и обычно вызывает гладкие изменения изображений. Действительно, можно предполагать, что это принципиальное свойство движения имеет достаточно существенное значение для его восприятия, поскольку именно непрерывность движения должна способствовать решению задачи отслеживания различных частей объекта на изображении при определении того, каким образом этот объект движется. Почему же в таком случае основной темой данного раздела служит изучение видимого движения, принципиальной особенностью которого является дискретное, а не непрерывное предъявление последовательности быстро следующих друг за другом кадров? Несомненно, при переходе от непрерывности к дискретности что-то теряется. На самом деле, теории, которые будут излагаться, относятся к движению обоих типов - непрерывному и разделенному на отдельные кадры (видимому движению). Это, однако, не совсем удовлетворительный ответ, и для того чтобы убедиться в пригодности анализа, проводимого в контексте покадрового предъявления раздражителя, в ситуации, интересующей нас в данном случае, требуется более подробное обсуждение.
Первая особенность состоит и в том, что в отличие от ситуации, рассматривавшейся в предыдущем разделе, мы теперь не имеем дела с явлениями, протекающими практически мгновенно. В данном случае мы оказываемся вне сферы задач обнаружения. Вместо того чтобы обнаруживать нечто простое, но, возможно, важное в течение 50 мс, можно затратить достаточно много времени (скажем, от 1/4 до 1/2 с, что много по нормам восприятия), позволив изображению измениться существенным образом. Дело в том, что мы хотим не только обнаружить изменения, но также измерить степень этих изменений и использовать эту информацию. Таким образом, суть подхода в том, чтобы, сопоставляя положения объектов на изображении в некоторый момент времени с положениями этих же объектов на изображении через достаточно длительный промежуток времени, иметь возможность надежно измерять различия соответственных положений — эти различия будут затем использоваться в процедурах определения форм и характера движения соответствующих объектов.
Следовательно, мы заинтересованы во введении некоторого запаздывания, однако оно не должно быть чрезмерным, поскольку изображение может выйти за пределы распознавания: видимые части поверхности могут оказаться заслоненными или в процессе поворота могут выйти за пределы видимого. Однако, по меньшей мере в данном случае, нам нужны именно изменения, происходящие в течение определенного периода времени, причем их необходимо определять весьма точно.
Пусть так, могут возразить нам, но на самом деле факты таковы, что, если нас интересует лишь то, куда объекты переместились за 100 мс или около того, несомненно, проще всего узнать это при непрерывном слежении за их перемещениями. Разве не усложняем мы сами себе задачу, ’’разрезая” непрерывную последовательность на отдельные кадры? Действительно, в определенной степени это справедливое замечание. С другой стороны, если частота смены кадров достаточно велика по сравнению со значениями постоянных времени, скажем колбочек сетчатки глаза (которые составляют около 20 мс или около этого), две ситуации будут неразличимы. Также известно, что мы прекрасно воспринимаем кинофильм и движение при этом кажется нам вполне нормальным. Хотя частота кадров в фильме составляет всего лишь 24 кадра в секунду, Вы не в состоянии установить факт такого разделения, ориентируясь исключительно на данные восприятия. Кроме того, предъявление в психофизическом эксперименте всего лишь двух кадров, разделенных столь продолжительным промежутком времени, как 300 мс, позволяет создавать субъективное впечатление плавного движения.
Итак, хотя непрерывная задача может оказаться несколько проще задачи восстановления структуры по видимому движению, она, вероятно, не намного проще, и мы, конечно, можем справиться с более трудной задачей, связанной с видимым движением. Кроме того, последнюю задачу значительно проще формулировать и исследовать экспериментально, а результаты ее решения можно применять к непрерывному случаю. Следовательно, представляется разумным сначала решить эту задачу, а затем оценить результат.
Две стороны задачи
Наша цель, таким образом, состоит не столько в обнаружении изменений, вносимых движением, сколько в использовании последних для восстановления трехмерных структур движения. Из этого вытекают задачи двух типов, которые, по крайней мере внешне, выглядят достаточно разными и в некотором отношении аналогичными тем, с которыми мы встречались при обсуждении стереопсиса. Первая задача заключается в слежении за объектами в процессе их перемещения по изображению и определении их положения в различные моменты времени. Это — задача установления соответствий, цель которой определить, какой объект изображения в момент t1 какому объекту этого же изображения в момент t2 соответствует. Вторая задача заключается в восстановлении трехмерной структуры по данным, полученным в результате решения первой задачи, и ее называют задачей восстановления структуры по движению.
[banner_centerrs] {banner_centerrs} [/banner_centerrs]
Очевидно, что эти две задачи в зрительной системе человека решаются независимо, и нам очень повезло в том, что они разделены. Решающим экспериментальным подтверждением этого факта служит отсутствие среди объектов измерений, выполняемых в процессе установления соответствия, углов и расстояний в трехмерном пространстве — все измерения производятся на плоскости, т. е. на изображении. Следовательно, отсутствует особая необходимость в организации обратной связи от второй задачи к первой.
Две эти задачи, таким образом, могут решаться независимо. Мы в первую очередь рассмотрим задачу установления соответствий, а затем — альтернативные подходы к решению второй задачи. У читателя, вероятно, уже возник важнейший исходный вопрос: что представляют собой непроизводные элементы, используемые в процессе установления соответствий, или, на введенном нами выше языке, что представляет собой исходное представление, требующееся для данного процесса? И, поскольку измерения изменений положения должны выполняться для участка поверхности, поддающегося идентификации, соответствующие непроизводные элементы должны иметь максимально возможный физический характер. Итак, читатель не должен быть удивлен, узнав, что, по-видимому, должны использоваться непроизводные элементы первоначального эскиза, хотя в связи с некоторыми деталями возникают различные интересные смежные проблемы.
В таком случае нам придется определить связь между положениями непроизводных элементов на соседних кадрах, которые должны выполняться (напомним, что мы будем иметь дело с видимым движением). Вообще говоря, нетрудно убедиться в том, что чем ближе расположены два объекта на соседних кадрах и чем большим сходством эти объекты обладают, тем вероятнее их взаимное соответствие. Это отражает лишь некоторую статистическую закономерность устройства нашего мира, и она будет выполняться при условии, что продолжительность межкадрового интервала не слишком велика, учитывая скорости и расстояния, характеризующие анализируемые видимые движения. Создается впечатление, что в зрительной системе человека постоянно поддерживается либо в нее ’’вмонтирована” некоторая таблица подобий, с помощью которой может оцениваться сходство или различие отдельных параметров. Так, например, на основании экспериментов, в которых проверялось подобие двух линий одинаковой контрастности, предъявлявшихся на двух последовательных кадрах, было установлено, что изменение длины в 1,5 раза порождает аналогичное изменение подобия, выражающееся в изменении ориентации на 45°.
Этот тип сходства Уллман назвал критерием аффинного подобия, который основан на измерениях, выполняемых на плоскости. Сам по себе этот критерий, однако, не определяет процесс установления соответствий. Для этого требуется учесть еще ряд дополнительных факторов. Допустим, например, что в первом из предъявляемых кадров содержатся две прямых А и В и во втором — две прямых а и b. Существуют четыре возможных сочетания пар:
1) А ?а и В?b,
2) A ?b и В?а,
3) А ?а и В ?а,
4) А ?b и В?b.
В этом списке отсутствуют сочетания пар типа А ?а и В ? ничто. Вопрос заключается в следующем: каким образом человек определяет, какое именно из допустимых сочетаний пар действительно имеет место? Очевидный ответ предполагает выбор того решения, которое максимизирует общее сходство кадров. Для оценки такого типа сходства можно воспользоваться одной из стандартных функций стоимости, ставящей некоторое значение подобия в соответствие каждому сочетанию пар, входящему в рассматриваемое решение; в этом случае значение общего сходства двух кадров оценивается суммой значений подобий, установленных для каждого из сочетаний пар. Функция стоимости позволяет нам приближенно судить о том, сколько следует принять достаточно плохих сочетаний пар, для того чтобы избежать бессмысленных сочетаний или достичь отличного в целом соответствия.
Такой подход, предусматривающий отыскание некоторого решения, которое обеспечивает достижение глобального минимума, в некоторой степени аналогичен составлявшему предмет интересов гештальтпcихологии на протяжении первой трети нашего века, хотя, вероятно, в экспериментах, которые гештальтисты действительно проводили, проявлялось несколько различных явлений. Они придерживались концепции о наличии элементов, связывающего их в целостные фигуры и определяющего взаимодействие между последовательно поступающими кадрами, однако они не смогли установить, в какой степени данный подход позволил бы объяснить то затруднение, с которым они столкнулись при изучении процесса установления соответствия. Оно заключалось в следующем. Работая с изображениями, подобными приведенному на рис. 3.41,
Рис. 3.41. Одна из конфигураций, являвшихся предметом затруднений для гештальт-психологов. На рис. 3.41, а и б приведены кадры 1 и 2 соответственно. При восприятии этих кадров фигура А переходит в А' а фигура В - в В'. В результате создается впечатление движения фигуры В
они видели, что А ? А' и В ?В'. Если же, однако, А и В' удалялись, то В ? А'. Следовательно, рассуждали они, решающее значение имеют перемещения целостных фигур и поэтому данное явление нельзя, вероятно, исчерпывающим образом объяснить только локальным образом. Такая аргументация в значительной степени послужила причиной гибели школы гештальтпcихологии, поскольку гештальтисты рассматривали проблему формирования целостных образов как неразрешимую.
Здесь имеют место две фундаментальные ошибки, и мы остановимся на них, с тем чтобы вывести отсюда соответствующую мораль. Первая ошибка связана с полным математическим невежеством. Совершенно очевидно, что примеры, подобные приведенному на рис. 3.41, показывают, что процесс установления соответствий требует большего, чем отыскание сугубо локальных минимумов: если эта задача вообще может быть представлена в такой постановке, то искомый минимум — это глобальный минимум. С другой стороны, — и именно с этим связана первая ошибка — известно множество систем, в которых для отыскания глобальных минимумов достаточно использовать исключительно локальные взаимодействия, и, следовательно, результаты гештальтистов не должны форсированно приводить к сделанным ими выводам о недостаточности локальных взаимодействий. В частности, наиболее очевидный способ разрешения проблем гештальтистов, связанных с примером рис. 3.41, заключается в том, чтобы считать издержки, соответствующие варианту (А ? А') + (В ? В'), меньшими, чем издержки, соответствующие варианту (А ? В')+ (В ? А'). Эта идея оказывается даже еще более простой, если обратить внимание на линейность, поскольку линейные системы обладают очень хорошими свойствами, главным образом потому, что они не ’’застревают” на локальных минимумах. Таким образом, теория соответствий Уллмана линейна по существу.
Второй принципиальной ошибкой являлось отсутствие у гештальтистов представления о собственно процессе. Они рассматривали объединение в целостный образ как проявление действия различных правил — принципов замыкания, ’’хорошего” продолжения, регулярности, симметрии, простоты и т. д., которые были суммированы в гештальтпсихологии как закон прегнантности. Последний играл для гештальтпcихологов роль некоторого физического закона. Если бы они представляли себе, каким образом подобные принципы могут реализовываться в различных процессах объединения (например, в виде ограничений, указывающих, что следует и что не следует объединять), быть может, они не отказались бы от систематизации процессов формирования целостных образов.
Мораль же в данном случае такова. В гл. 1 мы познакомились с некоторыми из опасностей, подстерегающих чистых специалистов в области машинного зрения, если они игнорируют биологические данные, характеризующие организацию зрительной системы человека. Основные трудности при этом возникают в связи с тем, что подобная узость взглядов может привести их к попыткам решения задач, которые задачами на самом деле вовсе не являются, а возникают из-за недостатков конкретных датчиков, аппаратуры либо находящихся в их распоряжении вычислительных мощностей. В данном случае мы наблюдаем обратную картину: математическое невежество (которое могло бы быть преодолено) и неспособность рассуждать на языке процессов (что более простительно) привели к краху теоретическое направление, на счету которого имелся ряд вполне реальных и очень ценных открытий. Мораль состоит в том, что невежестно в любой из трех указанных областей может оказаться опасным. Точно так же как современный физик должен в определенной степени знать математику, ее должен знать и современный психолог, который, однако, должен быть знаком и с обработкой информации и иметь ясное представление о ее возможностях, ограничениях, плодотворных способах рассмотрения процессов и (это важнее всего) о том, что требуется для понимания этих процессов.
Итак, приблизительно таким образом выглядит современное состояние проблемы установления соответствий. Уллман сформулировал ее как линейную задачу минимизации и показал, как такая модель может объяснить большую часть известных психофизических данных. Мы достаточно подробно рассмотрим его идеи, а также некоторые более новые, касающиеся их биологической реализации на основе непроизводных элементов первоначального эскиза высшего уровня. Что же касается данной проблемы в целом, то она не решена еще ни на одном из трех наших уровней. Поскольку, однако, о ней известно достаточно много, появление полностью объясняющей ее информационной теории, как я полагаю, не за горами.
Вторая сторона этой проблемы (теория определения структуры по движению) очерчена лучше и применительно к уровню информационной теории, в сущности, решена. Форма этой теории теперь известна — хотя хронологически теория Уллмана появилась одной из первых. Важнейшим дополнительным ограничением, введенным им, является жесткость; он очень точно определил использование этого ограничения и показал, каким образом восстановление трехмерной структуры может осуществляться на основе измерений, получаемых при успешной реализации процесса установления соответствия. Лежащий в основе этого математический результат представляет собой теорему, утверждающую, что трех проекций четырех точек, принадлежащих жесткой конфигурации и не являющихся компланарными, достаточно для восстановления их положения в трехмерном пространстве и движения. Мы увидим, каким образом этот результат можно использовать в качестве краеугольного камня интерпретации наблюдаемого движения. Лонге—Хиггинс и Праздни использовали аналогичный подход в своем исследовании оптического потока.
В заключение этого краткого обзора, вероятно, стоит сделать еще одно последнее замечание. Хотя геометрические свойства трехмерного пространства изучаются со времен Евклида, некоторые сравнительно простые теоремы все еще остаются неизвестными. Теорема о четырех точках и трех проекциях является одной из них, а с еще одной мы встретимся при обсуждении возможностей получения информации о формах объектов по их силуэтам. Трудно поверить, что других таких теорем не существует. Две теоремы были сформулированы в связи с тем, что процесс получения изображений протекает в трех измерениях, и потому определенные типы геометрических соотношений, если они известны и используются, могут быть включены в процесс интерпретации изображений. Возможно, математики не зря потратят время, если они вновь обратятся к геометрии трехмерного евклидова пространства.
↑ Задача установления соответствий
Экспериментальные данные
Что такое исходное представление? Исходя из общих соображений мы считаем, что характерные объекты изображения (признаки-объекты), используемые в процессе установления соответствия (будем называть их обобщенными признаками соответствия), должны иметь физическую интерпретацию. Это условие исключает использование значений уровней серого тона в чистом виде, причем можно показать непосредственно, что в зрительной системе человека корреляция уровней яркости не является основой процесса установления соответствия. Рисунок 3.42
Рис. 3 42. При установлении соответствий тоновые изображения не используются. В противном случае при последовательном предъявлении двух кадров, на которых представлены профили распределения яркостей (а), не возникало бы впечатления движения, так как максимальное значение корреляции этих кадров соответствует смещению (б). На самом же деле наблюдается переход яркостного перехода Е в F, из чего следует, что яркостные переходы, но не тоновые изображения, являются теми обобщенными признаками, которые используются в процессе установления соответствий
иллюстрирует это. Максимальная корреляция двух кадров по уровню тона (рис. 3.42, а) соответствует нулевому смещению, что следует из корреляционной функции, приведенной на рис. 3.42, б. Если же, однако, соответствие устанавливается между резкими яркостными переходами, то можно предполагать, что яркостный переход Е кадра 1 скачком перейдет в яркостный переход F кадра 2 — именно так в действительности все и происходит.
Этот эксперимент показывает, что установление соответствий осуществляется на уровне более высоком, чем уровень тоновых значений яркости. Насколько, однако, все-таки высок этот уровень установления соответствий? Устанавливаются ли они между относительно небольшими и простыми частями сцены, в основном независимо от очертаний и форм, либо при этом используются значительно более сложные описания, например предусматривающие получение полной интерпретации конфигурации на одном кадре до начала сопоставления различных кадров?
Рисунок 3.43
Рис. 3.43. Пример, показывающий, что решение задачи установления соответствия для видимого движения предусматривает использование операций установления соответствий, относящихся к нижнему уровню. Кадр 1 образуют сплошные линии, а кадр 2 -штриховые. При соответствующем выборе межкадровых интервалов наблюдатель видит не одно вращающееся колесо, а три — внутреннее и внешнее кольца вращаются в одном направлении, а центральное - в противоположном (эти направления на рисунке указаны стрелками). Отсюда следует, что соответствие устанавливается между элементарными отрезками прямых, а процесс установления соответствий определяется главным образом близостью отрезков
иллюстрирует один из ряда экспериментов, показывающих, что второй вариант невозможен. На этом рисунке представлены два последовательных кадра — один из них составляют сплошные линии, другой — штриховые. Если бы анализ всей конфигурации в целом проводился по одному кадру и в результате выделялись очертания колеса, которые далее использовались бы для установления соответствий с элементами следующего кадра, то в этом случае наблюдатель должен был бы воспринимать эти кадры при быстрой их смене как одно вращающееся колесо. Обратите, однако, внимание на то обстоятельство, что ближайшие соседние элементы для внутренней и внешней частей колеса располагаются в одном и том же направлении, а для среднего кольца — в противоположном. В связи с этим, если бы соответствие устанавливалось сугубо локально, наблюдатель должен был бы видеть, что среднее кольцо поворачивается в одном направлении, а внешнее и внутреннее кольца - в противоположном (как это показано стрелками на рис. 3.43). При правильном выборе межкадровых интервалов именно это в действительности и наблюдается.
Эти соображения дают основания для выбора элементов первоначального эскиза, причем следующий эксперимент показывает, что определенная роль в этом отношении принадлежит концам (так же как и в стереопсисе). На рис. 3.44, а
Рис. 3.44. В качестве обобщенных признаков при установлении соответствий могут использоваться также и концы, если две прямые на последовательных кадрах не очень сильно отличаются по длине (а). Если их длины разнятся очень существенно, соответствие устанавливается между короткой прямой и каким-либо отрезком длинной прямой. Пока неизвестно, могут ли нарушения непрерывности по ориентации типа приведенных на рис. 3.44, в использоваться в качестве обобщенных признаков при установлении соответствий
представлен случай, когда соответствие устанавливается между концами двух прямых. Ситуация изменяется, если расстояния между соответствующими концами много больше расстояний между отрезками прямых, как показано на рис. 3.44, б; в этом случае соответствие устанавливается между короткой прямой и только ближайшей к ней частью длинной прямой. Пока не совсем ясно, устанавливается ли соответствие между нарушениями непрерывности типа приведенных на рис. 3.44, в, однако совершенно очевидно, что эта проблема представляет интерес.
Рисунок 3.45
Рис. 3.45. Эти рисунки свидетельствуют, очевидно, о том, что установление соответствия определяется движениями образующих элементов, а не формой целостных объектов
дает дополнительные подтверждения тому, что соответствие определяется характерными объектами изображения, относящимися к достаточно низкому уровню, а не очертаниями или формой соответственных фигур. На рис. 3.45, а квадрат А движется к большему квадрату В. На рисунке же 3.45, б он движется к большему треугольнику В, а не к меньшему квадрату С. Таким образом, в этих примерах процесс установления соответствия определяется движением образующих элементов, а не подобием форм целостных объектов. Уллман приходит к выводу, что: 1) различия характера слияния отдельных фигур согласуются с движениями, устанавливаемыми между их составными частями; 2) нет никаких указаний на то, что элементы структуры входят в некоторое множество базисных элементов или что процесс установления соответствия основывается на подобии фигур.
В результате обсуждения этих проблем С. Уллманном, М. Райли и мной Райли установил, что соответствия могут, в частности, устанавливаться между ориентированными сгущениями точек или группами параллельных прямых — ни в одном из этих случаев не устанавливается соответствие между образующими элементами. Два соответствующих примера приведены на рис. 3.46, б и в.
Рис. 3.46. Соответствие может устанавливаться между границами или обобщенными признаками, относящимися к высшим уровням, даже в тех случаях, когда между образующими элементами соответствие не устанавливается. Так, например, соответствий может устанавливаться между границами двух типов, окружающих квадраты (а). Другой пример (б) иллюстрирует эксперимент, в котором кадр 1 содержит одно сгущение точек, а кадр 2 - два, причем одно из сгущений кадра 2 идентично сгущению кадра 1, а второе сгущение кадра 2 не идентично сгущению кадра 1. Предпочтение идентичному сгущению никоем образом не проявляется. На рис. 3.46, в эта идея получает дальнейшее развитие. Первый кадр представляет группу С, образованную короткими горизонтальными прямыми. Второй кадр содержит две группы объектов -L, состоящую из коротких горизонтальных прямых, и R, состоящую из длинных горизонтальных прямых. Наблюдатель не отдает предпочтения движению группы С к группе L, из чего следует, что в данном случае соответствие устанавливается не между образующими групп, но между описаниями их структур в целом
В подобных случаях правила установления соответствия, очевидно, определяются такими параметрами, как ориентация и размеры группы в целом. Соответствие может устанавливаться и между границами типа приведенных на рис. 3.46, а, хотя в данном случае даже не может быть и речи о каком бы то ни было установлении соответствия между образующими элементами. Межкадровые интервалы здесь имеют продолжительность порядка 100 мс, что много меньше 1/3 с, необходимых для того, чтобы очертания объектов начали влиять на процесс установления соответствий.
Итак, выводы Уллмана могут нуждаться в некоторой модификации, чтобы обеспечивалась возможность использования более обобщенных элементов описания изображения, входящих в полный первоначальный эскиз. Его основное утверждение, что никакой сколь бы то ни было тщательный анализ форм объектов не предшествует процессу установления соответствия, сохраняет, однако, силу. И ограничения, вносимые термином тщательный, фактически допускают то, что допустимо в полном первоначальном эскизе (общая длина, размеры, ориентация характерных объектов изображения и т. д.), и исключают то, что в нем исключено (так, запрещены представление в явном виде любого внутреннего угла характерного объекта изображения, упоминание о прямых углах и т. д.). Было бы интересно проследить, сколь далеко можно продолжить аналогию между обобщенными признаками, используемыми при установлении соответствия, и непроизводными элементами полного первоначального эскиза.
Двухмерный характер процесса установления соответствий
Для изучения локальных свойств процесса установления соответствий в случае небольшого числа изолированных элементов можно воспользоваться экспериментами типа того, который проиллюстрирован на рис. 3.47, а.
Рис. 3.47. Типичный эксперимент, предназначенный для измерения аффинного подобия и предусматривающий предъявление наблюдателю двух кадров (а), и вариант того же эксперимента, обеспечивающий большую чувствительность (б). Соотношение влияний длины и расстояния (в), смещения и расстояния (г), смещения и ориентации (д), измеренные значения аффинного подобия (е). На рис. 3.47, в— д кадр 1 изображен штриховыми, а кадр 2 — сплошными прямыми
В этом эксперименте первый кадр (штриховые прямые) содержат один элемент, второй кадр (сплошные прямые) — два и наблюдатель должен определить, к какой из прямых второго кадра совершает кажущееся движение прямая первого кадра. Райли недавно изменил эту экспериментальную схему, придав ей форму, приведенную на рис. 3.47, б; модифицированная схема предусматривает использование нескольких копий одной и той же экспериментальной задачи — преимущество при этом состоит в том, что обеспечивается несколько большая чувствительность.
На рис. 3.47, в, г и д показаны раздражители, используемые в этих экспериментах, причем во всех вариантах кадр 1 дан штриховой, а кадр 2 — сплошными линиями. Все приведенные на рисунке примеры обладают приблизительно одинаковым аффинным подобием с оригиналом. Рисунок 3.47, в иллюстрирует соотношение длины и расстояния, рис. 3.47, г — соотношение смещения по вертикали и расстояния и рис. 3.47, д — соотношение ориентации и смещения. Относительные веса параметров для конфигурации, образованной тремя прямыми, сведены в таблицу, приведенную на рис. 3.47, е.
В нашем кратком обзоре собственно значения в таблице не столь уж важны, но важен тот факт, что в рассматриваемом нами процессе используются результаты измерений, выполняемых на изображении, а не результаты измерений реальных трехмерных объектов. Этот факт был установлен Уллманом с помощью эксперимента, проиллюстрированного рис. 3.48.
Рис. 3.48. Процесс установления соответствия, в котором используются только двухмерные, а не трехмерные характеристики: а — соответствие устанавливается между прямой С (кадр 1) и прямыми L и R (кадр 2), двухмерные отношения которых с С идентичны, а трехмерные — различны (поведение этих прямых оказывается идентичным) ; б — предпочтение отдается прямой L, относительно прямой R; в — сопоставление углов показывает, что соответствие определяется двухмерными углами
Так, например, в эксперименте, проиллюстрированном рис. 3.48, д, все прямые кадра 1, за исключением прямой С, имеют одну и ту же яркость. На кадре 2 яркостью выделяются лишь прямые L и R, в результате чего возникает движение от С к L или R. Двухмерные отношения между прямыми Си L и прямыми С и R в данном примере идентичны. Расстояния, разделяющие их в трехмерном пространстве, однако, отличаются очень значительно. На рис. 3.48, б представлен эксперимент с теми же прямыми для случая, когда расстояния в трехмерном пространстве одинаковы, но расстояния на плоскости отличаются очень сильно. Подобным же образом в эксперименте, представленном на рис. 3.48, в, углы на плоскости и в трехмерном пространстве различны.
Опираясь на результаты экспериментов, подобных описанным, Уллман приходит к выводу, что характеристики, измеренные на трехмерной ’’модели”, несущественны для процесса установления соответствия - все его результаты можно получить из рассмотрения двухмерных конфигураций. Ему удалось также сделать еще одно замечательное наблюдение относительно плавности видимого движения. Когда человек видит два кадра, переходы от одного к другому иногда воспринимаются как плавные, а иногда — нет. Исследования, подобные работам Корбина, а также Аттнива и Блока, показали, что плавность видимого движения главным образом и, возможно, всецело определяется воспринимаемым расстоянием в трехмерном пространстве, а не реальным расстоянием на плоскости. Даже Колере является просто последним в ряду исследователей, изучавших степень соответствия с использованием в качестве критерия плавности движения.
Совершенно очевидно, что в этой связи возникало некоторое логическое противоречие, поскольку три утверждения: 1) плавность движения зависит от воспринимаемого расстояния; 2) степень соответствия зависит от расстояния на плоскости и 3) плавность движения отражает степень соответствия — несовместны. Уллман разрешил эту проблему, сконструировав ситуацию, представленную на рис. 3.47, а: движение в одном направлении протекает плавнее, а в другом направлении—интенсивнее, в результате последнее оказывается преобладающим. Следовательно, плавность и степень соответствия — это разные вещи и процесс установления соответствия опирается лишь на результаты измерений на плоскости, которым, возможно, предшествует учет глазодвигательных эффектов.
Теория процесса установления соответствий Уллмана
Как мы уже убедились с помощью примера, приведенного на рис. 3.41, в случае более сложных изображений элемент изображения не всегда отображается в элемент, обладающий максимальным аффинным подобием: на отображения влияют также и межэлементные взаимодействия. Проводя экспериментальное исследование, Уллман ввел понятие степень соответствия (СС), являющееся производным от локальных аффинных подобий, отражающее также воздействие различных разновидностей локальной конкуренции и определяющее в конечном счете получаемое в результате отображение. Рисунок 3.49
Рис. 3.49. Иллюстрация подхода Уллмана к установлению степени соответствия. Исходные значения аффинного подобия определяются для обобщенных признаков соответствия, после чего их локальные взаимодействия используются для получения окончательных значений степени соответствия
иллюстрирует это понятие. Вначале измеряются значения аффинного подобия для всех пар, затем учитываются влияния на эти значения локальных воздействий, что и дает в результате СС. Эти взаимодействия ослабляют СС при осуществлении, в частности, расщепления или слияния, и потому они устраняются. С помощью численного примера Уллман показал, что эта простая схема позволяет объяснить и несколько случаев, являющихся камнем преткновения для теории восприятия движения.
Все это, однако, в первую очередь свидетельствует о том, что подход, использовавшийся при изучении возможностей локальных взаимодействий, часто все еще был обременен серьезными недостатками (в ряде случаев точно так же, как и подход гештальтистов), порожденными неспособностью оценить сложность функций, которые могут реализовываться посредством локальных взаимодействий. Больший интерес представляла попытка Уллмана сформулировать теорию процесса установления соответствий, названную им теорией минимального отображения. В сущности, она представляет собой теорию максимального правдоподобия.
В основе указанной теории лежат три основных допущения. Идея состоит в том, чтобы определить некоторый способ оценки относительной ценности пар, составляемых из характерных объектов изображений, относящихся к разным кадрам. Поскольку соответствующий метод имеет вероятностный характер, следует ввести первое допущение о независимости решений для различных пар. Второе предполагает, что каждый характерный объект изображения кадра 1 объединяется в пару по меньшей мере с одним характерным объектом изображения кадра 2, и наоборот. Мы не требуем в явном виде взаимно однозначного соответствия (именно благодаря этому становятся возможными расщепления и слияния).
Поскольку, однако, формирование каждой пары сопровождается определенными затратами, в окончательном решении расщепления и слияния сводятся к минимуму. Итак, второе допущение состоит в том, что множество паросочетаний должно покрывать оба множества обобщенных признаков.
Интересна третья идея. Диапазон значений истинных скоростей в реальном мире, естественно, весьма широк: иногда наблюдатель перемещается быстро, а иногда - медленно, иногда объекты движутся быстро, а иногда - нет. Но каким бы ни было распределение скоростей в реальном мире, значения проекций этих скоростей на изображение будут, скорее, малыми, чем большими, просто в силу специфики процесса формирования изображения. Это иллюстрируется рис. 3.50.
Рис. 3.50. Типичное распределение скоростей на изображении. Почти при любом практически возможном распределении скоростей реальных объектов р (v) в проекции последнего на изображение р (v) будут преобладать малые значения скоростей
Штриховая линия р (v) представляет один из вариантов распределения вероятностей истинных пространственных скоростей. Сплошная кривая р (v) представляет соответствующую проекцию распределения скоростей. Таким образом, исходя лишь из самых общих соображений можно считать, что наиболее вероятными являются отображения, отдающие предпочтение ближайшим соседям.
Теперь суть этой теории становится очевидна. Энтропия q(v) некоторой заданной скорости v определяется как -logp(v), где р - значение вероятности этой скорости. Решением, соответствующим максимальному правдоподобию, является такое решение, которое минимизирует общую энтропию (точно так же, как это принято в статистической механике) . Для того чтобы найти его, можно просто считать энтропию q(v) ’’ценой”, соответствующей выбору скорости v, и затем искать то отображение, которое обеспечивает минимизацию полных затрат. Это — линейная задача, для решения которой можно воспользоваться простой локальной сетью, в которой могут быть предусмотрены дополнительные штрафы (в случае необходимости) за отклонения от взаимной однозначности отображений. Функция стоимости в данном случае представляет собой рассмотренную нами выше функцию аффинного подобия, а взаимодействия, которые иллюстрируются на рис. 3.49 и определяют СС, в сущности, задают минимальную общую стоимость, т. е. наиболее вероятное отображение, определяемое статистическими свойствами физического мира. Эта схема, естественно, является обобщением, соответствующим переходу от дискретного случая последовательных кадров к непрерывному, при котором изображение представляется в основном в виде входного потока характерных объектов.
Продолжение в следующей статье: Видимое движение ? Часть 2
----
Статья из книги: Зрение | Д. Марр
Комментариев 0