Физические основы предварительной обработки изображения в зрительной системе
Содержание:
Описание
Мы не можем развивать строгую теорию предварительной обработки изображений в зрительной системе — теорию первых этапов зрительного процесса — до тех пор, пока не будет определено назначение этой теории. Как уже отмечалось, цель в самом общем виде состоит в синтезе полезных стандартизированных описаний форм и поверхностей, образующих Изображение. Пришло время сформулировать наши цели более определенно.Значения яркостей изображения определяются следующими четырьмя факторами: 1) геометрическими свойствами; 2) коэффициентами отражения видимых поверхностей; 3) освещением сцены; 4) позицией наблюдателя. На изображении все эти факторы проявляются совместно, причем некоторые изменения яркости порождаются одними, некоторые — другими, а некоторые представляют результат их комплексного воздействия. Задача предварительной обработки зрительной информации заключается в сортировке изменений яркости в соответствии с вызвавшими их причинами с тем, чтобы затем получить представления, в которых четыре приведенных фактора учитывались бы независимо друг от друга.
Можно, вообще говоря, считать, что эта цель достигается в два этапа. Во-первых, соответствующие представления строятся на основе изменений яркостей и структур, обнаруженных на изображении. Эти построения включают такие процедуры, как обнаружение изменений яркости, представление и анализ локальных геометрических структур и обнаружение эффектов, связанных с освещением, — источников подсветки, бликов и прозрачности. В результате выполнения этого первого этапа обработки появляется представление, называемое первоначальным эскизом. Во-вторых, к первоначальному эскизу применяется ряд процедур, что обеспечивает получение некоторого представления (все еще привязанного к сетчатке) геометрии видимых поверхностей. Это второе представление — представление видимых поверхностей — называют 2,5-мерным эскизом. Как первоначальный эскиз, так и 2,5 -мерный эскиз строятся в системе координат наблюдателя, и использование термина эскиз отражает именно эту особенность их структур.
Необходимость представления пространственных отношений, получение которого неизбежно сопровождается осложнениями, связанными с определением того, что должно быть представлено в явном виде, а что можно оставлять в неявном, порождает задачи, типичные и даже специфичные для зрения. Так, например, читателя не должно вводить в заблуждение (особенно если он не имеет математической подготовки) понятие ’’система координат”, поскольку это понятие значительно более общее, чем может ему представляться. Из утверждения о привязанности к сетчатке представлений, используемых на этапе предварительной обработки зрительной информации, вовсе не следует автоматически, что некоторая декартова система координат, градуированная в минутах (единицах измерения угла), наложена тем или иным способом на зрительную кору и, как только зрительная система обнаруживает линию или яркостный переход, им некоторым образом ставятся в соответствие значения координат х и у, которые затем соответствующим образом передаются по нервной системе. Несомненно, такой процесс можно считать одним из способов получения представлений. Никто, однако, не может серьезно относиться к предположению о том, что он используется в зрительной системе человека. Существует множество других возможностей реализации этой схемы в зрительной системе человека. Например, правдоподобным кажется использование некоторого (неявного) анатомического отображения, приблизительно воспроизводящего пространственную организацию сетчатки в сочетании с некоторым представлением, в явном виде определяющим локальные отношения (точка А отстоит на угол 5' от точки В по направлению 35°).
Существенной особенностью привязки к координатам сетчатки является то обстоятельство, что пространственные отношения при таком представлении соотносятся с двухмерными отношениями, определенными на сетчатке наблюдателя, а не с трехмерными, действующими в среде наблюдателя, и не с двухмерными, определенными на сетчатке какого-то другого наблюдателя, и не с трехмерными, заданными относительно некоторой внешней опорной точки, например горной вершины. Утверждение типа ’’точка А изображения расположена ниже точки В изображения” является утверждением, относящимся к системе координат сетчатки. Утверждение типа ’’кисть руки расположена ниже и левее груди” является утверждением, относящимся к Вашей индивидуальной трехмерной системе координат — системе координат наблюдателя. Утверждение типа ”у этого кота кончик хвоста находится выше и слева от его туловища” является утверждением, относящимся к системе координат данного кота. Все эти примеры иллюстрируют вполне добротные способы приближенного задания пространственных отношений, хотя ни один из этих способов не предусматривает использования наборов чисел. Каждый из координатных систем можно поставить в соответствие количественные характеристики (как если бы, скажем, использовались координаты х, у, z), что, однако, никак не означает обязательности именно такой реализации. Необходимо иметь это в виду.
Хотя значительно удобнее сформулировать цель предварительной обработки информации в зрительной системе, разделив четыре отмеченных выше фактора (геометрические свойства, коэффициенты отражения, освещение и позиция наблюдателя), важно ясно представлять, к каким это приводит упрощениям. Наиболее существенным, вероятно, оказывается упрощение, связанное с достаточно жестким разграничением между коэффициентом отражения поверхности и ее геометрическими свойствами. В действительности эти два понятия взаимосвязаны, и их разделение может оказаться достаточно произвольным, что требует проявления определенной осторожности при использовании. Хорошей иллюстрацией некоторых из возникающих трудностей такого рода может послужить поле созревающей пшеницы. При рассмотрении с близкого расстояния отдельные колосья пшеницы образуют отражение поверхности и ситуация является достаточно очевидной. При рассмотрении же издали четкость изображения недостаточна для различения колосьев; видимую поверхность образует поле в целом, и функция, характеризующая ее отражательную способность, может оказаться в данном случае очень сложной, поскольку отображает существенные вариации, которые наиболее естественно считать пространственными.
[banner_centerrs] {banner_centerrs} [/banner_centerrs]
С точки зрения теории восприятия, вероятно, не столь уж нереалистичная аппроксимация — рассматривать в качестве некоторой поверхности пшеничное поле, находящееся на определенном расстоянии от наблюдателя, или кошачью шубку. Тайлер, в частности, обнаружил, что мы не в состоянии увидеть на стереоскопическом изображении гофрирование поверхности, если пространственная частота рифления превышает пороговое значение, составляющее около четырех периодов на угловой градус.
В дополнение к указанным трудностям отметим, что редко освещенность сцены поддается описанию в простых категориях. Дело в том, что рассеянное освещение, отражения, наличие нескольких источников освещения (лишь некоторые из которых видны) и взаимное освещение поверхностей отраженным светом часто вкупе создают очень сложные условия освещения, возможно, вообще не поддающиеся аналитическому описанию. Наше грубое давление на четыре фактора тем не менее находит применение. При условии, что для наблюдателя вариации по глубине поверхности, отражающей свет, малы по сравнению с дальностью визирования, мы будем считать наблюдаемый объект некоторой отражающей поверхностью и, следовательно, полагать возможным описывать соотношение между падающим на нее и отражаемым ею светом с помощью некоторой функции отражательной способности р, которая при определенных освещении и позиции наблюдателя может обладать довольно сложной пространственной структурой.
И наконец, приведем одно общее соображение относительно принятого нами стиля изложения. Представления, о которых идет речь, необходимы нам в качестве практически полезных описаний различных аспектов реального мира. Поэтому структура последнего играет существенную роль как в определении характера используемых представлений, так и в определении характера процессов, привлекаемых для их получения и оперирования ими. Важную часть теоретического анализа составляет выявление физических ограничений и допущений, используемых при определении представлений и соответствующих процессов, и мы будем проявлять особую тщательность в этом отношении.
↑ Получение представления изображения
С точки зрения информационного подхода наша основная цель теперь заключается в определении некоторого представления картины изменений коэффициента отражения на некоторой поверхности, пригодного для выявления изменений геометрической организации изображения, отражающих изменения коэффициента отражения собственно поверхности, изменения ориентации поверхности и изменения расстояния от поверхности до наблюдателя. Если речь идет о некоторой гладкой поверхности, то изменения ориентации, а также, возможно, и расстояния вполне могут явиться источником изменений яркости изображения. Если поверхность текстурирована, то, например, ориентации и размеры мельчайших элементов, образующих текстуру поверхности (ими могут служить просто длина и ширина элементов), и характеристики, подсчитанные по небольшому участку поверхности, который представляют плотность и размещение этих малых текстурных элементов, являются существенной информацией об изображении.
Таким образом, мы может указать, что наше представление вообще должно содержать. Оно должно включать своего рода ’’характерные объекты”, которые надежно и однозначно могут выделяться на изображении и которым могут ставиться в соответствие значения таких признаков, как ориентация, яркость, размеры (длина и ширина) и местоположение (для характеристик плотности и размещения). Чрезвычайно важно, чтобы эти выделяемые ’’характерные объекты” соответствовали реальным физическим особенностям наблюдаемой поверхности; используемые нами пятна, линии, границы, группы и тому подобные объекты не должны оказываться артефактами процессов получения изображения, поскольку в противном случае все выводы относительно структуры поверхности, сделанные на основе структуры этих объектов, будут совершенно бессодержательными. Поэтому нам следует обратиться к общим свойствам функций отражательной способности поверхностей, так как из них мы сможем почерпнуть существенные сведения о том, каким образом необходимо структурировать представления изображений на этапе предварительной обработки зрительной информации.
↑ Основные физические допущения
Поверхности как реальные объекты
Наше первое допущение заключается в том, что вполне целесообразно вообще оперировать исключительно поверхностями (вспомним приводившиеся выше примеры с пшеничными полями и кошачьей шубкой). Сформулировать это допущение можно следующим образом: весь видимый мир можно рассматривать как некоторую композицию гладких поверхностей, функции отражательной способности которых могут отличаться сложной пространственной структурой.
Иерархическая организация
Наше второе допущение связано с организацией указанной пространственной структуры. Для объяснения его смысла целесообразно воспользоваться несколькими примерами/ Как мы уже отмечали, точнее всего считать, что кошачья шубка состоит из отдельных волосков, каждый из которых характеризуется собственной функцией отражательной способности. На следующем уровне рассмотрения предполагается, что эти волоски расположены плотно и параллельно, образуя тем самым некоторую поверхность. И, кроме того, на ’’построенную” таким образом шубку наложена структура еще более высокого уровня — организация окраски и разметки поверхности. Аналогичной организацией обладает речная поверхность. Основной уровень организации соответствует в этом случае гладкой воде, спокойствие которой нарушают случайные возмущения, вызванные различными выступающими неровностями типа камней или иных препятствий. На эту поверхность налагается рябь, ориентация которой определяется порывами ветра, и по ней направляемые течением реки плывут куски водорослей и других растений. Аналогичные структурные уровни можно обнаружить у многих поверхностей — живых изгородей, тканей, плетенных из тростника изделий, коры дерева, древесины, камней и т д. (обратите внимание на изображения поверхностей, приведенные на рис 2.1).
Рис. 2.1. Примеры изображений поверхностей Обратите внимание на то, что различные типы пространственной организации возникают на различных масштабных уровнях практически независимо Способность отличать эти типы организаций является важной особенностью предварительного этапа обработки зрительной информации
Эти примеры показывают,что признаки, несущие ценную информацию, могут относиться к любому уровню организации реального мира, а следовательно, в еще большей степени они сказываются на изображениях из-за наличия дополнительных преобразований, используемых в процессе получения изображения. Таким образом, о каких бы характерных объектах, выделяемых на изображении, ни шла речь, необходимо, чтобы они давали возможность определять в явном виде признаки изображения в широком диапазоне размеров. Более того, важно отдавать себе отчет в том, что нельзя установить простого соответствия между этими уровнями организации и результатами полосовой фильтрации пространственных частот изображения с помощью фильтров, настроенных на различные частоты. Хотя некоторые типы организации можно выделить таким образом, многие из них указанному обнаружению не поддаются (как, например, вертикальные полосы на изображении, приведенном на рис. 2.2).
Рис. 2.2. Наблюдаемую часть пространственной организации рисунка в елочку (типа приведенного здесь) составляют вертикальные полосы Их нельзя восстановить с помощью методов, основанных на фурье-преобразовании, однако эта задача легко решается методами классификации
Итак, мы в состоянии сформулировать наше второе физическое допущение: пространственная организация функции отражательной способности некоторой поверхности часто порождается совместным воздействием целого ряда различных процессов, каждый из которых относится к отдельному уровню. Таким образом, любое представление, в котором используются неоднородности, имеющиеся на изображении подобных поверхностей, для определения изменений глубины и ориентации поверхностей должно обеспечивать учет изменений значений признаков, поставленных в соответствие характерным объектам изображения, размеры которых могут изменяться в широком диапазоне Другими словами, непроизводные элементы нашего представления должны обеспечивать работу на ряде различных уровней.
Подобие
Наше третье допущение имеет несколько иной характер. Предположим, что мы уже располагаем некоторым представлением, включающим непроизводные элементы разного размера. Интуитивно кажется очевидным, что такие непроизводные элементы должны храниться как-то отдельно, т. е. сравнение крупномасштабного дескриптора с другими крупномасштабными дескрипторами должно происходить проще, чем с мелкомасштабными. И, кроме того, может показаться очевидным и то, что характерные изображения или дескрипторы, обладающие иными полярными различиями, скажем очень сильно отличающейся или даже противоположного знака контрастностью, должны храниться отдельно.
Действительно, можно найти некоторое физическое обоснование того, почему следует поступать именно таким образом; это, в частности, явно следует из приведенных нами выше примеров. Обратим внимание, что на разных уровнях организации, выделяемых в меховом покрове животного, на речной поверхности, на древесной коре, в структуре ткани и т. п., процессы, порождающие функцию отражательной способности, относительно независимы на своих масштабных уровнях, однако объекты, являющиеся результатом осуществления каждого из этих процессов, визуально похожи друг на друга значительно больше, чем на какие-либо иные объекты, находящиеся на той же самой поверхности. Так, например, любой отдельный волосок кошачьей шубки обладает существенно большим сходством с соседними волосками, чем с полосами, образованными совокупностями тысяч волосков. Подобие в данном случае можно оценивать различными способами, однако вполне достаточно простого критерия, основанного на учете локального контраста, размеров (длина и ширина), ориентации и цвета (обсуждение общих свойств критериев различия можно найти в монографии Джардина и Сибсона).
Это обстоятельство может служить для нас средством отбора объектов изображения в процессе назначения непроизводных элементов для построения его представления. Существенно (и это можно сформулировать в качестве нашего третьего физического допущения), что объекты, появляющиеся на некоторой поверхности в результате некоторого процесса порождения отражательной способности, действующего на некотором определенном масштабном уровне, обычно обладают большим сходством по размерам, локальному контрасту, цвету и пространственной организации между собой, чем с другими объектами этой же поверхности.
Рисунок 2.3 иллюстрирует это подобие.
Рис. 2.3. Эти изображения получены с помощью положения некоторой случайной конфигурации характерных объектов на ту же конфигурацию, но слегка повернутую или ’’раздвинутую”. В качестве характерных объектов могут использоваться точки, маленькие квадратики (а) или квадратики большего размера (б). Конфигурация вовсе не обязательно должна включать только одинаковые характерные объекты. На рис. 2.3, в одно из множеств образовано квадратиками, а другое - фигурами, обозначенными четырьмя точками; единственное требование - все характерные объекты должны обладать подобием. На рис 2.3, г одно из множеств состоит из довольно крупных квадратиков, а другое - из мелких точек. Эти характерные объекты слишком сильно отличаются друг от друга, чтобы на этом изображении можно было увидеть ’’раздвинутую” структуру
Как указывал Гласс, для порождения таких конфигураций необходимо на некоторое множество точек наложить то же самое множество точек, но немного повернутое или слегка ’’раздвинутое” (рис. 2.3, а). Этот эффект сохраняется, если в качестве характерных объектов используются квадратики (рис. 2.3, б), а также для пар, объединяющих характерные объекты, устроенные совершенно по-разному (рис 2.3, в). Если же характерные объекты разнятся достаточно сильно (рис. 2.3, г), то никакой определенной конфигурации не видно. Гласс и Суиткес показали, что эффект исчезает, если точки обладают полярной контрастностью или окрашены в противоположные цвета. Стивенс показал, что не удается обнаружить никакой организации при наложении трех множеств точек — исходного, повернутого и ’’раздвинутого”. Если, допустим, повернутое множество оказывается существенно ярче двух остальных, то наблюдается организация, порожденная парами более тусклых точек. Все это доказывает, что в основе данного явления лежит сопоставление форализованных описаний свойств локальных характерных объектов изображения, а не, скажем, измерения, осуществляемые непосредственно на изображении с помощью, например, простой клетки Хьюбела и Уисела.
Пространственная непрерывность
Характерные объекты, возникающие на некоторой поверхности в результате действия какого-то одного процесса, помимо того, что они обладают ’’внутренним” подобием, часто образуют определенную пространственную организацию, принимающую вид кривых, прямых и, возможно, более сложных конфигураций. Принципиальной особенностью здесь является то обстоятельство, что подобная ’’разметка” часто порождает на поверхности гладкие контуры, и, следовательно, характерные объекты соответствующего изображения должны обладать таким же свойством. Пространственная непрерывность очень хорошо воспринимается человеком. Мы сразу видим коллинеарность объектов, изображенных на рис. 2.4,
Рис. 2.4. Дополнительная иллюстрация к понятию ’’локально-характерный объект -двухмерный признак изображения”. Хотя все подгруппы, образующие данную конфигурацию, определены по-разному, совершенно очевидно, что все они коллинеарны. Отсюда следует, что каждая группа порождает локально-характерный объект - двухмерный знак, причем их коллинеарность определяется практически независимо от способа задания локально-характерных объектов при том условии, что они представляют достаточно подобные объекты (сравнение с рис. 2.3, г)
несмотря на то, что все объекты, расположенные вдоль прямой, различны: в качестве одного объекта использовано пятно, другого — небольшая группа точек, третьего — конец стержня и т. д. Все объекты, однако, имеют приблизительно одинаковую величину. Еще один прекрасный пример приведен на рис. 2.5.
Рис. 2.5. Пример действия процессов активной группировки. Эта конфигурация преисполнена бурной активности - создает впечатление, что конкурирующие пространственные организации яростно борются друг с другом
Изображенная на нем конфигурация содержит очень много непрерывных структур, каждая из которых как бы пытается выделиться и подавить другие.
Непрерывность нарушений непрерывности
Одним из следствий когезионной способности материи является факт существования объектов материального мира в определенных границах. Эти границы порождают нарушения непрерывностей по глубине и ориентации поверхностей, обнаружение которых входит в нашу задачу, причем важной особенностью таких границ является то, что они часто на изображениях оказываются гладкими. Можно, в сущности, считать, что геометрическое место разрывов по глубине или ориентации поверхности почти везде гладко. Возможно, именно это физическое ограничение определяет полезность механизма гладких субъективных контуров (см. рис. 2.6).
Рис. 2.6. Субъективные контуры. Изменения глубины, по-видимому, столь важны для зрительной системы, что она стремится сделать их явными везде, в том числе и там, где отсутствуют непосредственные зрительные данные, подтверждающие наличие таких изменений
Непрерывность движения
И наконец, не следует забывать об исключительной важности для зрения движения, ибо оно присутствует повсеместно. Движение наблюдателя или некоторого материального объекта может порождать движение на изображениях этого объекта. Если последний обладает жесткостью, то перемещения изображения соседних точек поверхности объекта аналогичны. Таким образом, перемещения частей объекта, расположенных на его изображении на небольших расстояниях друг от друга, обычно аналогичны. В частности, поле скоростей движения на изображении почти везде изменяется непрерывным образом, и если оказывается, что оно имеет нарушения непрерывности не в какой-то изолированной точке, то это означает наличие во внешнем мире некоторого реального нарушения целостности (жесткости) формы объекта (типа границы объекта).Так, при наличии любого нарушения непрерывности движения более чем в одной точке, например вдоль некоторой прямой, следует считать, что имеет место граница объекта.
↑ Об общих свойствах представления
Смысл и важность указанных физических ограничений заключаются в том, что, несмотря на определяющую роль в тех изображениях, с которыми мы работаем, изменений яркости, реальности материального мира налагают на эти исходные изменения яркости широкий спектр пространственных организаций, действующих на разных масштабных уровнях и практически независимо друг от друга. Соответствующая организация проявляется в структуре изображения, и, поскольку она содержит важные сведения относительно структуры видимых поверхностей, представления изображения, используемые на предварительном этапе обработки, должны учитывать ее. Я, в частности, предлагаю делать это с помощью набора локально-характерных объектов — двухмерных признаков изображения, которые в определенной мере соответствуют отрезкам яркостного перехода или границы, характеризующимся определенным направлением, или точкам нарушения непрерывности по таким направлениям, полосам (приблизительно параллельным парам яркостных переходов) или их концам, пятнам (полосам, грубо обрезанным с обоих концов); Эти непроизводные элементы можно определять как вполне конкретным образом (исходя просто из нарушений непрерывности по яркости), так и достаточно формально. Так, пятно можно задать, опираясь на некоторое множество точек, а границу — исходя из определенных (но отнюдь не любых) изменений текстуры или объединив в некоторую линию ряд локально-характерных объектов — двухмерных признаков изображения, определяемых, в свою очередь, достаточно сложным образом (см. пример, приведенный на рис. 2.4).
На рис. 2.7.
Рис. 2.7. Схематическое представление описаний изображения, относящихся к различным масштабным уровням и в целом составляющих первоначальный эскиз. На нижнем уровне исходный первоначальный эскиз точно воспроизводит изменения яркости изображения и, кроме того, представляет концы, обозначенные на рисунке зачерненными кружками. На следующем уровне для групп объектов изображения формируются характерные объекты, отличающиеся определенной ориентацией. На очередном уровне различие направлений ориентации групп объектов, расположенных в левой и правой частях изображения, позволяет провести границу между этими частями изображения. Сложность первоначального эскиза определяется степенью пространственной организации изображения на различных масштабных уровнях
проиллюстрирована общая концепция, лежащая в основе схемы представления, называемой первоначальным эскизом. Основные положения этой концепции состоят в следующем:
1. Первоначальный эскиз на разных масштабных уровнях строится из непроизводных элементов одного и того же типа — некоторое пятно характеризуется практически одними и теми же местоположением, длиной, шириной и ориентацией независимо от того, на каком уровне оно определено; непроизводные же элементы, однако, могут задаваться на изображении разнообразнейшими способами — от самых конкретных (метка черными чернилами) до весьма формальных (множество точек).
2. Эти непроизводные элементы последовательно формируются конструктивным образом: сначала анализируются и представляются изменения яркости и непосредственно по ним формируются характерные объекты изображения; далее добавляется представление локальной геометрической структуры, характеризующей их расположение; затем эти объекты подвергаются воздействию процессов активного выбора и группировки с тем, чтобы получить характерные объекты более высокого уровня, отражающие крупномасштабные структуры изображения, и т. д.
3. В целом формируемые непроизводные элементы, параметры, которые ставятся им в соответствие, и точность их измерения определяются таким образом, чтобы структура изображения, учитываемая и отображаемая с их помощью, обеспечивала получение информации относительно реальной геометрической структуры видимых поверхностей. В результате возникает довольно сложная проблема достижения компромисса между возможной точностью различения и ценностью получаемой в результате информации. Так, при изменении ориентации поверхности проекции их направлений на изображении действительно изменяются, но, вообще говоря, в очень незначительной степени, и обычно, вероятно, эти изменения оказываются меньше типичного разброса направлений ориентации, характерного для реального распределения разметки поверхностной структуры. Это означает, что, за исключением специальных случаев, не имеет смысла использовать очень мощные средства для обнаружения едва различимых изменений направления ориентации. С другой стороны, поскольку даже очень малое относительное смещение служит неопровержимым свидетельством разделенности двух поверхностей, следует с очень большим вниманием относиться к относительным смещениям.
Процессы получения первоначального эскиза делятся на три основных этапа: 1) определение точек пересечения сигналом нулевого уровня; 2) формирование исходного первоначального эскиза; 3) получение полного первоначального эскиза.
---
Статья из книги: Зрение | Марр. Д.
Комментариев 0