Пространственная организация изображения
Содержание:
Описание
Сейчас мы перейдем к проблеме представления пространственных отношений. До сих пор нас вполне устраивало допущение о том, что каждый объект — каждое пересечение нулевого уровня и каждый элемент описания, входящий в необработанный первоначальный набросок, — характеризуется координатами, определяющими его положение на изображении. При переходе к обработке на вычислительной машине согласно этому допущению для представления позиционной информации использовалось двоичное отображение изображения. Это означает, что при появлении любого лемента описания в двухмерном массиве, размеры которого соответствуют размерам отображаемого изображения, определенному элементу приписывается значение ”1”. Кроме того, такому элементу массива ставится в соответствие некоторый указатель, связывающий его с реальным описанием непроизводного элемента. Как и многие, я обнаружил, что это довольно ”механическое” представление изображения, напоминающее топографически структурированные проекции, которые используются на начальных участках зрительного пути, является наиболее подходящим для изучения геометрических отношений, действующих на изображении.Дело в том, что набор пространственных отношений, которые необходимо выделить для получения полезной информации из изображения, весьма обширен. Кроме того, напомним о нашей общей установке, состоящей в том, что все эти пространственные отношения (плотность, коллинеарность, локальная параллельность и т. д.) неявным образом задаются позицией каждого объекта, точно так же, как двоичное представление числа 37 неявным образом содержится в его представлении в виде римского числа XXVII. Если, однако, становятся необходимы коэффициенты представления числа в двоичной форме, то, следовательно, их придется определять в явном виде, поскольку это даст возможность воспользоваться представлением числа 37 в виде 100101.
В качестве исходного представления изображения удобно использовать двоичное отображение, поскольку оно дает возможность сравнительно просто ограничить объем перебора, скажем, при построении необработанного первоначального эскиза, рассматривая только те элементы, которые представляют для нас интерес. Так, если нас интересует плотность распределения определенных элементов с некоторой ограниченной окружностью окрестности, то мы просто просматриваем эту окрестность на двоичном отображении изображения. Отыскивая коллинеарные конфигурации, мы выбираем некоторую пару и приступаем к поиску в двоичном отображении изображения по двум направлениям, примерно соответствующим искомой ориентации. Существенной особенностью двоичного отображения является то, что оно избавляет нас от необходимости просматривать весь список дискрипторов первоначального эскиза, проверяя значение каждой координаты, с тем чтобы установить, не попадает ли оно в заданную окрестность. Основным преимуществом эффективности использования буквалистского двоичного отображения изображения является то, что большая часть пространственных отношений, которые должны оцениваться на предварительном этапе обработки зрительной информации, имеют в основном локальный характер. В случае, когда мы сталкиваемся с произвольно разбросанными точечными конфигурациями, двоичное отображение, вероятно, оказывается не более эффективным, чем список.
Следствия, вытекающие из использования двоичного представления изображения, нетрудно оценить и применительно к уровню нервных клеток. Если некоторый нейрон должен измерять плотность распределения характерного объекта определенного типа в некоторой окрестности заданного размера,
то при условии существования какой-то топографической структурированности нейронов, представляющих характерные объекты, функции нейрона, определяющего плотность распределения, полностью исчерпываются подсчетом числа нейронов, представляющих характерные объекты заданного типа и находящихся в возбужденном состоянии. Аналогичным образом, если некоторый нейрон должен измерять степень локального возбуждения, соответствующего определенному направлению, то при условии существования какой-то топографической структурированности нейронного представления функции ’’нейрона, определяющего степень возбуждения по некоторому направлению”, полностью исчерпываются подсчетом числа нейронов, настроенных примерно на заданное направление, находящихся в возбужденном состоянии и принадлежащих определенной (реальной) окрестности коры. Естественно, если эта реальная окрестность ограничена окружностью, то соответствующая окрестность, выделенная на изображении, будет представлять собой не круг в точности, но его хорошее приближение, чего обычно оказывается вполне достаточно.
Причина внимания к этому моменту состоит в том, что многие испытывают затруднения, пытаясь привязать понятие такой системы координат (х, у), которую можно использовать при составлении программы для вычислительной машины, к стилю рассуждения того типа, которым следует пользоваться, когда речь идет о нейронах. Я указывал ранее, что установление подобной связи не должно составлять проблемы, и, как я надеюсь, теперь понятно, что применительно по меньшей мере к некотором аспектам локальных геометрических свойств изображения концепции, основанные на приближенном топографическом представлении и локальносвязанных рецептивных полях, могут обеспечить механизм, обладающий необходимой мощностью. Теперь перейдем к достаточно точному представлению конкретных локальных геометрических отношений.
Существенным является следующий вопрос: какие пространственные отношения важно выявить сейчас и почему? Ответ, естественно, зависит от цели, для достижения которой предполагается использовать соответствующее представление. Нашей целью является определение геометрических свойств изображенных поверхностей, причем можно пользоваться физическими допущениями, в сочетании с естественными для изображения последствиями изменения глубины и ориентации поверхностей. Это приводит к следующему перечню признаков изображения, определение которых должно способствовать решению задачи расшифровки геометрических свойств поверхности:
1. Средняя локальная яркость - р соответствии с первым физическим допущением (изменения средней яркости изображения могут вызываться изменениями освещения, возможно связанными с изменениями глубины, а также изменениями ориентации поверхности и ее коэффициентов отражения).
2. Средние размеры объектов, расположенных на некоторой поверхности и обладающих подобием в смысле второго и третьего физических допущений (термин ’’размеры” относится как к длине, так и к ширине).
3. Локальная плотность распределения объектов, определенных в связи со вторым признаком изображения.
4. Локальная ориентация (если она существует) объектов, определенных в связи со вторым признаком изображения.
5. Локальные расстояния, поставленные в соответствие пространственному размещению подобных объектов (третьей четвертое физические допущения) , т. е. расстояния между соседними парами подобных объектов.
6. Локальная ориентация, поставленная в соответствие пространственному размещению подобных объектов (третье, четвертое и пятое физические допущения) , т. е. направление прямой, соединяющей соседние пары подобных объектов.
С точки зрения представления изображения нам сейчас требуются следующие три общих понятия: 1) обобщенные признаки (характерные объекты изображения) представляют объекты (мы уже убедились в том, что первые являются одной из основ первоначального эскиза); 2) подобие характерных объектов изображения; 3) пространственная организация. Последнее понятие включает два аспекта. Первый, с которым мы уже сталкивались, связан с разнообразными характеристиками плотности распределения, для определения которых можно воспользоваться подсчетом числа объектов в соответствующих окрестностях. Отсюда вытекают отмеченные выше признаки 3 и 4. Признаки изображения 5 и 6 требуют, однако, привлечения некоторого нового понятия, некоторого нового непроизводного элемента представления, способного послужить основой для анализа локальных конфигураций характерных объектов изображения. В этом случае необходимо выделить информацию о расстоянии между двумя подобными характерными объектами изображения и их относительной ориентации. Для этого мы введем новый непроизводный элемент, названный допустимой прямой; она проводится между двумя соседними характерными объектами изображения и описывается двумя признаками — ориентацией и длиной. Этот непроизводный элемент также некоторым образом описывает способ установления подобия двух характерных элементов изображения, соединенных допустимой прямой; поэтому две допустимые прямые, соединяющие попарно характерные объекты изображения, считаются различными (в смысле нашего третьего физического допущения), если характерные объекты изображения, входящие в разные пары, не обладают подобием.
С точки зрения восприятия допустимые прямые не должны обязательно соответствовать субъективным контурам, хотя могут являться их предвестниками. В нашей теории это конструкции, которые появляются позже, чем допустимые прямые. Субъективные контуры появляются в 2,5-мерном эскизе, роль которого, в частности, заключается в выявлении нарушений непрерывности в расстояниях, разделяющих наблюдателя и видимые поверхности Допустимые же прямые, в свою очередь, связаны с представлением организации изображений, а не поверхностей. Именно они обеспечивают нам возможность видеть движение на конфигурациях Гласса и множество конкурирующих пространственных организаций.
[banner_centerrs] {banner_centerrs} [/banner_centerrs]
Понятие допустимой прямой очень привлекательно с точки зрения информационного подхода, и Стивенс обратился к конфигурациям Гласса, с тем чтобы попытаться в процессе их изучения найти какие-нибудь психофизические доказательства существования таких прямых, а также разобраться в концепции характерных объектов изображения - гипотетических объектов, соединяемых, как предполагается, допустимыми прямыми.
Исследование, выполненное Стивенсом, оказалось исключительно интересным, поскольку в рамках одной небольшой экспериментальной работы ему удалось получить семь замечательных результатов. Среди них несколько совершенно неожиданных:
1. Организацию локальных ориентаций в конфигурации Гласса можно выявить с помощью сугубо локального алгоритма, проиллюстрированного рис. 2.26.
Рис. 2.26. Алгоритм Стивенса, предназначенный для определения структуры локальных ориентаций в конфигурации Гласса, включает три основных шага. Входной информацией для алгоритма служат введенные на изображении локально-характерные объекты, каждый из которых обрабатывается алгоритмом Стивенса параллельно. Поскольку в случае точечных конфигураций Гласса каждая точка порождает локально-характерный объект изображения, первый шаг алгоритма посвящается построению допустимых прямых, связывающих некоторую заданную точку со всеми соседними точками (лежащими в пределах некоторой окрестности с центром в заданной точке). Всякая допустимая прямая представляет местоположение и ориентацию некоторой пары соседних точек, а также расстояние между ними. Для того чтобы подчеркнуть приоритет более близких соседних точек, с помощью какой-либо простой весовой функции более коротким допустимым прямым приписываются большие веса. Второй шаг алгоритма предусматривает построение гистограммы оприентаций допустимых прямых, проведенных из всех соседних точек. Так, в частности, соседняя точка D вносит в гистограмму ориентацию допустимых прямых AD, DF, DG и DH. На последнем шаге (он осуществляется после сглаживания гистограммы) определяется ориентация, которой соответствует пик гистограммы, и выбирается допустимая прямая, ориентация которой оказывается наиболее близкой к ’’ориентации” пика гистограммы (АВ); этот выбор и является результатом работы алгоритма (а). На рисунках, помещенных справа, приведены результаты применения алгоритма к конфигурациям, помещенным слева (б)
Его основная идея заключается в том, что соседние точки соединяются допустимыми прямыми, после чего с целью выявления преобладающей организации на последних начинается локальный поиск. Разделив конфигурации на несколько частей, каждая из которых подвергалась отличному от других преобразованию (рис. 2.27),
Рис. 2.27. Согласно данной конфигурации алгоритм, используемый зрительной системой человека для выявления структуры локальных ориентаций, также имеет локальный характер. Отдельные части этой конфигурации обладают различными структурами локальных ориентаций, что отчетливо видно на изображении
Стивенс показал, что восприятие целостного гештальта, в отличие от предположения Гласса, не является необходимым условием определения локальной ориентации.
2. Если анализ, выполняемый нами в процессе восприятия, зависит, подобно алгоритму Стивенса, от оценки распределения ориентаций допустимых прямых, соединяющих между собой точки соответствующей конфигурации, то допустимые прямые строятся лишь между соседними точками. Происходит это по двум причинам. Первая из них, и более очевидная, заключается в том, что преобладающая локальная ориентация изменяется при глобальном просмотре изображения. Вторая, и не столь очевидная, причина состоит в том, что чем больше допустимых прямых проводится из каждой точки, тем более случайным становится локальное распределение ориентаций и, следовательно, тем точнее необходимо определять участки гистограммы распределения локальных ориентаций, которые используются для выделения преобладающей локальной ориентации. Если последняя определяется с точностью до 10—15°, то из каждой точки в среднем можно проводить не более четырех допустимых прямых. Стивенс установил, кроме того, что требуется проводить более одной допустимой прямой, а в частном сообщении указал, что достаточно проводить лишь по две допустимые прямые из каждой точки.
3. Эта закономерность сохраняет линейность в диапазоне значений плотностей, соответствующих их изменению на два порядка.
4. Примеры типа приведенного на рис. 2.28
Рис. 2.28. Для того, чтобы пространственная организация проявлялась при наложении двух конфигураций, совершенно не обязательна тождественность характерных объектов, образующих конфигурации. Тем не менее эти объекты должны обладать определенным подобием
свидетельствуют в пользу концепции, согласно которой допустимые прямые связывают абстрактные характерные объекты изображения, вводимые различными способами. На этом рисунке одно из точечных множеств заменено малыми прямыми, ориентация которых задана случайным образом.
5. Однако, для того чтобы анализ увенчался успехом, характерные объекты изображения действительно должны в разумной степени обладать сходством — на нашем языке таким, чтобы можно было проводить допустимые прямые. В собственном примере Стивенса, рассматривается наложение трех точечных конфигураций - двух, образованных тусклыми точками, и одной - яркими. На изображении мы видим лишь организацию, представляемую тусклыми точками. Это свидетельствует как в пользу принципа использования характерных объектов изображения, так и в пользу концепции подобия и служит доказательством того, что даже на столь ранней стадии (для того чтобы ’’увидеть” конфигурацию Гласса, требуется менее 80 мс, даже при предъявлении случайных точечных конфигураций непосредственно до и после опознания конфигурации) анализ изображения осуществляется на достаточно формализованном уровне.
6. Интересно отметить, что при замене коротких отрезков со случайной ориентацией, представленных на рис 2.28, короткими отрезками с некоторой одинаковой ориентацией (как это имеет место на рис. 2.29)
Рис. 2.29. В данном случае наложенная конфигурация образована короткими отрезками, имеющими одну и ту же ориентацию. Интересно отметить, что видна своего рода конкуренция этой ориентации и ориентации, порожденной пространственной организацией конфигурации
возникает конкуренция между ориентациями, определяемыми в целом короткими отрезками и структурой конфигурации Гласса, -на нашем языке между ориентациями реально существующих и допустимых прямых. Это обстоятельство отражает степень использования и уровень организации глобального анализа изображения.
7. И наконец, Стивенс показал, что в нашем восприятии таких конфигураций гистерезис проявляется лишь в небольшой степени либо вообще не проявляется. Момент, когда пространственная организация перестает восприниматься из-за разделения конфигураций, очень близок к моменту, когда восприятие пространственной организации восстанавливается благодаря совмещению конфигураций. Этот результат показался нам странным, а причиной этого послужил тот факт, что Фендер и Джулес продемонстрировали наличие сильного гистерезиса в стереопсисе. Последнее привело Поджо и меня к идее применения кооперативного алгоритма для решения задачи установления соответствия между изображениями стереопары. Тогда и возникла идея использовать кооперативные процессы в качестве способа записи алгоритма непосредственно по ограничениям. Она казалась очень привлекательной. Задача, связанная с конфигурациями Гласса, казалась бы, прекрасно подходила для применения кооперативного подхода, в основу которого положены условия единственности и непрерывности локальной ориентации. Из результатов же Стивенса следовало, однако, что в системе зрительного восприятия человека для решения этой задачи кооперативный подход, очевидно, не используется. Очень быстро мы тоже поняли, что наш алгоритм синтеза стереопары не является тем алгоритмом, который используется в зрительной системе человека, а установление соответствия между изображениями стереопары, вероятно, обеспечивается с помощью некоторого алгоритма, использующего кооперацию в очень незначительной степени. Таким образом, постепенно сформировалась точка зрения, согласно которой в зрительной системе человека кооперативные или строго итеративные алгоритмы не применяются, если этого можно избежать. Ниже мы рассмотрим несколько возможных причин.
Работа Стивенса позволила нам почувствовать себя несколько увереннее как в связи с теми вопросами, которые у нас возникли, так и в связи с некоторыми деталями, относящимися к первоначальному эскизу. Примерно в это же время Шац выступил с утверждением, что для объяснения процесса различения текстур вполне достаточно необработанного первоначального эскиза и допустимых прямых. Это утверждение, однако, оказалось неверным, и для того чтобы понять, почему необходимо обратиться к уровням, на которых представление изображения имеет более сложный характер; мы называем его полным первоначальным эскизом.
↑ Источники света и прозрачность
Хотя главная нить нашего изложения связана с пространственной организацией изображения и видимых поверхностей, важно не упускать из вида, что человек воспринимает также и другие существенные физические свойства видимого мира. Одно из них имеет отношение к обнаружению источников света — флуоресценции.
Важным вкладом в изучение обнаружения зрительной системой источников света явилась чрезвычайно элегантная работа Уллмана. Он рассмотрел шесть методов, которые могли бы использоваться в зрительной системе при обнаружении источников света, и исследовал их экспериментально с помощью ахроматических мондриановых раздражителей типа предложенного Ландом и Макканном для изучения освещенности. Это раздражители, название которых связано с именем художника Пита Мондриана , представляют собой некоторую совокупность черных, серых и белых прямоугольников (типа приведенной на рис. 2.30).
Рис. 2.30. Мондрианов раздражитель типа предложенного Ландом и Макканном и использованного Уллманом при изучении флуоресценции
В экспериментах Уллмана один из этих прямоугольников иногда служил источником света.
Уллман рассмотрел методы обнаружения источника света на основе максимальной яркости в некотором поле, высоких абсолютных значений яркости, высоких значений яркости по сравнению со средней яркостью поля, высокой контрастности и некоторых других параметров. Он обнаружил, что ни один из этих факторов не является необходимым условием для восприятия некоторого источника света, хотя коэффициент контрастности, составляющий около 30:1, действительно является достаточным. Высокая контрастность, однако, не является необходимой - так, в частности, источник света воспринимается в мондриановом раздражителе, у которого ни в одной точке отношение значений яркости не превышает 3:1.
После этого Уллман предложил метод, основанный на идее, проиллюстрированной рис. 2.31.
Рис. 2.31. Иллюстрация принципа, лежащего в основе обнаружения источников света зрительной системой. Коэффициенты отражения участков поверхности А и В равны r 1 и r2 соответственно; им соответствуют определенные значения яркости I. Яркость I и ее градиент ?Iизменяются одинаково при переходе с участка А на участок В, так что в результате отношение ?I/I остается постоянным. На участке С, однако, появляется источник света S. Это вызывает изменение яркости I и не вызывает изменения ?I, как показано на графике. Таким образом, значение отношения ?I/I изменяется на границе источника. Это обстоятельство может использоваться для обнаружения источников света на мондриановых изображениях
На этом рисунке ось х соответствует длине некоторой поверхности, освещаемой справа и состоящей из трех участков: А, В и С. На участке А коэффициент отражения поверхности равен r 1, а на участках В и С r 2 < r 1; на участке С, кроме того, под поверхностью находится источник света. На поверхность направлена камера, регистрирующая яркость/в различных точках изображения (см. рис. 2.31).
В основе метода Уллмана лежит следующая идея. На границе участков А и В яркость I изменяется, и, помимо этого, изменяется градиент яркости ?I. Однако, поскольку изменения этих величин одинаковы, отношение ?I/I остается постоянным. Другая ситуация наблюдается на границе участков В и С: здесь к яркости / добавляется яркость S постоянного источника света. В результате I изменяется, а градиент яркости не изменяется. Отсюда изменяется и отношение ?I. Итак, отношение ?I/I изменяется при пересечении границы источника света, но не изменяется при пересечении границы, на которой коэффициент отражения поверхности варьируется.
Другие эффекты, связанные с источниками света
Форбас предложил применять оператор ?I/I и в других ситуациях, связанных с освещением (в том числе для обнаружения теней и различных эффектов, порождаемых влажностью, блеском и глянцевитостью поверхности) и столь сильно озадачивших Бека и Эванса. Так, в отношении оператора ?I/I границы тени оказываются аналогичными границам источника света. К тому же они часто, хотя и не всегда, являются менее четкими, чем границы поверхности или границы, на которых происходит изменение коэффициента отражения поверхности, поскольку на тенях яркость редко изменяется резко. Это можно установить, сравнив углы, под которыми происходят соответствующие пересечения нулевого уровня, определенные с помощью ?2 G-фильтров с рецептивными полями разных размеров, и характеристика пространственной протяженности изменения яркости фактически будет входить в необработанный первоначальный эскиз как параметр ширины, связанный с яркостным переходом.
Глянцевитость порождается составляющей функции отражательной способности, обусловленной зеркально отраженным светом, поэтому обнаружение глянца можно рассматривать. в сущности, как обнаружение источников света, возникающих при отражении от некоторой поверхности, а такое обнаружение в конечном счете определяется способностью обнаруживать источники света. Форбас выделил три случая: 1) отражательная способность слишком мала, что исключает возможность измерения градиентов; 2) возможны измерения как яркости, так и ее градиента, однако отражательная способность имеет локальный характер (как и для криволинейных поверхностей и точечных источников) ; 3) поверхность - плоская, а источник света — протяженный. Для каждого из этих случаев Форбас предложил критерии принятия решения.
Такая проблема, как обнаружение теней и собственно источников света, заслуживает дальнейшего изучения. Дело в том, что изменения только ориентации поверхности могут тоже вызвать изменение отношения ? I/I,хотя для того, чтобы оно стало заметным, ориентация, как правило, должна изменяться существенно. Это означает, что отношение ?I/Iнельзя использовать в качестве единственного критерия принятия решения относительно эффектов, порождаемых освещением, совершенно не учитывая изменений ориентации поверхностей. Предварительные исследования позволили нам установить, что, хотя в естественных изображениях и удается обнаруживать и измерять изменения отношения ?I/I, вызванные исключительно изменениями ориентации поверхности, в основном подобные изменения малы. Если же синтезируется искусственное изображение, на котором отношение ?I/I немного меняется при пересечении некоторой границы, это изменение не воспринимается как результат изменения ориентации. В сущности, человек не замечает ничего до тех пор, пока изменение не становится достаточно значительным, а после этого он начинает воспринимать одну из областей как некоторый источник света.
Прозрачность
Еще одним интересным явлением оказалась прозрачность, к которой многие проявляют заметное внимание. Примером, в частности, служит статья Мителли в журнале Scientific American, в которой он показал, что человек может воспринимать прозрачность при выполнении некоторого набора неравенств, связывающих значения яркостей изображения.
Как и следовало ожидать, неравенства Мителли можно записать исходя из физических соображений. Пусть коэффициент отражения некоторой поверхности изменяется от 1, до r 2 при переходе через некоторую границу (на всем ее протяжении) и на поверхность наложена полоса, как это показано на рис. 2.32.
Рис. 2.32. ?-граница, на которой происходит изменение значения коэффициента отражения поверхности, и ?-граница, на которой происходит изменение прозрачности; ri- - значения коэффициентов отражения; Li - значения освещенности; iij - измеренные значения яркости (для i,j = 1,2)
Освещенность при отсутствии полосы равна L2 и соответственно L 1 - при ее наложении (после двукратного ослабления) . Очевидно, что если яркость в каждом квадрате составляет, как это показано на рисунке, i11, il2, i21 и i22 соответственно, то можно записать следующие соотношения:
и
Эти соотношения, связывающие значения яркости, справедливы как для границ прозрачности, так и для границ тени, они не выполняются при произвольном изменении коэффициента отражения в четырех направлениях. Однако в отличие от границ тени границы, на которых изменяется прозрачность, почти всегда являются четкими (их ’’ширина” равна нулю) и они не порождают изменений отношения ? I/I.
Выводы
Результаты упоминавшихся выше исследований хотя и неполны, но позволяют прийти к заключению о том, что даже столь сложные для достижения свойства реального мира, как флуоресценция и прозрачность, поддаются восприятию благодаря соответствующим процессам, действующим независимо на нижнем уровне зрения человека. Применительно к представлению изображений это означает, что можно рассчитывать на использование этих оптических эффектов при предварительной обработке изображений в зрительной системе, например, так, как это делалось в случае границ, включаемых в первоначальный эскиз. Для их представления требуются дополнительные непроизводные элементы, однако в этой связи существенных затруднений не возникает. Было бы интересно выяснить, какие еще свойства видимого мира поддаются обнаружению на таких предварительных этапах обработки изображений.
↑ Процессы классификации и полный первоначальный эскиз
Подведем итоги проведенного выше анализа пространственной организации изображений. Выделим две основные цели этого анализа: 1) построение характерных объектов изображения, отражающих крупномасштабную структуру функции отражательной способности поверхности; 2) обнаружение различных типов изменений значений измеряемых параметров, связанных с указанными выше характерными объектами изображения и полезных с точки зрения выявления изменений ориентации видимых поверхностей относительно наблюдателя и изменений расстояний, их разделяющих. Грубо говоря, цели анализа заключаются в построении характерных объектов изображения и установлении границ. Решение обеих задач требует обращения к процессам отбора, обеспечивающим реализацию запрета на объединение характерных объектов изображения, очень сильно различающихся между собой, а также к процессам классификации и различения, обеспечивающим объединение приблизительно одинаковых характерных объектов изображения в укрупненные характерные объекты изображения и установление границ между множествами характерных объектов изображения, имеющих какие-либо различия.
Следовательно, этот подход, вообще говоря, сводится к практически рекурсивному построению непроизводных элементов описания изображения. Исходные данные, которые являются отправной точкой для всей дальнейшей обработки и анализа, представляют собой описание, составленное из непроизводных элементов, выделенных на изображении. Это описание мы называем необработанным первоначальным эскизом. Вначале из него выбираются элементы, обладающие некоторым подобием. Далее они подвергаются группировке и классификации, в результате чего из них строятся прямые, кривые, пятна больших, чем исходные элементы, размеров, группы и небольшие участки, причем возможности формирования новых объектов определяются внутренней структурой изображения. Многократное повторение этой процедуры приводит к получению на каждом масштабном уровне характерных объектов и непроизводных элементов изображения, отражающих пространственную структуру изображения, присущую соответствующему масштабному уровню. Так, если изображение представляет собой крупный план кота, то необработанный первоначальный эскиз может служить источником описаний, относящихся в основном к масштабному уровню, соответствующему отдельным волоскам кошачьей шубки. На следующем уровне могут появиться отметины, имеющиеся на этой шубке (они также поддаются непосредственному обнаружению при анализе изменений яркости), а на очередном (по направлению ’’вверх”) уровне проявляется структура этих отметин на шубке, образованная параллельными полосками. Непроизводные элементы, используемые на каждом шаге, — это символьные объекты, обладающие качественным подобием (яркостные переходы, полосы, пятна, обрывы и нарушения непрерывности), однако на каждом очередном шаге они отражают все большую степень формализации признаков изображения.
Другими примерами служат напоминающие пятна группы, расположенные в середине изображений (рис. 2.33, а и 6),
Рис. 2.33. Сущность обобщенных непроизводных элементов первоначального эскиза заключается в том, что они обеспечивают возможность представлять весьма разнообразные объекты изображения в качестве некоторой группы или характерного объекта изображения, а также в том, что их можно объединять в группы и из них можно формировать границы. На рисунке приведены примеры, иллюстрирующие различные способы задания локально-характерных объектов и объединения их в группы. В каждом из приводимых примеров короткая прямая, некоторая группа прямых, а также некоторая группа точек после объединения в группу рассматриваются как некоторый единый объект
небольшие кластеры (рис. 2.33, в и г), набор довольно однородных объектов, образующих на изображении группы (рис. 2.33, д), стороны квадратов (рис. 2.33, е и ж) и прямая, проходящая по середине изображения (рис. 2.33, з). Разнообразные локальные кластеры, пятна, группы, а также возможность рассматривать каждый из них как некий единый объект - вот плоды, приносимые обращением к процессам указанного класса, обеспечивающим формирование характерных объектов изображения. Представления углов, образуемых двумя прямыми в трехмерном пространстве, как и квадрата или треугольника, не входят в арсенал первоначального эскиза, поскольку они отражают свойства реального мира, порождающего изображение, но не свойства собственно изображения.
После того как эти непроизводные элементы построены, их можно использовать для получения информации о геометрических свойствах видимых поверхностей либо с помощью обнаружения изменений отражательной способности поверхностей, либо с помощью обнаружения изменений, причиной которых могли бы явиться нарушения непрерывности ориентации поверхностей или глубины. Нам практически нечего сказать относительно обнаружения изменения первого типа — можно лишь заметить, что при возникновении какого-либо изменения на поверхности ее функция отражения обычно изменяется очень существенно, и измерение чуть ли не любой характеристики позволит обнаружить изменение. Поэтому сосредоточим внимание на обнаружении изменений второго типа. Известны два совершенно различных способа, позволяющие выделить такие границы. Первый предусматривает определение наборов характерных элементов изображения, отражающих возникновение физических нарушений непрерывности, в связи с чем геометрическая организация характерных объектов соответствует физическим особенностям этих нарушений непрерывности. Примером возникновения подобной геометрической организации может служить пространственное упорядочение концов (нарушений непрерывности), проиллюстрированное рис. 2.25, а и б. Механизм, обеспечивающий выделение таких геометрических структур, как я полагаю, позволяет нам также видеть и окружности на рис. 2.33, а—г и прямую на рис. 2.33, д.
Второй способ выделения нарушений непрерывности поверхности предусматривает анализ нарушений непрерывности значений различных параметров, описывающих пространственную структуру изображения. В предпоследнем разделе мы выделили шесть признаков изображения, которые могут оказаться полезными. Три из них — средняя яркость, размеры (в качестве них могут использоваться длина и ширина) и ориентация — связаны со свойствами характерного объекта изображения, другие три — их локальная плотность, расстояние между ними и структура ориентаций (если таковая имеется), присущая их пространственному расположению, — с пространственным расположением характерных объектов изображения. Изменение значения любого из указанных признаков может быть нами использовано для определения геометрических свойств видимых поверхностей, и в соответствии с нашим вторым физическим допущением следует стараться измерять подобные изменения на различных масштабных уровнях.
Примеры таких критериев приведены на рис. 2.34.
Рис. 2.34. Еще одной важной особенностью первоначального эскиза являются границы между областями, проводимые на основе данных, которые могут отражать возникновение нарушений непрерывности ориентации поверхностей, или на основе расстояния, отделяющего их от наблюдателя. Все примеры, приведенные на данном рисунке, предложены М. Райли. Здесь представлены источники психофизического порождения границ в указанном в тексте смысле. Границы, представленные на рис. 2.34, a-в, могут возникать из-за действия геометрических факторов, однако дело обстоит иначе в случае границы, приведенной на рис. 2.34, г. Между границами, показанными на рис. 2.34, д и е, можно установить соответствие с точностью до переноса
На рис. 2.34, а изображена граница, возникшая из-за изменения плотности расположения точек. На рис. 2.34, б граница порождена изменением среднего размера квадратов. На рис. 2.34, в граница появилась вследствие изменения ориентации на 45 . Результаты одновременного изменения нескольких факторов представлены на рис. 2.34, г.
Таким образом, суть второго способа состоит в измерении локальных значений (на различных масштабных уровнях) шести определенных выше величин и выделении с помощью некоторого набора непроизводных элементов границы или непроизводных элементов яркостного перехода нарушений непрерывности значений измерявшихся признаков. Смысл ввода таких границ в представление изображения заключается в том, что они могут послужить источником существенных данных относительно расположения нарушений непрерывности поверхности. Это замечание имеет одно важное следствие, а именно параметр, значение которого изменяется таким образом, что вероятность возникновения этих изменений в результате нарушений непрерывности поверхности кажется высокой, очевидно, отражает изменения, порождающие наблюдаемую границу, с другой стороны, те изменения, которые можно лишь с весьма малой вероятностью связать с геометрическими факторами, вряд ли соответствуют тем источникам, которые могли бы породить воспринимаемые границы. Я называю это положение гипотезой геометрического происхождения воспринимаемых границ на текстурных изображениях Принципиальным ограничением ее конструктивности служит то, что функции отражения редко имеют четкую геометрическую структуру. Так, если ориентация некоторого элемента соответствует структуре поверхности, то обычно это соответствие не является особенно точным Следовательно, небольшие изменения ориентации на изображении, которые могут появиться в результате небольших изменений ориентации поверхности, обычно не порождают четкого сигнала. То же самое относится и к изменениям размеров объектов на изображении, хотя плотность расположения обеспечивает более тонкое различение Итак, лишь в тех случаях, когда структура изображения отличается чрезвычайно высокой степенью регулярности, можно рассчитывать на высокую остроту восприятия этих различий. Вообще говоря, мы должны воспринимать их достаточно плохо, что на самом деле и происходит (рис 2.35).
Рис. 2.35. Ha этих рисунках, предложенных M. Райли, представлены текстурные различия, которые не могут быть порождены исключительно геометрическими факторами. Они не могут являться источником психофизического порождения границ в указанном в тексте смысле, несмотря на то, что иногда мы в состоянии указать на то, что одна область некоторым образом отличается от другой. В примере, приведенном на рис. 2.35, г, внутренняя область содержит прямые, ориентированные только в двух направлениях, в то время как внешняя область заполнена прямыми с различными ориентациями. Интересно сопоставить эти примеры с примерами, приведенными на рис. 2.34.
Прежде чем подвести итоги, я бы хотел сделать еще одно заключительное замечание. Хотя и удобно разделить процессы группировки на два класса — формирование характерных объектов изображения и формирование границ соответственно, - эти процессы на самом деле не столь уж независимы и классы могут пересекаться. Треугольник, изображенный на рис. 2.34, а, можно формировать, выстраивая в линию соседние точки и ориентируясь при этом по локальному росту плотности расположения точек или даже по локальному уменьшению средней яркости. Отдельная граница часто определяется многими способами — свойство живых организмов способствует ее обнаружению зрительной системой, но порождает трудности для специалистов в области экспериментальной психофизики.
Основные тезисы доказательства
Идея состоит в том, что строится необработанный первоначальный эскиз, который рассматривается как исходное представление изображения. Затем после применения к нему процессов выбора, группировки и классификации формируются характерные объекты изображения, допустимые прямые и границы, причем все это делается на различных масштабных уровнях. Изложенный нами подход служит основанием для использования такой процедуры. Он позволяет установить, какие типы характерных объектов изображения следует ввести, какие разновидности процедур выбора и группировки следует использовать, какие условия должны приводить к порождению воспринимаемых границ и какие не должны и даже, возможно, каким образом следует сопоставлять различия в остроте восприятия, соответствующие разным разделяющим признакам. Так, в тех случаях, когда размер характерного объекта изображения рассматривается как разделительный признак, отражающий изменения ориентации поверхности, разрешение по размеру характерного объекта изображения должно быть сопоставимо с разрешением по ориентации характерного объекта изображения. Эти соображения составляют физическую основу допущения, согласно которому некоторые процедуры распознавания зрительной системой текстур базируются на процессах распознавания, разделяющих статистические характеристики первого порядка и реализуемых на первоначальном эскизе. Перейдем к более подробному обсуждению этой проблемы.
Информационный подход и психофизические аспекты распознавания текстур
Строго с точки зрения психофизики трудно точно определить, что именно означает словосочетание распознавание текстур. В своей широко известной серии статей, посвященной этой проблеме, Б. Джулес ввел разделение на текстуры, допускающие мгновенное разделение (так называемое мгновенное восприятие), и текстуры, не поддающиеся разделению без тщательного и часто продолжительного изучения (так называемое восприятие-изучение) . Он ограничился изучением распознавания текстур первого типа, т. е. таких, которые удается разделить за время, не превышающее 200 мс (грубо говоря, речь идет о текстурах, распознаваемых без движения глаз).
Вероятно, следует отметить, что подход, предлагаемый мною, ограничен в еще большей степени, так как включает требование формирования воспринимаемых границ там, где проходят границы, разделяющие текстуры. Этому условию удовлетворяют не все текстуры, предложенные Джулесом. В частности, ему не удовлетворяет ни один из приведенных на рис. 2.35 примеров; в то же время все примеры рис. 2.34 соответствуют этому требованию. Следовательно, в психофизическом смысле наш подход предусматривает быстроту распознавания (скажем, менее чем за 160 мс) и получение явной зрительно различимой границы. Известны различные критерии, реализующие второе требование. Один из них помимо возможности устанавливать наличие двух текстур в использовавшихся Джулесом текстурных изображениях (типа приведенных на рис. 2.34) предусматривает возможность получения информации о форме выделенной области. Шац, например, включил это условие в один из своих экспериментальных критериев.
Другая возможность, о которой сообщил мне С. Уллман, состоит в том, чтобы попытаться получить видимое движение границ текстур, определенных различными способами и представленных на двух отдельных кадрах. Первым кщром может служить, скажем, рис. 2.34, д, а вторым, предъявляемым после некоторого промежутка времени, например 100 мс, — рис. 2.34, е. Если у испытуемого возникает отчетливое впечатление, что границы перемещаются, это служит свидетельством, подтверждающим установление границ. Если же границы подчиняются тем же правилам локального соответствия, которым удовлетворяют яркостные границы, то это является очень важным доказательством того, что границы действительно выделены. Примеры, приведенные на рис. 2.34, удовлетворяют критерию получения информации о форме и критерию видимого движения.
Третий критерий зрительной различимости границы можно, вероятно, вывести из результатов, полученных Киддом, Фрисби и Мейхью. Используя соответствующие стереоскопические изображения, они установили, что некоторые типы границ текстур могут вызывать дизъюнктивные движения глаз, при которых две прямые, находящиеся в поле зрения, начинают сходиться или расходиться.
Если все эти критерии одновременно дают положительные или отрицательные результаты для различных типов границ, то это означает, что мы располагаем мощным инструментом, позволяющим устанавливать факт построения зрительно различимой границы, порожденной некоторым изменением на рассматриваемой текстуре. Кроме того, аналогичные комбинированные методы могут оказаться полезными для того, чтобы определить, действительно ли исходя из типов характерных объектов изображения, выделенных с помощью мгновенного восприятия из изображения, получено нечто вроде полного первоначального эскиза.
И наконец, как мне кажется, психофизические исследования сравнительной разделяющей мощности различных процессов распознавания наибольшую убедительность могут приобрести при использовании в них критериев типа абсолютных оценок эффективности, предложенных Барлоу. Это исследование Барлоу посвятил изучению чувствительности, доступной человеку при обнаружении целей, представляющих собой множества плотно расположенных точек, включенных в фон, образованный случайно и менее плотно расположенными точками. Он установил, что на предъявляющихся им изображениях испытуемые в его экспериментах оказались в состоянии использовать около двух третей истинного отношения сигнал-шум, а это соответствовало приблизительно половине имевшейся статистической информации. Для объяснения полученных результатов он предложил также интересную и экономичную модель, которая содержала элементы ’’для оценивания количества точек”; эти элементы имеют приблизительно круглую форму и различные размеры. Количество точек позволяет заполнить ими центральную часть зрительного поля с окрестностями диаметром 1 — 4°, причем в среднем незаполненные промежутки и перекрытия составляют около 50 %. Они временно объединяются на период около 0,1 с. Я рассчитываю, что аналогичные исследования можно провести и для других задач распознавания.
На этом наше обсуждение способов представления изображений заканчивается. Теперь мы займемся использованием этих представлений для получения информации о поверхностях.
---
Статья из книги: Зрение | Марр. Д.
Комментариев 0