Непосредственное представление видимых поверхностей ? Часть 1
Содержание:
Описание
↑ Введение
В данной главе мы будем обсуждать проблемы и задачи, возникающие в связи с идеей 2,5-мерного эскиза, с которым мы уже встречались. Основной тезис прост: 2,5-мерный эскиз обеспечивает представление видимых поверхностей в координатах наблюдателя, позволяющее воспроизвести и объединить результаты всех процессов, описанных ранее. Построение 2,5-мерного эскиза — это краеугольный камень нашей теории, последний этап перед интерпретацией информации, характеризующей поверхность, и, быть может, завершение процесса чистого восприятия.
Возможно, читателя не удивит тезис о возможности существования подобного представления, как и то, что его построение может рассматриваться в качестве цели предварительной обработки изображений в зрительной системе, особенно если учесть, что данная книга укладывается в рамки точно определенной концепции. Вначале мы не располагали этой концептуальной схемой и, пытаясь найти путь к пониманию того, что представляет собой зрение, были смущены, столкнувшись с трудностями чуть ли не философского плана. Они возникли в связи с попытками определить, для чего предназначено восприятие. Читатель, который не сочтет за труд внимательно посмотреть работу, обнаружит, что в ней в явном виде не указывается, для чего предназначен первоначальный эскиз. Он обнаружит, что первоначальный эскиз более или менее определен, имеет обоснование достаточно общего характера и тесно привязан к реальностям физического мира. Идея же о том, что целью, ради которой в зрительной системе выполняется предварительная обработка информации, является получение в явном виде информации относительно видимых поверхностей, проводится в этой работе лишь неявно.
В то время, в сущности, машинное зрение пребывало в беспорядочном состоянии, поскольку идея о том, что главным в зрении является определение форм объектов, еще всерьез не рассматривалась. И хотя специалисты по психологии восприятия, подобно Гибсону, сознавали важность поверхностей, идея о некотором внутреннем представлении, вырабатываемом в результате реализации каких-то специальных процессов, была чужда их мышлению. Оглядываясь назад, мы видим, что в наших взглядах и в характере вопросов, которыми мы задавались, царила изрядная путаница: нас интересовали проблемы, связанные с распознаванием по признакам, со способами выделения фигуры из фона, способами выделения и интерпретации ’’формы” или ’’фигуры”, с возможностями управляемого данными или восходящего анализа и необходимостью использования нисходящих процедур. Кроме того, мы не располагали какой-либо единой структурой, которая давала бы нам возможность посмотреть, каким образом такие процессы, как стереопсис, затенение или восприятие движения, могут сочетаться друг с другом, а также с другими свойствами зрения, порождая феномен, который мы называем способностью видеть.
Мышление такого типа было драматически ’’сметено” идеей 2,5-мерного эскиза, которая одновременно разрешила и эти, и многие другие проблемы. Она указала нам, в чем состоят цели предварительной обработки изображений в зрительной системе, и связала их с понятием внутреннего представления объективной физической реальности внешнего мира, получение которого предшествует разбиению сцены на объекты и другим обременительным процедурам, связанным с распознаванием объекта. В то же время эта идея обозначила пределы того феномена, который можно было бы назвать чистым восприятием — восстановление информации о поверхности исключительно с помощью управляемых данными процессов и при отсутствии необходимости в использовании конкретных гипотез о природе, назначении или функциях наблюдаемых объектов. И наконец, она явилась основой для получения общей постановки всей проблемы зрения в целом — концептуальной схемы, объяснению которой посвящена данная книга, позволившей за прошедшее с тех пор время придать нашему исследованию рациональную структуру, отражающую принятую нами стратегию исследования.
По всем перечисленным причинам появление осенью 1976 года идеи 2,5-мерного эскиза, впервые высказанной в статье Марра и Нисихары и развитой более подробно несколько позже, стало для меня наиболее вдохновляющим событием за все исследование. Его первым непосредственным следствием стала теория стереозрения, которая была создана в течение первой половины 1977 года. Годом позже началось построение с новых позиций теории предварительной обработки изображений в зрительной системе, и, конечно же, именно 2,5-мерный эскиз в конце концов привел нас к той общей концептуальной схеме, которой мы теперь располагаем.
↑ Сегментация изображения
Вероятно, для того чтобы познакомить читателя с проблемой 2,5-мерного эскиза в целом, лучше всего описать тот тупик, ради преодоления которого он был предложен. Господствовавшее среди нейрофизиологов и психологов убеждение, что проблема фигуры и фона является для зрения одной из фундаментальных, нашло отражение в попытках специалистов в области машинного зрения реализовать некоторый процесс, называемый сегментацией. Смысл этого процесса в очень значительной степени близок идее выделения фигуры из фона, состоящей в разбиении изображения на области, выбор которых определяется либо некоторой конкретной целью (в случае машинного зрения ею может оказаться, например, сборка водяного насоса), либо соответствием этих областей реальным объектам или их частям.
Несмотря на значительные усилия, затрачиваемые в течение длительного периода на решение этой проблемы, теория и практические приложения сегментации продолжали оставаться на примитивном уровне по следующим двум причинам. Во-первых, было почти невозможно сформулировать на языке изображений или даже реального физического мира, в чем точно состоят цели сегментации. Что такое, например, объект и что именно придает ему ту специфику, которая заставляет выделять его в качестве некоторой области на изображении? Является ли объектом нос? Является ли объектом голова? Остается ли голова объектом, если она соединена с туловищем? А как обстоит дело с человеком, сидящим верхом на лошади?
[banner_centerrs] {banner_centerrs} [/banner_centerrs]
Эти вопросы свидетельствуют о том, что сложности, возникающие при попытках сформулировать, что именно следует на изображении выделять в виде некоторой области, разрастаются до уровня чуть ли не философской проблемы. На самом деле, ответов на такие вопросы не существует: все перечисленное может являться объектами, если Вы предпочитаете считать их таковыми, либо они могут служить некоторыми частями каких-то более крупных объектов. Более того, даже если в каком-то конкретном случае ответы на такие вопросы были бы получены, это не очень помогло бы нам в других случаях. Довольно быстро обнаружилось, что, поскольку структура изображений чрезвычайно сложна, обычно оказывалось практически невозможно выделять искомую область, используя лишь критерии кластеризации, основанные на локальном сходстве или других чисто визуальных признаках и применяемые к яркостям изображения или каким-либо его представлениям типа необработанного первоначального эскиза. Области, обладающие ’’семантической” важностью, не всегда имеют какое-то определенное визуальное отличие. Большинство изображений чрезвычайно сложны, но даже простейшие и очень небольшие изображения, часто имеют матрицы яркостей, содержащие недостаточно информации для того, чтобы стало возможным разбиение изображения на отдельные объекты.
Сегментация, несмотря на отсутствие сколь бы то ни было точной формулировки, определяющей ее содержание, продолжала оставаться предметом исследований, в которых использовались все более и более сложные методы. Достаточно долго считалось, что зрительное восприятие аналогично решению задач и потому, следовательно, должно быть связано с проверкой и коррекцией гипотез о наблюдаемом объекте. Эта точка зрения получила широкое распространение среди специалистов в области машинного зрения, и аналогичное положение было принято в психологии зрения. Решающим отличием этого подхода от подхода, основанного на использовании ограничений, является то, что в решении задач используются дополнительная информация или гипотезы, имеющие не универсальный, а частный характер и адекватные лишь для рассматриваемой или подобных ей сцен. Вместо того чтобы оперировать категориями типа жесткости объекта, мы используем заключения следующего типа: черное пятно, расположенное на уровне стола, с высокой вероятностью является телефоном.
Любая достаточно универсальная система зрения должна располагать очень большим числом таких гипотез в силу их специфичности и обладать способностью отыскивать и раскрывать как раз те одну-две гипотезы, которые необходимы в конкретной рассматриваемой ситуации. Это и определяет всю сложность проблемы зрения, в которой основные вопросы, требующие ответа, связаны с тем, каким образом можно эффективно оперировать чрезвычайно большими объемами информации. Именно поэтому столько усилий было потрачено на разработку эффективных управляющих структур программ, обеспечивающих представление знаний, используемых при обработке зрительной информации. Между прочим, специалисты, работающие в других направлениях искусственного интеллекта, по тем же причинам считают проблему управления важной.
Основное направление господствовавших в те времена идей сводилось, таким образом, к привлечению специализированных знаний о природе наблюдаемой сцены в качестве вспомогательного средства при сегментации ее изображения на области, приблизительно соответствующие объектам, присутствие которых на сцене предполагается. Тененбаум и Барроу, например, использовали знания относительно нескольких различных типов сцен при сегментации изображений ландшафта, служебного помещения, комнаты и компрессора. Фройдер воспользовался аналогичным подходом для идентификации на простой сцене молотка. Если бы этот подход оказался верным, то центральной проблемой зрения являлась бы подготовка соответствующего специализированного фрагмента знаний для использования его в необходимый момент в процессе сегментации. Так, работа Фройдера была, в частности, почти полностью посвящена созданию так называемой гетерархической системы управления, обеспечивающей такую возможность. Несколько позже по тем же самым причинам существенный интерес вызвал метод релаксации, предложенный Розенфелдом, Хаммелом и Цакером. Он представляет собой метод оптимизации, позволяющий использовать при решении задачи сегментации ограничения, почерпнутые из самых различных источников, причем управляющие процедуры, которые обеспечивают необходимую обработку информации, усложняются лишь в незначительной степени. Наша собственная работа, посвященная кооперативным алгоритмам, также несет легкий отпечаток надежд использовать их для объединения ограничений, почерпнутых из различных источников, и это послужило одним из стимулов для попыток разработки точных методов анализа сходимости таких алгоритмов.
↑ Переход к новой постановке задачи
Что же неверного было в идее сегментации? Наиболее очевидным изъяном, по-видимому, является то, что ’’объекты” и ’’искомые области” почти никогда не оказываются визуально простыми конструкциями и, следовательно, не могут быть выделены из первоначального эскиза или других аналогичных представлений, фигурирующих на предварительном лапе обработки информации в зрительной системе, без привлечения дополнительных специальных знаний Яркостные переходы, которым следовало бы быть заметными, либо полностью исчезают с изображения, либо исчезают с него почти полностью (см., например, рис. 4.1),
Рис. 4.1. Это изображение двух листьев интересно тем, что, несмотря на отсутствие вдоль всего яркостного перехода в пределах, обозначенных на рисунке прямоугольником, изменений яркости, достаточных для полного восстановления этого яркостного перехода на основе одних знаний яркости, мы тем не менее без всяких усилий воспринимаем листья правильно В 1аблице приведены истинные значения яркости изображения на участке, ограниченном прямоугольником Поверхность на этом участке, однако, явно разрывна Эта ситуация может частично объясняться наличием процессов обеспечения непротиворечивости, действующих в рамках 2,5-мерного эскиза
а в наибольшей степени на изображении обычно проявляются изменения освещенности, не имеющие никакого отношения к отношениям, характеризующим содержание сцены. Если заданы некоторое представление типа первоначального эскиза и множество допустимых процессов отыскания границ, естественно с ним связанных, то какие именно из множества допустимых границ следует прослеживать и почему? Для получения ответов на эти вопросы было необходимо точно указать, какую информацию следует пытаться выделить из изображения, после чего сформировать некоторое представление для ее воспроизведения.
Для того чтобы найти ответ на этот последний вопрос, следовало обратиться к основополагающим принципам, т. е. к физическому содержанию ситуации. Как мы уже несколько раз отмечали, основными факторами, определяющими яркость изображения, служат 1) освещение; 2) геометрические свойства поверхности, 3) отражательная способность поверхности; 4) позиция наблюдателя. На одном из этапов обработки эффекты, обусловленные каждым из этих факторов, разделяются.
Сущность подхода, таким образом, заключалась в следующем. Большая часть процессов, относящихся к предварительному этапу обработки информации в зрительной системе, выделяет информацию, касающуюся наблюдаемых поверхностей, непосредственно и независимо от того, составляют или нет они часть тела лошади, тела человека или ствола дерева. Именно эти поверхности (их форму и расположение относительно наблюдателя) и свойственные им отражательные способности необходимо перевести в явный вид на данном этапе обработки, поскольку от этих поверхностей отражаются фотоны, формируя изображение, и, следовательно, именно они и являются теми объектами, о которых несут информацию фотоны. Иначе говоря, представление видимых поверхностей должно быть получено прежде, чем будет установлено, принадлежит ли данная поверхность телу лошади, телу человека или стволу дерева Что касается определения того, какие дополнительные знания необходимо привлекать то должно быть вполне достаточно знаний общего характера, т е. тех знаний общего характера, которые учтены в процессах предварительной обработки информации в зрительной системе в качестве универсальных ограничений в сочетании с геометрическими следствиями, вытекающими из факта одновременного существования этих поверхностей в трехмерном пространстве.
Был ли хоть какой-либо шанс за то, чтобы эта идея оказалась работоспособна? Для того чтобы выяснить это, было необходимо рассмотреть три проблемы. Во-первых, что может значить ’’получить представление видимых поверхностей”? Ответ на этот вопрос требует в качестве предварительного условия проведения общей классификации представления форм объектов, чем мы займемся более тщательно в следующей главе. Во-вторых, следовало обратиться к данным психофизики, касающимся как процессов предварительной обработки информации в зрительной системе, рассмотренных в предыдущей главе, так и того, имеются ли хоть какие бы то ни было сведения, подтверждающие, что результаты действия указанных процессов объединяются прежде, чем происходит интерпретация видимых поверхностей в качестве объектов. В-третьих, следовало обратиться к информационным аспектам задачи. В каком виде эти процессы предварительной обработки информации в зрительной системе приносят информацию о наблюдаемых поверхностях и. каким образом можно объединять всю эту информацию, поступающую из различных источников?
При постановке задачи среднего уровня зрения часть работы сводится к изучению способов представления и рассмотрения поверхностей. Мы начнем это изучение с обсуждения общих свойств представлений формы объектов. Какие разновидности таких представлений известны и каким образом можно выбирать среди них? Хотя построение вполне универсальной классификации представлений форм объектов — задача трудная, мы уже определили три основных пункта, по которым следует принимать решения при формировании некоторого представления формы объекта и которые главным образом и определяют ту информацию, воспроизведение которой в явном виде обеспечивает соответствующее представление. Во-первых, каков тип системы координат, используемый в представлении: привязывается ли представление к наблюдателю или к наблюдаемому объекту? Во-вторых, каков характер непроизводных элементов формы объекта, используемых в соответствующем представлении, т. е. элементов, местоположение которых должна задавать выбранная система координат? Являются ли эти непроизводные элементы двух- или трехмерными, каковы их размеры и сколь детально они определены? И наконец, третья характеристика отражает организацию представления, которая придается информации, включаемой в описание: представляется ли она, например, в плоскостном виде подобно матрице яркостей изображения либо имеет некоторую иерархическую структуру подобно полному первоначальному эскизу?
И первая проблема, возникающая при задании системы координат, и вторая, связанная с определением непроизводных элементов формы объектов, имеют совершенно очевидные решения. Система координат должна быть привязана к наблюдателю, а непроизводные элементы формы объекта должны быть двухмерными и должны указывать ориентацию соответствующих локальных участков поверхности. Дело в том, что вся информация, приносимая всеми рассмотренными процессами предварительной обработки информации в зрительной системе, зависит от различных особенностей процесса формирования изображения, например оценок глубины или ориентации поверхности относительно наблюдателя, и потому естественно укладывается в систему координат, ориентированную на наблюдателя. Кроме того, все эти процессы сообщают информацию о видимых поверхностях, причем обычно только локальную, и, таким образом, представление должна получать именно эта информация, причем обычно только локально. Имеет смысл рассмотреть эти проблемы более глубоко.
↑ Информация, подлежащая представлению
Зрение, как мы уже убедились, служат источником нескольких видов информации о форме объекта. Наиболее непосредственную информацию о форме дают стереопсис и движение, но почти столь же эффективны и контуры поверхности, зарегистрированные на отдельном изображении; кроме того, нам встречались примеры и других, менее эффективных способов передачи информации о форме объекта. Часто оказывается, что отдельные части сцены доступны для изучения одними из методов, а другие части — другими. Сколько бы ни были отличны эти методы, все они обладают двумя важными общими свойствами: имеют депо с информацией, извлекаемой из изображения, а не с априорными занятиями о формах наблюдаемых объектов и информация, получение которой они обеспечивают, относится к глубине или ориентации поверхности в произвольных точках изображения, а не к глубине или ориентации, характеризующим некоторые конкретные объекты.
Рассматривая стереоскопическое изображение какой-либо сложной поверхности, например истлевшей рассыпающейся газеты или ’’лиственного” куба Иттелсона, представляющего собой коробку, к стенкам которой прикреплены листья, направленные прямо к наблюдателю, мы без труда определяем ориентацию любого участка поверхности, а также и то, ближе или дальше от наблюдателя расположен выбранный участок поверхности по сравнению с соседними участками. Тем не менее запоминается форма поверхности плохо, несмотря на то что воспринимается она очень четко. Более того, если поверхность содержит элементы, расположенные почти параллельно линии прямой видимости, их ориентация, воспринимаемая при наблюдении одним глазом, может отличаться от ориентации поверхности, воспринимаемой при наблюдении двумя глазами.
Читатель может убедиться в существовании такого явления, воспользовавшись комнатой с текстурированным потолком. Если рассматривать такой потолок через узкую трубку одним глазом, то очень скоро начнет казаться, что любая часть потолка, видимая через трубку, ориентирована под прямым углом относительно линии прямой видимости. Это впечатление является очень устойчивым, несмотря на то что Вы совершенно ясно сознаете его ложность.
Эти наблюдения позволяют нам сделать несколько простых заключений:
1. Каждой точке поверхности, присутствующей на любой сцене, соответствует по меньшей мере одно внутреннее представление глубины или ориентации поверхности либо в той и другой.
2. Поскольку ориентация поверхности может ставиться в соответствие формам объектов, которые незнакомы наблюдателю, представление ориентации, возможно, предшествует разбиению сцены на отдельные объекты.
3. Поскольку воспринимаемая ориентация произвольного элемента поверхности может изменяться в зависимости от того, ведется ли наблюдение одним или двумя тазами, то, вероятно, представление ориентации поверхности почти полностью определяется процессами восприятия и на него лишь в незначительной степени влияет конкретное знание того, какова ориентация рассматриваемой поверхности на самом деле. С этим же может оказаться связанной и та особенность, что человек способен воспринимать поверхность намного лучше, чем запоминать результаты ее восприятия.
4. Кроме того, представляется вероятным, что одно и то же представление ориентации поверхности может отражать влияние различных источников информации.
Для того чтобы наиболее эффективно использовать эти различные и часто взаимно дополняющие процессы порождения информации, их необходимо каким-то способом объединить. Соответствующая информационная проблема: как это сделать наилучшим образом? Ее естественным решением служит отыскание некоторого представления зрительно воспринимаемой сцены, обеспечивающего воспроизведение в явном виде именно той информации, которую могут давать эти процессы.
К счастью, физическая интерпретация искомого представления очевидна. Все эти процессы позволяют получать информацию, характеризующую глубину или ориентацию поверхностей, присутствующих на некотором изображении, а эти характеристики являются строго определенными физическими величинами. Нам, следовательно, требуется способ, позволяющий переводить эту информацию в явную форму, хранить ее соответствующим образом, и, возможно, вводить в представление любое физическое условие, выполняющееся для тех значений глубины и ориентации поверхности, которые могут принимать эти характеристики у поверхностей, встречающихся в реальном физическом мире.
В табл. 4.1
Таблица 4.1. Наиболее естественные формы воспроизведения информации об изменениях геометрических свойств поверхности, которую позволяют получать процессы предварительной обработки информации в зрительной системе
Примечание. r— относительное значение глубины (в прямоугольной проекции); ?r — непрерывные или малые локальные изменения r ; ?r — нарушения непрерывности по г ; S — локальная ориентация поверхности; ?s — непрерывные или малые локальные изменения s; ?s — нарушения непрерывности по s.
приводится перечень тех форм воспроизведения информации, получение которых из изображения может обеспечить различные процессы, действующие на предварительном этапе обработки информации в зрительной системе. Интересно отметить в связи с этим, что, хотя процессы типа стереопсиса и движения в принципе позволяют получать информацию о глубине непосредственно, более вероятно, что реально они воспроизводят информацию о локальных изменениях глубины, например, с помощью измерения локальных изменений значений диспаратности. Контуры поверхности и затенение обеспечивают получение более непосредственной информации об ориентации поверхности. Кроме того, данные, характеризующие наложение, яркость и размеры, могут служить информацией о нарушениях непрерывности по глубине. Основной функцией нашего искомого представления, следовательно, является не только воспроизведение в явном виде информации о глубине, локальной ориентации поверхности и нарушениях непрерывности по этим характеристикам, но также формирование и хранение некоторого глобального представления глубины, совместимого с локальными данными, поступающими по указанным информационным каналам. Мы называем такое представление 2,5-мерным эскизом и в следующем разделе опишем одну из его возможных реализаций.
↑ 2,5-мерный эскиз в общем случае
Для того чтобы дать пример какого-либо представления, которое можно использовать в качестве основы для более подробного рассмотрения его устройства, я начну с описания первоначального варианта представления, ориентированного на наблюдателя (в этом смысл термина эскиз) и использующего непроизводные элементы поверхности только одного (малого) размера. Этот вариант предусматривает представление нарушений непрерывности контуров поверхности, причем его внутренняя информационная структура развита в степени, достаточной для хранения в совместимом виде описаний глубины, ориентации поверхности и нарушений непрерывности поверхности.
Для представления глубины можно воспользоваться скалярной величиной г — расстоянием от соответствующей точки поверхности до наблюдателя. Нарушения непрерывности поверхности можно представлять с помощью ориентированных элементов прямых. Как мы уже убедились, ориентацию поверхности можно представлять как некоторый вектор (р, q) двухмерного пространства, что эквивалентно покрытию изображения иголками. Длина каждой из таких иголок определяет отклонение (или наклон) поверхности в данной точке, так что нулевая длина соответствует поверхности, расположенной перпендикулярно вектору, проведенному от наблюдателя в эту точку, причем длина иголки увеличивается по мере отклонения поверхности от наблюдателя. Ориентация иглы определяет наклонение поверхности, т. е. направление отклонения поверхности. Этот способ представления проиллюстрирован рис. 4.2;
Рис. 4.2. Второй пример 2,5-мерного эскиза (первый см. на рис. 3.12), в данном случае имеющего вид куба» Ориентация поверхности представляется стрелками, как и в случае, иллюстрируемом рис. 3.12 Ограничивающие контуры изображены сплошными линиями, а нарушения непрерывности по ориентации поверхности - точечными линиями. Глубина на рисунке не показана, хотя считается, что данное представление позволяет получать приближенное впечатление о глубине
он аналогичен заданию пространства градиентов в каждой точке поля зрения.
В принципе связь глубины и ориентации поверхности очевидна: первая является просто интегралом от второй, взятым по областям, ограниченным нарушениями непрерывности поверхности. Таким образом, можно получить представление, информационная структура которого обеспечивает совместность хранения двух переменных — глубины и ориентации поверхности. Следует, однако, отметить, что в любой схеме такого рода нарушения непрерывности поверхности требуют специального подхода (подобно кривым, ограничивающим области интегрирования). Более того, если данное представление имеет активный характер и обеспечивает непротиворечивость, главным образом посредством локальных операций, то кривые, обозначающие нарушения непрерывности поверхности (например, контуры, источниками которых являются ограничивающие контуры), не должны иметь никаких разрывов, с тем чтобы была невозможна ’’утечка” интегрирования через какую бы то ни было точку границы объекта. Интересно, что этим свойством обладают субъективные контуры и что они тесно связаны с субъективными изменениями яркости, которые часто ставятся в соответствие изменениям воспринимаемой глубины. Если система обработки зрительной информации, имеющейся у человека, включает некоторое представление, напоминающее 2,5-мерный эскиз, то было бы интересно узнать, входят ли в него субъективные контуры.
Подводя итоги обсуждения 2,5-мерного эскиза, отметим, что его полезность определяется тем, что он обеспечивает представление в явном виде информации об изображении, причем в форме, хорошо соответствующей той информации, которая может порождаться процессами предварительной обработки информации в зрительной системе. В таком случае, формулируя цели предварительной обработки информации в зрительной системе, мы можем в качестве первостепенной цели указать построение этого представления. Так, например, в качестве конкретной цели можно было бы назвать определение ориентаций поверхности на некоторой сцене, контуры которых в первоначальном эскизе соответствуют нарушениям непрерывности поверхности и, следовательно, должны быть представлены в 2,5 мерном эскизе, и контуры которых в первоначальном эскизе отсутствуют и, следовательно, должны быть включены в 2,5-мерный эскиз таким образом, чтобы обеспечивалась непротиворечивость со структурой трехмерного пространства. Такая постановка позволяет обойти все трудности, возникающие в связи с категориями фигура и фон, область и объект, т. е. трудности, неизбежные в рамках подхода, основанного на сегментации изображения. В рамках же описанного подхода, идет ли речь о тоновой матрице яркостей, о первоначальном эскизе, об отдельных модулях предварительной обработки информации в зрительной системе или, наконец, о собственно 2,5-мерном эскизе, всегда требуется лишь определение свойств поверхностей, присутствующих на изображении.
Это схематическое изложение общей идеи порождает множество вопросов, касающихся деталей, и некоторые из них мы обсудим в следующих разделах. Предупредим, однако, читателя, что ему не следует рассчитывать на получение очень точных ответов. Наши знания начиная с этого момента становятся значительно менее конкретными, чем это было до сих пор. К сожалению, я в состоянии сообщить лишь нечто, мало выходящее за пределы некоторой концептуальной схемы, в рамках которой следует ставить эти вопросы. Она тем не менее также обладает определенной ценностью, несмотря даже на то, что не может удовлетворить нашу потребность в получении окончательных ответов. Итак, имеет смысл придать этому описанию несколько более точную форму, чем оно имело до сих пор в процессе обсуждения 2,5-мерного эскиза.
Продолжение в следующей статье: Непосредственное представление видимых поверхностей ? Часть 2
----
Статья из книги: Зрение | Д. Марр
Комментариев 0