Представление форм объектов при распознавании ? Часть 2

26-03-2012, 10:40

+ -

Представление форм объектов при распознавании ? Часть 2

Содержание:

Описание

↑ Естественные обобщения

Описанные способы представления информации о форме объекта, пожалуй наилучшим образом суммированные в иерархической схеме, приведенной на рис. 5.3,

Рис. 5.3. Эта схема иллюстрирует организацию информации о форме объекта в описании трехмерной модели. Каждый блок изображает некоторую трехмерную модель, при этом слева показана ось модели, а справа - расположение осей компонентов. Кроме того, некоторым осям компонентов поставлены в соответствие трехмерные модели, что показано на рисунке с помощью перекрытия блоков. Однако взаимное расположение осей компонентов каждой модели показано не так, как следовало бы, поскольку оно должно было бы быть представлено в системе координат объекта, а не в использованной здесь проекции, полученной с позиции наблюдателя. Наиболее важными особенностями данного способа организации информации являются следующие: 1) каждая трехмерная модель представляет собой абсолютно независимый блок информации о форме объекта, характеризующийся ограниченной сложностью; 2) информация о форме объекта воспроизводится в виде, удобном для распознавания (расположение пальца оказывается более устойчивым, если оно определяется относительно кисти руки, которой он принадлежит); 3) заданное представление допускает различные варианты использования. Такой подход ограничивает допустимое разнообразие форм объектов в представлении, поскольку его можно использовать лишь для таких форм, которые имеют точно определенные разбиения на трехмерные модели

подводят нас к тому, каким образом можно справляться с проблемами описания формы. Возможно, если бы Дж. Л. Остин мог увидеть такой рисунок, он бы не воздевал в отчаянии руки по поводу надежд на установление правил представления формы своего кота! Эти идеи тем не менее еще весьма приблизительны, и немного усилий было затрачено на их развитие после 1977 года, главным образом из-за того, что мы были поглощены подробным изучением процессов предварительной обработки информации в зрительной системе. В этот период, однако, часто поднимались проблемы, касающиеся путей обобщения этих идей. И хотя их решение в деталях еще не разработано, имеет смысл кратко определить те направления, в которых возможности обобщения представления наиболее очевидны.

Первое направление, вероятно, связано с тем, что представление двухмерных конфигураций может осуществляться с тем же успехом, что и трехмерных, при условии, конечно, что представляемые образы обладают естественной продольной осью или осью симметрии. Следовательно, мы в равной мере в состоянии представлять как двухмерный набросок лица, так и признаки и различные подробности, выделяемые на реальной трехмерной голове. На рис. 5.6

Рис. 5.6. Трехмерная модель двухмерного образа, изображающего лицо: а — трехмерная модель лица в целом, осью модели служит ось симметрии лица; б—д — допустимые варианты трехмерных моделей основных составляющих образа

приведен соответствующий простой пример. В этой связи особенно важно обратить внимание на то, что симметричность образа порождает каноническую ось, но не каноническое направление, совпадающее с этой осью. Остается еще определить, какому из направлений соответствует низ и какому — верх. Это решение необходимо принять в тот момент, когда начинается построение некоторой конкретной трехмерной модели, причем человек при принятии этого окончательного решения, по-видимому, ориентируется на то направление, которое в данный момент указывает вверх (обычно — вертикально вверх). Если вы строите подробное описание лица, придерживаясь этого правила, а затем переворачиваетесь и становитель на голову, детали становятся абсолютно нераспознаваемыми, возможно, из-за того, что после этого врожденный механизм принятия решений использует противоположное правило! Добавим к тому же, что, по-видимому, распознавание лиц осуществляется человеком с помощью достаточно точных, специализированных и поздно сформировавшихся процессов; читателям, интересующимся этой проблемой, следует обратиться к работе, а также к другим работам, ей посвященным.

Второе направление связано с возможностью обобщить непроизводные элементы, используемые в представлении трехмерной модели, таким образом, чтобы они включали поверхностные непроизводные элементы, разделяющиеся в целом на два типа. Первый тип составляют неровные двухмерные прямоугольные поверхности различных размеров, содержащие объекты эллиптической и кругообразной форм. Обычному человеку требуется немного таких непроизводных элементов, хотя, очевидно, у такого скульптора, как X. Мур, их арсенал исчисляется сотнями. Непроизводный элемент второго типа воспроизводит не сплошной, а пустотелый объект, например нечто вроде чашки или трубки. Нетрудно убедиться в том, что такие непроизводные элементы могут быть организованы примерно так же, как и исходное представление трехмерной модели; на рис. 5.7

Рис. 5.7. Примеры трехмерных моделей объектов достаточно сложной формы (д). Примеры объектов, при представлении которых может потребоваться использование поверхностных непроизводных элементов (б, в). Представление хорошо известного объекта (куба), построенное Хинтоном на основе нестандартного выбора оси, в роли которой выступает диагональ, связывающая противоположные вершины куба (г)

проиллюстрировано несколько простейших способов использования подобного словаря непроизводных элементов для представления самых обычных предметов. Если допустить также использование в представлении криволинейных осей, то возможности представления объектов, с которыми мы постоянно сталкиваемся в повседневной жизни, существенно расширятся (см. рис. 5.7,а).

Другие важнейшие направления, по которым может идти обобщение описанных идей, связаны не столько с пространственной организацией формы некоторого заданного объекта, сколько с пространственными конфигурациями, образуемыми несколькими отдельными объектами. В этом случае требуются по меньшей мере три типа описаний. Первое должно обеспечивать задание положений объектов в некоторой стандартной системе пространственных координат, привязанной к наблюдателю, фиксируя эти положения через углы, под которыми объекты расположены относительно наблюдателя, и расстояния, отделяющие их от наблюдателя. Второе должно представлять расположение конфигураций относительно наблюдателя, например в виде отношения типа ”Вы и два других человека образуете равносторонний треугольник”. Важнейшими моментами в этом описании является учет позиции наблюдателя и представление в явном виде угловых отношений, т. е. внутренней структуры конфигурации. И наконец, должны быть представлены взаимные расположения ряда внешних объектов без учета их положения относительно наблюдателя. Так, например, три дерева могут быть расположены в один ряд или четыре здания могут образовывать квадрат. При этом возникают те же самые основные проблемы, с которыми мы уже сталкивались: каким образом следует выбирать соответствующую каноническую систему координат для воспроизведения в явном виде пространственных отношений конфигураций?

Сейчас уже ясно, каким образом следует подходить к решению такого рода задач представления; поэтому я не думаю, что эти проблемы могут создать непреодолимые трудности для разработчиков систем машинного зрения. Как мне кажется, основные трудности с точки зрения науки в данном случае связаны с тем, каким образом можно установить, какие именно системы и вычислительные схемы используются человеком в действительности. Я не рассчитываю на очень неожиданные ответы на эти вопросы, но сегодня просто не вижу способов экспериментального исследования проблем этого типа. По-видимому, поставить эксперименты для разрешения проблем, возникающих в связи с этими высшими уровнями анализа, значительно труднее, чем в случае проблем нижних уровней. Можно было бы, в сущности, сказать, что на этих высших уровнях вы начинаем сталкиваться со всеми теми проблемами, с которыми имеют дело лингвисты. Значительным достижением явилась бы разработка хорошего экспериментального метода исследования таких проблем.

↑ Получение и использование представления трехмерной модели

Преимущества модульности, являвшейся одним из основных предметов наших забот при построении представления трехмерной модели, становятся особенно очевидными при обсуждении процессов, обеспечивающих получение и использование представления, приведенного к виду, удобному для распознавания. В частности, ни в одном из этих процессов ни при каких обстоятельствах не используются одновременно элементы, входящие в состав более чем одной трехмерной модели, даже в тех случаях, когда полное описание формы объекта включает ряд трехмерных моделей. Мы начнем обсуждение с рассмотрения основных проблем, связанных с выбором системы координат модели и осей ее компонентов и преобразованием определения осей применительно к наблюдателю в систему координат модели. Затем мы обсудим задачу распознавания этого описания, интерпретируя ее как задачу составления каталога описаний трехмерных моделей, хранящихся в памяти. И наконец, рассмотрим взаимодействие процесса получения описания трехмерной модели и процесса распознавания. Неоднозначность, вносимая центральной проекцией, часто означает, что непосредственно из изображения можно извлечь лишь приближенные данные о длине и ориентации осей формы объекта. Однако если процессы распознавания и получения описания консервативны, т. е. надежностью отличается вся информация, восстанавливаемая при распознавании, то на первых этапах процесса распознавания могут быть найдены дополнительные ограничения, что даст возможность получить более точное описание.

Получение описания трехмерной модели

Для того чтобы построить трехмерную модель, необходимо исходя из изображения задать систему координат и оси компонентов модели, а также определить взаимное расположение осей компонентов в этой системе координат.

Даже в том случае, если форма объекта имеет некоторую каноническую систему координат и существует естественное разбиение на оси компонентов, то все еще остается проблема извлечения этих признаков на изображения. В настоящее время мы не располагаем ее полным решением, однако для объектов, формы которых входят в диапазон допустимых для представления трехмерной модели, некоторые результаты уже имеются. Так, например, изображение оси некоторой обобщенной конической поверхности можно найти, опираясь на ограничивающие контуры, имеющиеся на изображении, при условии, что эта ось не очень сильно изменилась в результате перспективного сокращения. Пример разбиения, полученного таким методом, приведен на рис. 5.8,
[banner_centerrs] {banner_centerrs} [/banner_centerrs]

Рис. 5.8. Ограничивающие контуры объемов простой формы, состоящих из обобщенных конических поверхностей, можно использовать для определения проекций естественных осей конических поверхностей при условии, что эти оси не подвергались чрезмерному перспективному сокращению. Данный пример иллюстрирует один из алгоритмов решения этой задачи, использованный в программе, написанной П. Вейтаном. Исходные очертания (а) получены в результате применения процесса локальной группировки к первоначальному эскизу изображения игрушечного ослика. Сглаживание этих очертаний и разделение их на выпуклые и вогнутые участки позволило получить изображение (б) Затем были определены явно выраженные исходные точки сегментации, подобные глубоким впадинам, обозначенным кружками (в), и с помощью набора эвристических правил, использованных для соединения этих точек с другими точками, расположенными на контуре, была построена сегментация изображения (г) Области, построенные в результате сегментации, послужили источником для получения осей компонентов (д) Тонкими линиями (е) обозначены положения компонентов (головы, ног и хвоста) вдоль оси туловища, а также положения других компонентов (морды и уха) вдоль оси головы

а его краткое описание дано в подрисуночной подписи. Отметим, что окончательное разбиение (рис. 5.8, е) получено по исходному контуру (рис. 5.8, а) без использования каких бы то ни было сведений о трехмерной форме объекта, выходящих за пределы допущения, согласно которому этот объект состоит из обобщенных конических поверхностей. Следовательно, этот метод можно использовать для отыскания осей компонентов трехмерной модели, представляющей форму объекта, который Вам до этого не был знаком.

Полученный результат имеет несколько ограниченный характер, однако такова и используемая информация, а именно контуры, образованные касательными к краю некоторой гладкой поверхности. Интересно, что, именно эти контуры непригодны для использования ни в процессах обработки информации, обеспечивающих стереопсис, ни в процессах обработки информации, обеспечивающих восстановление структуры по движению, так как они не соответствуют каким-то определенным позициям на наблюдаемой поверхности. Складки и сгибы поверхности также порождают контуры изображения, и они еще требуют подробного изучения. Много еще работы предстоит и в области изучения способов использования информации о форме объекта, содержащейся в данных о затенении и в текстурных данных.

Основные трудности возникают при анализе изображений в тех случаях, когда какая-либо важная ось оказывается скрытой: либо из-за того, что она подверглась перспективному сокращению, либо из-за того, что она загорожена какой-то другой частью объекта. Так, например, хотя нетрудно определить по виду сбоку систему координат, привязанную к туловищу лошади, для задания формы тела лошади в целом, эту задачу решить сложно, если лошадь расположена к наблюдателю анфас. Известны три способа разрешения этой проблемы. Первый предусматривает использование для распознавания частичных описаний, построенных по осям, видимым спереди. В этом случае представление несколько ухудшается с точки зрения выполнения критерия однозначности, но не в столь сильной степени, как это было бы при построении представления в системе координат наблюдателя. Второй способ предусматривает использование видимых компонентов формы объекта во всех тех случаях, когда они легко поддаются распознаванию, а форма объекта в целом распознается с трудом. Так, например, обычно на виде лошади спереди прекрасно видна ее морда, которая поддается непосредственному распознаванию, обеспечивая новые возможности распознавания лошади в целом. Мы рассмотрим этот метод в конце данного раздела. И наконец, иногда удается восстановить ось, подвергшуюся перспективному сокращению, опираясь на радикальную симметрию изображения.

Интересным примером служит ведро для воды, изображенное на рис. 5.9.

Рис. 5.9. Эти изображения ведра для воды иллюстрируют одно важное свойство, присущее любой системе, основанной на восстановлении канонических осей по изображению. Методы, которые целесообразно использовать для восстановления оси, приведенной на рис. 5.9, б, по изображению, приведенному на рис. 5.9, а, существенно отличаются от тех методов, которые наилучшим образом действуют в случаях, когда ось подвергается перспективному сокращению, как это имеет место на рис. 5,9, в и г

По изображению, приведенному на рис. 5.9, д, можно определить главную ось ведра и его форму по этой оси с помощью методов, рассмотренных выше, однако этого нельзя сделать по изображению, приведенному на рис. 5.9, в, на котором главная ось ведра показана в перспективном сокращении. Вместо нее может появиться ось, восстановленная неправильно: она может, в частности, проходить через выступы, с помощью которых ручка прикрепляется к краям ведра. Неудача попытки получить с помощью этой неправильно определенной оди описание, поддающееся распознаванию, означала бы, однако, что истинная ось выражена на изображении не наиболее явным образом и что на нем можно увидеть и какую-то другую ось. Наличие двух концентрических окружностей (образованных верхним и нижним ободами ведра) является надежным свидетельством в пользу того, что главная ось проходит через их центры. Кроме того, в силу концентричности эти окружности могут быть разнесены вдоль оси на большое расстояние. Учет этой возможности может обеспечить получение искомого описания ведра, несмотря на неоднозначность идентификации ближнего к наблюдателю обода. Вероятно, существенную роль в интерпретации подобных изображений может играть карта локальных глубин поверхности (типа 2,5-мерного эскиза), построенная с помощью стереопсиса, использования данных о затенении или текстурных данных.

Установление связи между координатами, привязанными к наблюдателю, и координатами, привязанными к объекту

Методы обнаружения осей на двухмерном изображении обеспечивают получение описания положений осей в некоторой системе координат, привязанной к наблюдателю, и, следовательно, требуется некоторое преобразование, обеспечивающее перевод описаний осей в систему координат, привязанную к объекту. В представлении трехмерной модели расположения всех осей определяются отношениями присоединения, и поэтому требуется какой-нибудь механизм для определения отношения присоединения по описанию двух соответствующих осей, заданному в системе координат, привязанной к наблюдателю. Мы будем называть этот механизм процессором преобразования пространства изображения.

Поскольку отношение присоединения — это единственное позиционное описание, требующее интерпретации, процессор преобразования пространства изображения может быть очень простым. Отношение присоединения (р,r ,?, l, ?, s), как нам известно, представляет собой некоторое средство для задания положения вектора S относительно вектора оси А. Задача процессора преобразования пространства изображения состоит в том, чтобы была обеспечена возможность одновременного использования координат вектора S, заданных как в системе координат, привязанной к наблюдателю; так и в системе координат, привязанной к вектору А, т. е. чтобы при задании вектора S в одной из систем координат можно было пользоваться и его описанием, представленным во второй системе координат. Эта задача — нетрудная .

Точность определения отношений присоединения с помощью процессора преобразования пространства изображения ограничивается той точностью, с которой векторы А и S задаются в системе координат, привязанной к наблюдателю. Поскольку при использовании прямоугольной проекции информация о глубине утрачивается, описания ориентации осей, получаемые по изображениям, воспроизводимым на сетчатке, с наименьшей точностью указывают значения углов, под которыми оси наклонены к наблюдателю или от него отклоняются. Параметры наклона оси часто удается определять по меньшей мере приближенно, используя данные стереопсиса, затенения, восстановления структуры по движению, а также данные, полученные в результате анализа текстур и контуров поверхности. Для увеличения точности описания наклонов можно также использовать и те ограничения, которые выявляются в результате осуществления процесса распознавания. Мы обсудим эту возможность ниже при рассмотрении проблемы взаимодействия процессов построения трехмерной модели и распознавания.

Индексирование и каталог трехмерных моделей

При распознавании используется некоторая совокупность описаний трехмерных моделей, которые хранятся в памяти, а также различные индексы, характеризующие эту совокупность и позволяющие устанавливать соответствие нового описания некоторому описанию, входящему в эту совокупность. Эту совокупность вместе с ее индексами мы будем называть каталогом трехмерных моделей. Хотя наши знания по поводу того, какую информацию можно извлекать из изображения, все еще ограничены, по-видимому, целесообразно использовать главным образом три пути доступа в каталог, которые определяются использованием индекса специфичности, индекса присоединения и индекса происхождения соответственно.

На множестве всех трехмерных моделей можно задать иерархическую классификацию в соответствии с точностью той информации, которую они содержат; такая классификация может быть использована в качестве основы для введения индекса, который мы будем называть индексом специфичности. На рис. 5.10

Рис. 5.10. Для того чтобы процесс распознавания, обеспечивающий установление соответствия описания формы нового объекта и описаний форм известных объектов, мог служить надежным источником информации о форме, он должен быть консервативным. Эта диаграмма иллюстрирует организацию (или индексирование) описаний форм объектов, хранящихся в памяти, в соответствии с их специфичностью. В верхнем ряду помещено самое общее описание формы объекта, которое содержит информацию лишь о размерах и ориентации объекта в целом. Поскольку внутренняя структура формы объекта никак не оговаривается, формы всех объектов в равной степени поддаются описанию. Описания, помещенные во втором ряду, содержат информацию о числе осей компонентов и их расположении относительно главной оси, что позволяет различать целый ряд конфигураций по форме (в данном примере приведено несколько таких форм). На этом уровне отражаются ограничения лишь самого общего характера и касаются они относительных размеров компонентов и углов, определяющих их взаимное расположение. Эти параметры уточняются на третьем уровне, в результате чего появляется возможность различать, например, по форме тела лошадь и корову. Соответствие новой трехмерной модели и одной из моделей, входящей в каталог, устанавливается в процессе продвижения от верхнего уровня вниз настолько глубоко, насколько это позволяет информация, содержащаяся в новом описании На этом этапе может происходить разветвление, в результате чего возникает новый класс форм

приведен пример иерархии такого рода, заданной на моделях форм тел нескольких живых организмов. Верхний уровень иерархии содержит наименее дифференцированное из имеющихся описаний — трехмерную модель, не имеющую разбиения на отдельные компоненты. Определена лишь ось модели, и, следовательно, эта модель позволяет описывать объект любой формы. На следующем уровне детализации представлены различные конечности, а также обобщенные формы четвероногого, двуногого и птицы. Эти описания обладают наибольшей чувствительностью к числу осей компонентов, имеющихся в модели, и к их расположению относительно главной оси (которой для формы тела большинства животных служит туловище), причем относительно длин и ориентаций компонентов имеется информация лишь самого приблизительного характера. При переходе в этой иерархии еще на один уровень вниз описания становятся более чувствительными к значениям углов и длин, и в результате появляется возможность различать, в частности, лошадь, жирафа и корову по форме тела. Для того чтобы установить соответствие какой-либо новой модели и какой-либо из моделей, хранящихся в каталоге, необходимо, начав с верхнего уровня иерархии, продвигаться вниз по ее уровням, проходя через те модели, описания форм которых совместны с описанием новой модели, и продолжая это продвижение вплоть до достижения уровня специфичности (этот уровень определяется точностью информации, содержащейся в новой модели).

После того как одна из трехмерных моделей формы объекта выбрана из каталога, ее отношения присоединения обеспечивают доступ к трехмерным моделям компонентов выбранной модели использованием расположения, ориентации и относительных размеров этих компонентов. Таким образом образуется еще один путь доступа к моделям, хранящимся в каталоге; -этот путь отождествляется с использованием индекса присоединения. Он указывает, в частности, что два аналогичных компонента, расположенные в передней части модели четвероногого, являются обобщенными моделями конечностей и что применительно к модели лошади они уже имеют более специфический характер моделей конечностей пощади. Итак, индекс присоединения полезен тем, что компенсирует отсутствие форм компонентов формы объекта до того, как трехмерные модели этих компонентов строятся по изображению. Индекс присоединения полезно использовать также и в тех случаях, когда доступ к модели каталога с помощью индекса специфически невозможен из-за неадекватности описания, построенного по изображению (эта неадекватность может возникнуть из-за очень слабой структурированности компонента) .

Третий путь доступа, который мы считаем важным, противоположен второму и отождествляется с использованием средства, названного нами индексом происхождения трехмерной модели. После того как некоторый компонент формы объекта распознан, он может служить источником информации о том, какой могла бы быть форма объекта в целом. Так, например, трехмерная модель лошади, введенная в каталог, может быть индексирована с помощью трехмерной модели каждого из ее компонентов, и, следовательно, трехмерная модель ноги лошади обеспечивает доступ к трехмерной модели формы лошади.

Этот индекс оказывается существенным в случае, рассматривавшемся выше, т. е. в ситуации, когда главная ось формы загорожена либо подвергалась перспективному сокращению. Если лошадь расположена относительно наблюдателя анфас, то он, не обратив внимания на оси корпуса и задних ног, может по ошибке выбрать в качестве главной ось шеи лошади. Если не принять специальных мер, то в этом случае индекс специфичности не обеспечит возможности обратиться к модели лошади, содержащейся в каталоге. Разумная стратегия здесь заключается в применении процедуры вывода к компонентам изображения. Применительно к данному примеру это привело к получению трехмерных моделей головы, шеи и двух передних ног. Каталогизированные модели, головы и ног, скорее всего, должны отыскиваться с помощью индекса специфичности, причем каждая из них посредством индекса происхождения определяется в качестве некоторого компонента трехмерной модели четвероногого либо трехмерной модели лошади (в зависимости от качества моделей компонентов, полученных в результате реализации процесса вывода) , что обеспечивает надежную основу для анализа модели формы четвероногого или лошади в целом.

Важно иметь в виду, что индекс присоединения и индекс происхождения играют второстепенную относительно индекса специфичности роль — последний лежит в основе нашего подхода к распознаванию. Как мы убедимся ниже, значение этих индексов заключается в основном в том, что они обеспечивают контекстные ограничения, которые используются в процессе вывода (например, указывают, где может находиться главная ось в тех случаях, когда такую информацию невозможно получить непосредственно из изображения) . Эти индексы не служат препятствием для точного описания и распознавания новых составных форм, например, таких, как, кентавр (тело лошади в сочетании с верхней частью туловища человека).

Может оказаться полезным введение в каталог и других индексов, скажем основанных на цветовых или текстурных характеристиках (таких, как полосы зебры) или даже признаках незрительного характера (таких, как звуки, используемые животными), однако рассмотрение подобных индексов лежит за пределами нашего исследования.

Взаимодействие между процессами вывода и распознавания

До сих пор мы рассматривали получение трехмерной модели независимо от процесса, устанавливающего связь полученной модели с моделями, включенными в каталог трехмерных моделей. Мы считаем распознавaние процессом, который осуществляется постепенно посредством продвижения от общего к специфическому, частично перекрывается с процессом построения описания по изображению, управляет последним и задает для него ограничения. После того как с помощью одного из трех рассмотренных индексов из каталога выбрана соответствующая модель, было бы желательно использовать ее для того, чтобы повысить качество анализа изображения. Эту процедуру можно осуществлять в два этапа: во-первых, следует соотнести оси компонентов, определенные по изображению, с отношениями присоединения, выбранными из каталога; во-вторых, следует использовать процессор преобразования пространства изображения для объединения ограничений, которые можно получить из изображения, с ограничениями, определяемыми моделью, с тем чтобы построить некоторый новый набор выведенных отношений присоединения, обладающих большей специфичностью, чем отношения присоединения, содержащиеся в каталожной модели. Этот второй этап предусматривает анализ ограничений, которым должны удовлетворять отношения присоединения, совместные как с рассматриваемым изображением, так и с информацией, включенной в каталог. Собственно идея использования при интерпретации изображения запоминаемой модели формы объекта впервые была реализована Робертсом в программе ЭВМ для построения описаний яркостных переходов в формах конфигураций, образованных кубиками, клиньями и шестиугольными призмами, по изображениям таких конфигураций.

Установление соответствия между изображением и каталожной моделью

Первый из упоминавшихся в предыдущем разделе этапов можно рассматривать как решение некоторой гомологической задачи, состоящей в том, что отношения присоединения каталожной модели должны быть соотнесены с осями, определенными по изображению. Это решение может быть неполным. Так, например, оси ног легко идентифицируются на силуэте лошади по виду сбоку, однако обычно не удается различать левую и правую ноги, не обращаясь к дополнительной информации. Часто, однако, такая неоднозначность оказывается допустимой, поскольку соответствующие отношения присоединения для обеих ног имеют идентичные описания общей ориентации (отличаются лишь местоположения), а последние и составляют всю ту информацию, которая используется при дальнейшем анализе.

В процессе реализации процедур вывода-распознавания происходит рост информации, пригодной при установлении соответствий между изображением и моделью. Вначале приоритет отдается информации, характеризующей положение компонентов относительно главной оси фигуры, составленной из палочек, поскольку этот вид информации в наименьшей степени подвергается искажениям, возникающим при использовании центральной проекции. Кроме того, с самого начала можно использовать следующие сведения: 1) относительную толщину форм, ’’обрамляющих” оси отдельных компонентов (шея лошади много толще ее ног); 2) допустимые разбиения осей компонентов на более мелкие элементы (хвост и ноги лошади в первом приближении можно рассматривать как прямые, но верхняя часть тела должна обязательно включать два компонента, которые всегда образуют друг с другом достаточно большой угол); 3) симметричность или одинаковость (толщина ног лошади одинакова, а сами ноги расположены приблизительно параллельно — поэтому их длина и расположение на изображении примерно одинаковы, что отличает их от хвоста); 4) большие различия в значениях угла ?, входящего в отношение присоединения (на изображении ноги и хвост лошади обычно расположены по одну сторону корпуса, а шея — по другую). Взятые все вместе, эти данные обычно оказываются достаточными, для того чтобы установить соответствие между основными компонентами трехмерной модели и осями, найденными по изображению.

Индексы присоединения и происхождения также могут служить источниками гомологической информации. При извлечении из каталога трехмерной модели с помощью индекса присоединения направление соответствующей оси компонента определяется автоматически. Так, например, когда анализ изображения лошади доходит до одной из ног, направление оси ноги определяется ее соединением с туловищем лошади (часть ноги, на которой расположено копыто, удалена от места ее соединения с туловищем). При использовании индекса происхождения для выбора модели из каталога на основе отождествления отдельных компонентов форм установление попарных соответствий таких идентифицированных компонентов существенно ограничивает возможности установления попарных соответствий для остальных компонентов. Так, например, при расположении лошади относительно наблюдателя в анфас положение туловища, которое на изображении не видно, можно определить, опираясь на расположение головы, шеи и передних ног.

Анализ, основанный на использовании ограничений

После того как установлена гомологичность трехмерной модели и изображения, хотелось бы использовать эту информацию таким образом, чтобы это дало возможность задать ограничения для допустимых значений углов наклона осей. Основная идея при этом заключается в том, что зачастую лишь для очень небольшого числа комбинаций, составленных из значений углов наклона осей, спроецированных на изображение, отношения присоединения, полученные по изображению, будут совместны с отношениями присоединения, предлагаемыми каталожной моделью. Это утверждение эквивалентно тому, что достаточно часто имеется лишь небольшое число ориентаций главной оси каталожной модели (относительно наблюдателя), при которых оси их компонентов хорошо согласуются с проекциями осей на изображении.

Объединенной информации, поступающей из изображения и каталожной модели, часто оказывается достаточно для однозначного (с точностью до симметричного расположения относительно плоскости изображения) определения наклонов осей. Так; например, на рис. 5.11, а

Рис. 5.11. Если известны пространственный угол наклона с, образуемый вектором S с осью А, а также проекция этого угла на плоскость, то ориентация системы координат, связанной с остью А, относительно наблюдателя существенно ограничена: а — ориентации, допустимые при угле наклона, равном 90° , и том угле на соответствующем изображении фигурки из палочек, который обозначен жирными отрезками прямых; допуск по углу на изображении составляет 5° (горизонтальные оси графиков характеризуют углы отклонения оси А от плоскости изображения в направлении наблюдателя; вертикальные оси графиков характеризуют поворот системы координат относительно оси А) ; б — ориентации, совместимые со значением угла наклона ? = 45° и видимым на изображении углом, образуемым осями туловища и шеи; в — пересечение двух наборов ориентаций, определяющее малый диапазон ориентаций, соответствующих углу отклонения от плоскости изображения около 67° (существует еще одно решение, не показанное на этом рисунке, при котором угол отклонения от плоскости изображения составляет около —67°). Второй и третий ряды графиков и изображений иллюстрирует результаты аналогичного анализа при углах отклонения от плоскости изображения, равных соответственно 45 и 0°. Таким образом, двухмерную информацию, извлеченную из изображения, и значения углов, которые содержаться в трехмерных моделях, хранящихся в памяти, можно объединять, что иногда приводит к получению довольно точной информации о расположении в пространстве формы наблюдаемого объекта по отношению к наблюдателю

представлен годограф ориентаций вектора А (относительно наблюдателя), совместных с углом наклона 90° вектора А относительно вектора S и с углом 47° между их проекциями на плоскость изображения. На рис. 5.11, б представлены допустимые ориентации при угле наклона 45° и угле между проекциями, равном —111° . На рис. 5.11, в приведены данные, характеризующие пересечение двух указанных наборов значений. Жесткость этих ограничений зависит от конкретного значения угла, под которым ведется наблюдение (как следует из других примеров, приведенных на этом рисунке), и от конкретных отношений присоединения соответствующей трехмерной модели. В общем случае наиболее жесткими ограничения становятся, когда ориентации осей компонентов различаются очень существенно, а главные оси не лежат в плоскости изображения.

Известно несколько алгоритмов, позволяющих использовать такие ограничения. Простейшим, вероятно, является алгоритм, основанный на релаксационной процедуре, которая обеспечивает коррекцию ориентации вектора А методом последовательных приращений посредством поиска тех положений, при которых проекции углов между осями компонентов каталожной модели, определенные процессором преобразования пространства изображения, наилучшим образом согласуются с проекциями углов, полученными с помощью изображения фигуры, построенной из палочек. На этом этапе вектор А будет указывать ориентацию главной оси, наилучшим образом соответствующую всем названным ограничениям; процессор преобразования пространства изображения может использовать второй вектор (S) для определения ориентаций каждой из осей компонентов, опираясь на присоединения, входящие в каталожную модель. При достаточно жестких ограничениях эта градиентная процедура эффективно сходится.

С другой стороны, вместо того чтобы применять процедуру релаксации к ориентации главной оси каталожной модели, можно применять ее к углам наклона палочек, определяемым по изображению. В этом случае степень расхождения определяется сравнением отношений присоединения, полученных для палочек на изображении, с соответствующими отношениями присоединения, выбранными из каталожной модели. Этот подход представляет интерес в связи с тем, что все преобразования, осуществляемые процессором преобразования пространства изображения, имеют одно и то же ’’направление” (от координат, привязанных к наблюдателю, к координатам, привязанным к объекту). На последнем шаге уточненную информацию об ориентации можно использовать для извлечения из изображения дополнительной информации. В частности, после того как определены ориентации осей, можно вычислить относительные значения их длин.

В целом процесс распознавания можно описать следующим образом. Вначале из каталога выбирается модель, характеризующая распределение компонентов по длине главной оси. Далее эта модель используется для получения ограничений, касающихся взаимной ориентации компонентов, что позволяет определять абсолютную ориентацию (по отношению к наблюдателю) осей компонентов на изображении. Последняя информация может послужить основой для вычисления относительных значений длин осей компонентов с помощью процессора преобразования пространства изображения. Информацию, полученную таким образом, можно затем использовать для различения форм на следующем уровне индекса специфичности.

↑ Психологические аспекты представления форм объектов при распознавании

При изучении первоначального эскиза и процессов, обеспечивающих извлечение информации о свойствах поверхностей объектов из изображений, представляемых в таком виде, большим подспорьем для нас служили экспериментальные данные, которыми располагают нейрофизиология и психофизика, а также тщательный информационный анализ того, что в действительности можно получать на основе доступной информации. Наш подход в значительной мере основывается на принципе модульной конструкции, который утверждает, что всякий обширный процесс обработки информации должен расчленяться на ряд локальных, практически автономных и специализированных подпроцессов. В основу анализа были положены психофизические данные и повседневный опыт, указывавшие, какими могли бы быть соответствующие модули, причем главный тезис заключался в том, что при отсутствии модульной организации процессов обработки зрительной информации последовательное внесение изменений в их ’’конструкцию” (вероятно, принципиальное условие их эволюционного совершенствования) не позволило бы добиться улучшения одних характеристик зрительного аппарата без одновременного ухудшения целого ряда других.

К сожалению, биологические науки в состоянии сообщить нам очень немного относительно проблем, возникающих в связи с указанными особенностями зрительных процессов. В сущности, ничего не известно о физиологических и анатомических структурах, обеспечивающих синтез трехмерных зрительных описаний наблюдаемого мира, причем даже наилучшая из имеющейся психологической информации носит по большей части анекдотический характер и добывается в основном в результате неврологических, а не психофизических исследований.

Я считаю, однако, очевидным, что мозг должен строить трехмерные представления объектов и пространства, ими занимаемого. Как заметил Садерленд, существуют по меньшей мере две основательные причины для того, чтобы это было именно так. Во-первых, чтобы живые организмы имели возможность манипулировать различными объектами и не налетать на них, они должны обладать способностью воспринимать и представлять расположение поверхностей объекта в пространстве. Отсюда следуют минимальные требования к представлению типа 2,5-мерного эскиза. Во-вторых, чтобы распознать некоторый объект по его форме и оценить исходя из результатов распознавания его роль в последующем ’’действии”, по изображению должна быть построена какая-либо разновидность трехмерного представления, которое затем каким-либо способом должно быть сопоставлено с хранящимся в памяти трехмерным представлением, причем последнему уже поставлена в соответствие и другая дополнительная информация. Как мы уже установили, процессы синтеза и сопоставления не поддаются строгому разделению, поскольку процесс синтеза некоторого трехмерного представления может естественным образом включать постоянное обращение за консультацией к каталогу, содержащему все более специфические формы объектов.

Эти обстоятельства вынуждают нас при изучении проблем указанного характера в значительной степени полагаться на тщательный анализ требований, предъявляемых к обработке и представлению информации. Говоря без обиняков, существенные ограничения определяются тем, для чего соответствующее представление предполагается использовать.

Итак, нас интересовали требования, которым должно отвечать представление формы объекта, чтобы его можно было использовать при распознавании, и мы пришли к трем основным выводам. Представление формы объекта, подходящее для распознавания, должно: 1) использовать некоторую систему координат, привязанную к объекту; 2) включать объемные непроизводные элементы различных размеров; 3) иметь модульную организацию. Непосредственным следствием этих условий является представление, основанное на использовании естественных осей формы объекта (например, тех осей, которые определяются фигуркой, построенной из палочек). Кроме того, как мы убедились, основной процесс, обеспечивающий получение описания формы объекта в таком представлении, должен включать средства идентификации естественных осей формы объекта по его изображению и некоторый механизм, позволяющий преобразовывать описания, задаваемые в системе координат, привязанной к наблюдателю, в описания, заданные в системе координат, привязанной к объекту.

И наконец, мы установили, что собственно процесс распознавания представляет собой некоторую смесь процедур непосредственного получения информации о форме объекта из изображения и ’’развертывания” запоминаемых трехмерных моделей, степень детализации которых постепенно увеличивается в ходе процесса распознавания — вывода описаний. Таким образом, принципиальную роль в этом процессе играют совокупность запоминаемых описаний формы объектов и ряд индексов, заданных на этой совокупности и позволяющих устанавливать соответствие между некоторым новым (выведенным) описанием и соответствующим описанием, хранящимся в памяти. Наиболее важный из этих индексов обеспечивает возможность распознавания формы объекта в процессе постепенного перехода от общего к специфическому, основанного на использовании специфики информации, извлекаемой из изображения.

Имеются два подхода, с помощью которых можно попытаться экспериментально проверить конструктивность этих идей применительно к процессам распознавания, реализующимся в зрительной системе человека. Можно попробовать выяснить, какого рода информация используется в явном виде в тех представлениях, которыми оперирует зрительный процесс, либо попробовать отыскать некий коррелят процессов распознавания, обеспечивающий вывод этих представлений и выполнение над ними соответствующих операций, действуя в духе исследования мысленного вращения, выполненного Шепардом. Первый подход обладает большей фундаментальностью. Используется ли трехмерное представление, имеет ли оно модульную организацию и привязано ли оно к объекту? Для того чтобы получить ответы на эти вопросы, еще предстоит выполнить соответствующие эксперименты, однако на трех наблюдениях стоит остановиться сейчас.

Во-первых, фигуры животных, построенные из палочек, обычно легко распознаются, несмотря на ограниченность информации о форме, в них содержащейся. Хотя это и не доказывает, что в основе зрительного процесса, используемого человеком, лежат фигуры из палочек, отсюда на самом деле следует, что информация, содержащаяся в таких фигурах из палочек, играет в нем важную роль.

Во-вторых, иллюзии, подобные приведенной на рис. 5.12

Рис. 5.12. Иллюстрация влияния выбора системы координат, привязанной к объекту, на восприятие формы. Черные фигуры могут восприниматься как ромбы или квадраты, в зависимости от того, какая из их нескольких естественных осей использована

(на нее впервые обратил внимание Эрнст Мах), свидетельствуют о том, что описания локальной информации о форме объекта привязываются к осям, задаваемым более глобально. В ряду, помещенном на рисунке справа, объекты выглядят как ромбы, а на диагонали (слева) они воспринимаются как квадраты. Следовательно, в процессе анализа этого образа строится диагональная ось; это оказывает влияние на описание форм локальных элементов и потому, возможно, последнему предшествует.

В-третьих, Уоррингтон и Тейлор обратили внимание на затруднения, с которыми сталкивались их пациенты, имевшие поражения теменной доли правого полушария при интерпретации некоторых изображений самых обычных объектов, названных Уоррингтон и Тейлором необычными. Так, в частности, эти пациенты были не в состоянии распознать ведро по его виду сверху (см. рис. 5.9, в), причем они отрицали, что на рисунке изображено ведро, даже тогда, когда им говорили, что оно там изображено. На способностях же воспринимать изображения типа приведенного на рис. 5.9, а эти нарушения практически не отражались. Как отмечают Уоррингтон и Тейлор, такое различие не поддается простому объяснению с помощью аргументов, связанных с тем, что изображенный предмет хорошо известен пациенту, или с тем, что восприятие глубины нарушается, поскольку оба изображения ведра нормальны, а глубина столь же существенна для трехмерной структуры изображения, приведенного на рис. 5.9, а, как и для трехмерной структуры изображения, приведенного на рис. 5.9, в. Если, однако, внутреннее представление формы объекта, используемое при распознавании, основывается на естественных осях этой формы, то правильное описание второго изображения вызывает большие затруднения, так как в этом случае главная ось подвергается перспективному сокращению. Если это объяснение верно, то необычные изображения объектов по Уоррингтон и Тейлору — это изображения, на которых какая-либо из важных естественных осей формы объекта подвергается перспективному сокращению; в результате пациенту становится трудно найти или вывести описание формы изображенного объекта в канонической системе координат.

↑ Особенности метода

Мы завершили изложение нашего нового информационного подхода к проблеме зрения. И хотя это изложение содержит немало ’’разрывов”, я надеюсь, что оно обладает целостностью, позволяющей читателю получить достаточно определенное представление о нашем подходе и приступить к оценке его ценности. В этой очень короткой главе дана самая общая характеристика всего подхода в целом, рассмотрены его важнейшие и наиболее общие характерные особенности, а также их взаимосвязь, кроме того, предпринята попытка остановиться и на стиле исследования, вытекающего из сути подхода. Было бы удобно сосредоточить обсуждение на четырех основных моментах.

Первый из них постоянно возникал на протяжении всего изложения — концепция различных уровней объяснения. Центральный принцип нашего подхода заключается в том, что для понимания того, что представляет собой зрение и каким образом оно действует, недостаточно использовать лишь какой-то один уровень объяснения. Недостаточно ни уметь описывать ответы отдельных нервных клеток, ни уметь давать локальные прогнозы результатов психофизического эксперимента, недостаточно даже уметь писать программы для ЭВМ, действующие приблизительно так, как это требуется. Необходимо располагать всеми этими возможностями и одновременно в самой полной мере учитывать еще один уровень объяснения, который назван нами уровнем информационной теории. Осознание и существования, и важности этого уровня представляет собой один из важнейших аспектов нашего подхода. Поняв это, можно в явном виде сформулировать три уровня объяснения (информационная теория, алгоритм и реализация), после чего станет ясно, каким образом эти три различных уровня соотносятся с различными разновидностями экспериментальных наблюдений и теоретического анализа, которые могут выполняться. Я определенным образом выделяю уровень информационной теории не потому, что считаю его по существу более важным, чем два других уровня (истинная сила нашего подхода состоит в объединении всех трех уровней наступления на проблему зрения), а потому, что существование именно этого уровня прежде не осознавалось и соответственно ему не уделялось внимания. Следовательно, освоение этой идеи может вызывать у новичков в нашей области наибольшие затрудения,и уже только в силу одной этой причины ее значение должно соответствующим образом подчеркиваться во всяком вводном курсе, каковым данная книга и задумана.

Второй важный момент состоит в том, что, приняв информационную точку зрения, мы оказались в состоянии довольно четко сформулировать общую структуру зрительного процесса. Основу концепции, определяющей эту структуру, составляет представление о том, что все принципиальные проблемы зрения связаны с природой используемых представлений (т. е. тех конкретных характеристик реального мира, которые в процессе зрительного восприятия переводятся в явную форму) и природой процессов, обеспечивающих выделение этих характеристик, получение представлений, выполнение над ними различных операций и в конечном счете — ’’чтение” этих представлений. Проанализировав пространственные аспекты проблемы зрения, мы пришли к общей структуре процесса обработки зрительной информации, базирующейся на использовании трех основных представлений: 1) первоначального эскиза, предназначенного для представления в явном виде характеристик двухмерного изображения, начиная со степени и местоположения изменений яркости на нем и кончая представлением локальных геометрических свойств изображения с помощью непроизводных элементов, причем в наиболее сложных случаях первоначальный эскиз может включать некоторое иерархическое описание какой-либо структуры высшего порядка, заключенной в соответствующих распределениях отражательной способности; 2) 2,5-мерного эскиза, привязанного к наблюдателю представлением глубины и ориентации видимых поверхностей и включающего контуры нарушений непрерывности значений этих характеристик; 3) представления трехмерной модели, существенными особенностями которого являются привязка системы координат к объекту, использование объемных непроизводных элементов (это позволяет выявить организацию пространства, занимаемого объектом, а не только его наблюдаемых поверхностей), причем непроизводные элементы могут иметь различные размеры и организуются в виде некоторой модульной иерархической структуры.

Третий важный момент связан с изучением процессов, обеспечивающих определение различных физических характеристик сцены по ее изображениям. Решающим элементом в построении информационных теорий подобных процессов является выявление достоверных ограничений, определяющих характер развития событий в реальном мире и обеспечивающих в связи с этим дополнительную информацию, необходимую для получения искомых характеристик. Было приведено множество соответствующих примеров. Сила анализа данного типа состоит в том, что выявление эффективных и достаточно универсальных ограничений обеспечивает получение результатов, касающихся зрения, которые отличаются такой же надежностью, как и результаты, получаемые в других науках.

Более того, после того как сформулирована информационная теория некоторого процесса, можно создать реализующие ее алгоритмы и сопоставить их характеристики с характеристиками зрительной системы человека. Такой метод позволяет получать результаты двух типов. Во-первых, если эти характеристики по существу идентичны, то это является веским свидетельством в пользу того, что ограничения, заложенные в соответствующую информационную теорию, эффективны и могут в неявном виде использоваться зрительной системой человека; во-вторых, если некоторый процесс соответствует тому, что наблюдается у человека, то он, вероятно, достаточно хорош для того, чтобы войти в состав некоторой универсальной системы машинного зрения.

Последний важный момент связан с методологией или стилем подхода такого типа, как наш; он касается двух важных наблюдений. Во-первых, речь идет о двойственности, присущей представлениям и процессам, что наглядно продемонстрировано на рис. 6.1;

Рис. 6.1. Схема, иллюстрирующая связи представлений и процессов

она часто является полезным средством для выбора оптимального способа исследования некоторой конкретной проблемы. Как при изучении представлений, так и при изучении процессов задачи общего характера часто возникают в связи с повседневным опытом или психофизическими либо даже нейрофизиологическими результатами весьма общего характера. Подобные данные часто могут приводить к построению некоторого конкретного процесса или теории представления, отдельные примеры которых могут быть реализованы в виде программы ЭВМ или подвергнуты тщательному психофизическому исследованию. Если мы в достаточной степени уверены в правильности соответствующего процесса или представления на таком уровне, то можем перейти к детальному изучению его реализации, что связано с решением важнейших и очень сложных задач нейрофизиологии и нейроанатомии.

Второе наблюдение состоит в том, что не существует действенных рецептов для выполнения исследований такого типа (несмотря на то, что иногда я допускал их существование) — не существует чего-либо, выходящего за пределы обычных процедур получения научных результатов, справедливых для любой науки. Действительно, в некоторой мере наслаждение, получаемое от занятий наукой, определяется тем, что нам никогда не известно наверняка, откуда может возникнуть ключ к решению очередной проблемы: будет ли это элемент повседневного опыта, сообщение о неврологическом недостатке, теорема, касающаяся геометрии трехмерного пространства, результат психофизического изучения повышенной остроты зрения, нейрофизиологические данные или тщательный анализ проблемы представления. Все эти разновидности информации играют существенную роль в формировании концепции, описываемой в данной книге. И, как можно предполагать, все они будут продолжать вносить свой вклад в развитие этой концепции, причем взнос этот будет как чрезвычайно интересным, так и непредсказуемым. Я лишь надеюсь, что эти замечания могут побудить некоторых из читателей данной книги присоединиться к нам в нашем волнующем предприятии и разделить наш труд, посвященный решению очень трудной, но благодарной задачи — раскрытию тайн зрительного восприятия человека.

----

Статья из книги: Зрение | Д. Марр