Методология и концепция исcледования. Часть 2.

10-03-2012, 20:07

+ -

Методология и концепция исcледования. Часть 2.

Содержание:

Описание

↑ Процесс

Термин процесс имеет очень широкий смысл. Так, например, процессом является и сложение, и процедура преобразования Фурье. Но то же самое можно сказать и о приготовлении чашки чая, и о походе по магазинам. Исходя из целей данной книги я хотел ограничиться значениями, имеющими отношение к машинам, выполняющим обработку информации. Давайте поэтому подробно рассмотрим понятия, относящиеся к одному простому устройству такого типа — кассовому аппарату, установленному в универсаме.

Существует несколько уровней, которым должно соответствовать понимание сути подобного устройства, причем три из них, вероятно, наиболее существенны. Наиболее абстрактным является уровень, указывающий, что делает устройство и зачем оно это делает. Поскольку то, что оно делает, представляет собой арифметические операции, наша первая задача состоит в овладении теоретическими основами суммирования. Итак, суммирование представляет собой некоторое отображение (оно обозначается обычно знаком ”+”), обеспечивающее отображение пары чисел в одно число; так, например, отображение ”+” переводит пару чисел (3, 4) в число 7, и мы будем записывать эту операцию в виде (3 +4) ? 7. Сложение обладает, однако, целым рядом абстрактных свойств. Оно коммутативно: как (3 + 4), так и (4 + 3) равны 7. Оно также ассоциативно: сумма 3 + (4 + 5) равна сумме (3 + 4) +5. Кроме того, существует один особый элемент — нуль, сложение с которым не приводит ни к каким изменениям: (4 + 0) ? 4. Далее, для каждого числа существует единственный ’’обратный” элемент — для числа 4 он записывается как (- 4) : прибавление к любому числу его обратного элемента дает в результате нуль: [4 + (-4) ] ? 0.

Отметим, что эти свойства относятся к функциональной теории суммирования. Они остаются истинными независимо от того, каким образом числа записаны - в двоичном, арабском или римском представлении, и независимо от того, каким образом выполняется сложение. Таким образом, этот первый уровень частично отражает то, что можно считать характером выполняемых вычислительных операций (что именно делается в процессе вычислений).

Другая часть этого уровня объяснения связана с вопросом о том, почему кассовый аппарат выполняет сложение, а не, скажем, умножение, объединяя стоимости купленных товаров при подготовке счета к оплате. Причина этого заключается в том, что правила объединения цен отдельных товаров, которые интуитивно кажутся нам подходящими, в сущности, и определяют математическую операцию сложения. Они могут быть сформулированы в виде следующих ограничений:

1. Если Вы ничего не купили, то Вы не должны ничего платить; покупка же ’’ничего” и ’’чего-нибудь” должна стоить столько же, сколько покупка лишь одного этого ’’чего-нибудь”. (Правила, характеризующие обращение с нулем.)

2. Порядок предъявления товаров кассиру не должен влиять на величину итогового счета. (Коммутативность.)

3. Разделение купленных товаров на две группы и оплата стоимости каждой группы в отдельности не должны влиять на величину итогового счета. (Ассоциативность. Это основная операция объединения цен отдельных товаров.)

4. Если Вы купили какой-то товар, а затем вернули его, то в итоге Ваши затраты должны быть равны нулю. (Обращения.)

В математике известна теорема, утверждающая, что эти условия определяют операцию сложения. Следовательно, именно ее и надо использовать в вычислительном процессе.

Эти правила, вместе взятые, и составляют то, что я называю информационной теорией кассового аппарата. Вот ее существенные особенности: описания процесса вычислений и цели этих вычислений разделены; операция, используемая для получения результата, определена однозначно ограничениями, которым она должна удовлетворять. Основополагающей задачей теории зрительных процессов является надежное определение свойств материального мира по его изображениям; центральную тему нашего исследования составляет проблема выделения ограничений, обладающих одновременно силой, которая обеспечивает возможность определения соответствующего процесса, и истинностью для всего нашего материального мира.

Для того чтобы любой процесс начал фактически осуществляться, естественно, его необходимо каким-то образом реализовать и, следовательно, выбрать некоторое представление для тех объектов, которыми соответствующий процесс оперирует. Таким образом, второй уровень анализа любого процесса предусматривает две процедуры: а) выбор некоторого представления для входной и выходной информации процесса; 2) выбор некоторого алгоритма, с помощью которого искомое преобразование может быть реализовано. Конечно, для процедуры сложения представления входных и выходных данных могут быть одинаковыми, поскольку и то и другое используют числа. В общем случае, однако, это не так. Например, при выполнении преобразования Фурье исходные данные могут представляться во временной области, а выходные данные—в частотной. Если первый из наших уровней характеризует содержание и цель вычислений, го второй уровень - способ их выполнения. В случае сложения для представлений можно воспользоваться арабскими числами, а в случае алгоритма можно обратиться к обычным правилам суммирования в первую очередь значений самого младшего разряда и ’’переноса”, если соответствующая сумма оказывается больше девяти. В кассовых аппаратах независимо от того, механические они или электронные, обычно используются этот тип представления и этот алгоритм.

В сказанном выше содержатся три важных момента. Во-первых, выбор допустимых представлений обычно довольно обширен. Во-вторых, выбор алгоритма часто решающим образом зависит от того, какое представление используется. И, в-третьих, даже если некоторое определенное представление уже выбрано, часто для реализации одного и того же процесса оказываются пригодными несколько различных алгоритмов. Выбор алгоритма обычно основывается на какой-либо одной особо необходимой или неприемлемой характеристике алгоритма; так, один алгоритм может быть существенно эффективнее другого, а третий несколько менее эффективным, но более устойчивым (т. е. менее чувствительным к небольшим неточностям в данных, которые он должен обрабатывать) либо, скажем, один алгоритм — параллельный, а другой — последовательный. Выбор алгоритма, следовательно, может зависеть от типа тех технических средств, которые будут использоваться для реализации этого алгоритма.

Это замечание подводит нас к третьему уровню — уровню устройств, с помощью которых процесс осуществляется физически. Важным здесь является то обстоятельство, что снова один и тот же алгоритм можно реализовать с помощью самых различных технических средств. Ребенок, последовательно складывающий справа налево два числа, возможно, пользуется тем же самым алгоритмом, который реализован с помощью проводов и транзисторов в кассовом аппарате, установленном в ближайшем универсаме, однако физическая реализация алгоритма в этих двух случаях не имеет ничего общего. Другой пример: многие занимались разработкой машинных программ для игры в крестики-нолики, причем известен более или менее стандартный алгоритм, гарантирующий от проигрыша У. Д. Хиллис и Б. Силверман реализовали этот алгоритм на совершенно особой технике — вычислительной машине, построенной из набора деревянных деталей конструктора ’’Мастер на все руки”. Сейчас этот чудовищно неуклюжий механизм, который тем не менее действительно работает, находится в музее Университета штата Миссури в Сент-Луисе.

В зависимости от характера алгоритма некоторые способы его физической реализации могут оказаться более естественными, чем другие. Так, число соединений, имеющихся в обычной цифровой вычислительной машине, сопоставимо с числом ее логических элементов, в то время как в мозге число связей много больше (в 104 раз) числа нервных клеток. Основная причина этого заключается в сравнительной ’’дешевизне” связей, использующихся в биологической архитектуре, поскольку они могут выращиваться индивидуально и к тому же в трехмерном пространстве. Нынешняя технология предусматривает в основном плоскую укладку соединительных проводов, что весьма существенно ограничивает диапазон использования параллельных методов и алгоритмов. Соответствующие процедуры часто лучше реализуются последовательно.

↑ Три уровня рассмотрения информационных машин

Для того чтобы подвести итоги нашего обсуждения, воспользуемся табл. 1.1,

иллюстрирующей уровни понимания устройства, предназначенного для обработки информации, необходимые для полного понимания сути такого устройства. Один крайний уровень (верхний) образует абстрактная информационная теория устройства. На этом уровне работа устройства описывается как некоторое отображение информации одного вида в информацию другого вида, формальные свойства которого определяются точно: при этом демонстрируются как пригодность использования отображения для решения соответствующих задач, так и целесообразность. Центральный уровень связан с выбором представления для входной и выгодной информации и выбором алгоритма, который должен быть использован для преобразования одной в другую. Другой же крайний уровень характеризует подробности физической реализации выбранных алгоритмов и представлений — детальную архитектуру вычислительной машины. Эти три уровня связаны между собой, но связи эти довольно свободны. Выбор некоторого алгоритма, например, проводится с учетом того, что он должен делать и с помощью каких технических средств может быть реализован. На каждом уровне, однако, имеются большие возможности выбора, и получение интерпретаций доя каждого уровня связано с разрешением проблем, которые в достаточной степени независимы от проблем двух других уровней.
[banner_centerrs] {banner_centerrs} [/banner_centerrs]

В конечном счете каждый из этих трех уровней описания займет должное место в понимании процессов обработки информации, обеспечивающих восприятие. Естественно, все они связаны и логически, и каузально. Отметим, однако, одно существенное обстоятельство: поскольку эти три уровня связаны между собой достаточно свободно, для объяснения некоторых явлений можно ограничиться лишь одним или двумя уровнями. Это значит, в частности, что корректно интерпретировать некоторые результаты психофизических наблюдений можно лишь на соответствующем уровне. Слишком часто при попытках связать психофизические проблемы с физиологическими представлениями возникают недоразумения, порожденные неправильным выбором уровня рассмотрения проблем. Некоторые проблемы, например, относятся главным образом к физическим механизмам зрения — скажем, те, которые возникают в связи с остаточными изображениями (типа тех, которые Вы видите после пристального взгляда на зажженную электрическую лампочку) или получением любого цвета при соответствующем смешивании трех основных цветов (непосредственное следствие того, что в сетчатке глаза человека имеются колбочки трех типов). С другой стороны, неоднозначность куба Некера (рис. 1.4),

Рис. 1.4. Так называемая иллюзия Некера, названная в честь швейцарского естествоиспытателя Л. А. Некера, предложившего ее в 1832 году. Двухмерное представление куба (а) уничтожает его глубину, и соответствующие свойства зрения человека должны обеспечивать ее восстановление. Действительно, глубина куба поддается восприятию, однако возможны две интерпретации (б и в). Восприятие человека специфически переключается с одной интерпретации на другую

вероятно, требует другого объяснения. Несомненно, объяснение обратимости восприятия куба Некера в определенной степени должно быть связано с наличием в недрах мозга некоторой бистабильной нервной сети (с двумя различными устойчивыми состояниями), но мало кто удовлетворится объяснением, в котором не обращается внимания на существование двух различных и абсолютно правдоподобных трехмерных интерпретаций этого плоского изображения. Совершенно очевидно, какое объяснение требуется для некоторых явлений. Анатомия нервной системы, например, явно связана главным образом с третьим уровнем, т. е. с физической реализацией обработки информации. То же самое относится и к синаптическим механизмам, потенциалам действия, тормозным воздействиям и подобным явлениям. Нейрофизиология также связана в основном с этим уровнем, но она может способствовать и пониманию характера использованных представлений, особенно при условии, что Вы в определенной степени разделяете приводившиеся выше взгляды Барлоу. Следует, однако, проявлять чрезвычайную осмотрительность, делая на основе нейрофизиологических данных выводы относительно использованных алгоритмов и представлений, особенно до тех пор, пока не будет совершенно четкого понимания того, какая информация должна представляться и какой процесс должен быть реализован.

Психофизика же, с другой стороны, более тесно связана с уровнем алгоритмов и представлений. Различные алгоритмы обычно допускают совершенно разные ошибки при работе в предельных режимах или отсутствии существенной информации. Как можно будет убедиться ниже, преимущественно психофизические данные убедили Поджо и меня в том, что наш первый алгоритм установления соответствия между изображениями стереопары отличался от алгоритма, применяемого мозгом. Наилучшим же подтверждением того, что наш второй алгоритм примерно соответствует применяемому мозгом алгоритму, явились также психофизические данные. Конечно, собственно информационная теория в обоих случаях оставалась одной и той же, различались лишь алгоритмы, построенные на ее основе.

Психофизика может быть, кроме того, полезной при определении природы представления. В работах Р. Шепарда, Э. Роск и Э. Уоррингтон содержатся полезные сведения по этому поводу. Более конкретные результаты получены Стивенсом. На основании данных психофизических экспериментов он утверждает, что угол и направление наклона поверхности являются более подходящими координатами для представления ориентации поверхности, чем, например, более традиционные (р, g) -координаты пространства градиентов. Кроме того, исходя из однородности величины ошибки, допускаемой испытуемыми при определении ориентации поверхности в обширном диапазоне ориентаций, он сделал вывод о том, что угол и направление наклона поверхности представляются собственно значениями углов, а не, скажем, их косинусов, синусов и тангенсов.

В более общем смысле полное и отчетливое осознание концепции необходимости использования различных уровней для объяснения различных явлений часто помогает оценить справедливость различных контрдоводов, появляющихся время от времени. Допустим, некто утверждает, что мозг не имеет ничего общего с вычислительной машиной, поскольку первый работает параллельно, а вторая — последовательно. Ответ на этот довод, естественно, заключается в том, что различие между последовательным и параллельным устройствами на алгоритмическом уровне вовсе не является фундаментальным, поскольку любую процедуру, запрограммированную для параллельного выполнения, можно переписать в виде последовательно работающей программы (хотя обратное не обязательно верно). Следовательно, это не дает оснований утверждать, что работа мозга столь радикально отличается от работы вычислительной машины, которую невозможно запрограммировать для выполнения тех же функций, которые имеет мозг.

↑ Значение информационной теории

Хотя эмпирически алгоритмы и механизмы (аппаратура) более доступны, именно высший уровень, т. е. уровень информационной теории, имеет решающее значение с точки зрения обработки информации. Причина заключается,в том, что характер вычислений (процедур обработки информации, лежащих в основе восприятия) в большей степени зависит от задач обработки информации, подлежащих решению, а не от той конкретной аппаратуры, с помощью которой соответствующие решения находятся. Другими словами, алгоритм, вероятно, легче понять, исследуя характер решаемой задачи, чем изучая устройство (и его аппаратную часть), в котором он реализуется.

Аналогичным образом попытка понять восприятие исключительно на основе изучения нейронов подобна попытке понять природу полета птиц, изучая лишь их оперение. Это просто невозможно. Для того чтобы осознать природу полета птиц, необходимо владеть аэродинамикой. Только в этом случае структура оперения и различия форм крыльев птиц приобретут для нас смысл. Добавим к тому же, что, как мы убедимся, невозможно установить, почему ганглиозные клетки сетчатки и нейроны наружного коленчатого тела имеют именно такие рецептивные поля, какие у них в действительности наблюдаются, ограничившись изучением исключительно анатомии и физиологии этих нервных клеток. Исследуя соединения и взаимодействия этих клеток и нейронов, можно понять, почему они работают так, как работают, но для того, чтобы понять, почему соответствующие рецептивные поля именно таковы (т. е. обладают круговой симметрией и их возбуждающие и тормозные зоны отличаются специфическими формами и распределениями), необходимо обладать определенными познаниями в области теории дифференциальных операторов, каналов с ограниченной полосой частот и математическими основами принципа неопределенности.

Вероятно, нет ничего удивительного в том, что столь специализированная и эмпирическая дисциплина, как нейрология, оказалась не в состоянии в полной мере оценить отсутствие информационной теории. Странно, однако, то этот уровень не играл более действенную роль на ранних стадиях развития искусственного интеллекта. Слишком долго считалось, что эвристическая программа, предназначенная для решения некоторой задачи, является в каком-то смысле теорией этой задачи, а различие между тем, что делает программа и как она это делает, по-настоящему не учитывалось. В результате: 1) сформировался метод научного объяснения, предусматривающий использование специальных приемов для решения частных задач; 2) отдельные структуры данных, например списки пар значений признаков, известные в языке программирования ЛИСП как списки свойств, приобрели статус теорий представления знаний; 3) часто оказывалось, что единственный способ оценить пригодность программы для решения конкретной задачи — это применение программы для ее решения.

Неспособность осознать это принципиальное различие между что и каким образом существенно затруднило установление связей между искусственным интеллектом и лингвистикой. Теория трансформационных грамматик Хомского представляет собой истинно информационную теорию в определенном выше смысле. В ней рассматривается исключительно природа синтаксической структуры английского предложения и не затрагивается вопрос о том, каким образом следует обрабатывать предложение для того, чтобы получить соответствующую синтаксическую структуру. Сам Хомский совершенно четко понимал это — им разделено владение языком и исполнение при реальном употреблении языка, хотя его представление о последнем на самом деле включает и другие факторы (скажем, прерывание высказывания). Однако многих, очевидно, ввело в заблуждение то обстоятельство, что его теория определяется преобразованиями, которые выглядят как вычислительные процедуры. Уиноград, в частности, счел возможным критиковать теорию Хомского за ее необратимость и вследствие этого невозможность воспроизведения на вычислительной машине. Отзвуки тех же аргументов я слышал и от лингвистов в связи с проблемой реального построения грамматической структуры для конкретной английской фразы.

Объяснение здесь достаточно простое: разработка алгоритмов, позволяющих реализовывать теоретические построения Хомского, и разработка собственно теории — совершенно разные предприятия. На нашем языке это соответствует исследованиям разных уровней, причем решать следует обе задачи. Указанное обстоятельство было по достоинству оценено Маркусом, который посвятил свою работу изучению именно того, каким образом теория Хомского может быть реализована и какого рода ограничения, налагаемые на мощность грамматического процессора, имеющегося у человека, могли бы послужить источником структурных ограничений в синтаксисе, обнаруженных Хомским. Создается даже впечатление, что предложенная Хомским и Ласником ’’следовая” теория грамматик может открыть путь к синтезу обоих подходов, продемонстрировав, например, что некоторые из специфических ограничений, составляющих часть информационной теории, могут являться следствием недостатка вычислительной мощности, отводимой на осуществление синтаксической расшифровки.

↑ Подход Дж. Дж. Гибсона

В том, что касается восприятия, Гибсон, вероятно, в наибольшей степени приблизился к уровню информационной теории. Хотя некоторые аспекты его подхода были вполне правомерны, он, однако, не понял по-настоящему, что представляет собой обработка информации. В результате это привело к серьезной недооценке сложности задач обработки информации, связанных со зрением, и соответственно искусности, необходимой для их надлежащей трактовки.

Важность вклада Гибсона определяется тем, что он увел полемику от проблем философского анализа данных, поступающих от органов чувств, и эффективных свойств восприятия, указав на важность роли чувств как каналов восприятия окружающего мира, а, в частности, в случае зрения - видимых поверхностей. Таким образом, он задал принципиально важный вопрос: каким образом в обычной жизни на основе непрерывно изменяющихся ощущений обеспечивается постоянство восприятия? Это совершенно законный вопрос, показывающий, что Гибсон правильно трактовал проблему восприятия, рассматривая ее как восстановление ’’истинных” свойств окружающего мира по информации, поступающей от органов чувств. Его трудности были связаны с чрезмерно упрощенными представлениями о том, каким образом это восстановление должно осуществляться. Подход Гибсона привел к рассмотрению переменных высших порядков — энергии, отношений, удельных весов раздражителей и т. п. в качестве ’’инвариантов” относительно перемещения наблюдателя и интенсивности раздражителей.

’’Эти инварианты, - писал он, — соответствуют неизменным свойствам окружающей среды. Они, таким образом, составляют информацию о постоянной части среды”. Эта позиция сформировала у Гибсона точку зрения, согласно которой роль мозга заключается в ’’обнаружении инвариантов” независимо от изменения ’’ощущений”, вызываемых светом, давлением или силой звука. Итак, утверждает он, ’’роль мозга, образующего вместе с органами восприятия замкнутый контур, не состоит ни в расшифровке сигналов, ни в интерпретации сообщений, ни в приеме изображений, ни в организации данных, поступающих от органов чувств, т. е., говоря на современном языке, не состоит в обработке информации. Задача мозга — поиск и выделение информации об окружающей среде из вечно беспокойного океана энергии” Он считал, что нервная система в некотором роде ’’резонирует” на эти инварианты. Затем Гибсон провел обширное исследование животных в соответствующих средах, пытаясь обнаружить те инварианты, на которые они могли бы резонировать. Именно эта идея легла в основу экологической оптики.

Хотя в анализе Гибсона можно найти целый ряд недостатков, основная и, с моей точки зрения, роковая причина его неудачи немного глубже и связана с отказом от следующих двух обстоятельств. Во-первых, от того, что обнаружение физических инвариантов представляет собой совершенно определенно и без каких бы то ни было оговорок задачу обработки информации (на современном языке). И, во-вторых, от признания подлинной сложности такого обнаружения. Обсуждая проблему восстановления трехмерной информации по движению наблюдателя, он замечает, что ’’при движении можно пользоваться лишь информацией о перспективе”. Ключом же к пониманию работ Гибсона служит, вероятно, такой абзац:

’’Обнаружение неизменяющихся элементов при движении некоторого объекта в определенной среде не столь сложно, как это могло бы показаться. Оно начинает казаться трудной задачей лишь после того, как мы начинаем полагать, что восприятие постоянных размеров объекта должно основываться на коррекции восприятия непостоянных форм и размеров. Информация, характеризующая постоянные размеры объекта, обычно задается инвариантными отношениями на совокупности оптических данных. Жесткость определена”.

Да, несомненно, но как? Обнаружение физических инвариантов действительно именно такая трудная задача, на какую указывал Гибсон, но мы тем не менее с ней справляемся. И единственный способ понять как - это рассматривать ее в качестве задачи обработки информации.

Принципиальным является то обстоятельство, что обработка зрительной информации очень сложна на самом деле. Гибсон же не единственный мыслитель, введенный в заблуждение кажущейся простотой акта ’’видения”. Судя по всему, в целом традиция философского исследования природы восприятия не обнаруживает достаточно серьезного отношения к сложности соответствующих процессов обработки информации. Остин в своей монографии остроумно опровергает довод, к которому явно благосклонны предшествующие философы: поскольку порой иллюзии могут вводить нас в заблуждение (так, прямая палка кажется нам изогнутой, если она частично погружена в воду), мы видим не реальные предметы, а сенсорные данные. Ответ же заключается просто в том, что обычно в процессе восприятия обработка данных ведется правильно (она обеспечивает получение правильных описаний типа что где находится) и, хотя эволюция обеспечила возможность вести обработку при различных типах изменчивости (например, при переменном освещении), возмущения, порожденные преломлением света в воде, к их числу не относятся. Кстати, несмотря на то, что пример с изгибом палки обсуждается со времен Аристотеля, мне не удалось обнаружить философского исследования природы восприятия, скажем, цапли — птицы, добывающей себе в пищу с помощью клюва рыбу, которую она обнаруживает, находясь над водой. Вполне возможно, что эти птицы пользуются зрительной коррекцией.

Как бы то ни было, наша основная проблема в данном случае состоит в другом. Остин посвятил много времени идее, состоящей в том, что восприятие позволяет получать представление об истинных свойствах окружающего мира. Он, в частности, рассматривает понятие ’’истинная форма”, возникшее в процессе обсуждения феномена монеты, которая при некоторых ракурсах ’’выглядит овальной”. Несмотря ни на что, однако, ’’монета обладает истинной формой, остающейся неизменной. В сущности же, монеты представляют, скорее, частные случаи. Во-первых, их очертания точно определены и очень устойчивы, во-вторых, форма монет известна и поддается описанию. Но имеется множество объектов, для которых это не справедливо. Какова истинная форма облака... или кошки? Меняется ли их истинная форма, как только они начинают двигаться? Если нет, то какое положение занимает эта истинная форма на изображении соответствующего объекта? Далее, является ли соответствующая истинная форма такой, что допускает представление с достаточно гладкими очертаниями, либо она испещрена множеством зазубрин, что позволяет ей учитывать каждый волосок? Совершенно очевидно, что ответов на эти вопросы не существует - нет ни правил, в соответствии с которыми, ни процедуры, с помощью которой эти ответы могли бы быть получены”.

Но ответы на эти вопросы существуют. Существуют способы описания формы кошки с произвольной степенью точности, и существуют правила и процедуры получения таких описаний. Именно для этого служит зрение, и именно это определяет сложность его механизма.

↑ Структура представления для зрения

Зрение — это процесс, порождающий по изображениям внешнего мира некоторое описание, полезное для наблюдателя и не перегруженное несущественной информацией. Мы уже убедились в том, что всякий процесс можно рассматривать как некоторое отображение одного представления в другое. В случае же зрения человека характер исходного представления никаких сомнений не вызывает — оно образуется массивами значений яркостей изображения, зарегистрированных фоторецепторами сетчатки.

Вполне правомерно рассматривать изображение как некоторое представление: явными характеристиками изображения служат значения яркости в каждой точке массива, который в точке с координатами (х, у) обычно обозначаются как I(х, у). Для упрощения нашего обсуждения не будем временно принимать во внимание факт существования нескольких различных типов рецепторов и будем считать, что имеется лишь один тип рецептора и, следовательно, изображение является черно-белым. Таким образом, каждое значение величины I (x, у) определяет некоторый конкретный уровень серого тона. Каждый детектор будет рассматриваться нами как некоторый элемент изображения, или пиксел, а весь массив I — как некоторое изображение.

Как, однако, обстоят дела с информацией на выходе зрительного процесса? Мы уже договорились о том, что она должна представлять собой некоторое полезное описание внешнего мира, но это условие имеет довольно расплывчатый характер. Нельзя ли предложить нечто лучшее? Совершенно верно, конечно, что в отличие от входной информации чрезвычайно трудно описать конечный результат зрительного процесса, не говоря уже о его точном определении. Существенная особенность этого нового подхода к проблеме зрения кроется в его вполне конкретных указаниях относительно того, что этот результат собой представляет. Прежде чем приступить к обсуждению, мы вернемся назад и кратко остановимся на формулировке более общих задач, возникающих в связи с данными вопросами.

↑ Предназначение зрения

Полезность некоторого представления зависит от того, насколько хорошо оно соответствует цели, для достижения которой его используют. Голубю зрение нужно для того, чтобы ориентироваться в полете, летать и находить пищу, различным разновидностям аттидов — чтобы отличить потенциальную пищу от потенциального партнера по половому процессу. У одного вида таких пауков, в частности, имеется специфическая сетчатка, состоящая из двух диагональных полос, образующих букву ”V”. Обнаружение красной метки ”V” на спине некоторого объекта, находящегося перед аттидом, означает, что обнаружен партнер, в противном случае соответствующий объект может оказаться пищей. Лягушка, как мы уже отмечали, для обнаружения мелких насекомых пользуется сетчаткой; сетчатка же кролика заполнена специальными ’’устройствами”, одно из которых определенно является детектором мелких хищных птиц, поскольку оно адекватно реагирует на тип поведения хищника, парящего наверху и высматривающего добычу. С другой стороны, зрение человека, очевидно, является в сильной степени универсальным, хотя, несомненно, его зрительная система включает множество специальных механизмов, предназначенных, например, для фиксации глаза в направлении неожиданного движения в поле зрения или заставляющих человека моргать или как-то иначе реагировать на нечто, слишком быстро приближающееся к его голове.

Короче говоря, использование зрения связано с таким ошеломляющим разнообразием способов, что у различных живых существ зрительные системы должны разниться чрезвычайно сильно. Можно ли доказать адекватность постановки, которую я предлагаю, т. е. постановки в терминах представлений и процессов, всем разновидностям зрительных систем? Я полагаю, что можно. Принципиальным здесь является тот тезис, что, поскольку различным живым существам зрение необходимо для достижения чрезвычайно разнообразных целей, совершенно невероятным кажется использование всеми обладающими зрением живыми существами одних и тех же представлений. Можно быть уверенным в том, что каждое из них пользуется одним или несколькими представлениями, которые точно соответствуют их задачам.

Рассмотрим кратко в качестве примера одну примитивную, но весьма эффективную зрительную систему, обладающую еще и тем достоинством, что она хорошо изучена. Группа В. Райкхардта в Тюбингене потратила последние пятнадцать лет на тщательное изучение зрительной системы управления полетом комнатной мухи, и славное содружество Райкхардта и Т. Поджо добилось существенных результатов в решении этой задачи. Грубо говоря, зрительная система мухи управляет ее полетом с помощью пяти независимых, жестко запрограммированных и обладающих исключительно высоким быстродействием подсистем (время, разделяющее появление зрительного раздражителя и изменение вращающего момента, составляет всего лишь 21 мс). Так, например, одна из этих подсистем обеспечивает посадку: если зрительное поле резко ’’расширяется взрывом” (из-за того, что приближающаяся поверхность стремительно расширяется) , муха автоматически устремляется на посадку в ее центр. Если этот центр расположен над мухой, она автоматически переворачивается, для того чтобы приземлиться вверх ногами. Когда ее лапки касаются поверхности, подача энергии на крылья прекращается. И наоборот, для того чтобы взлететь, муха подпрыгивает. После потери контакта лапок мухи с поверхностью энергия снова начинает подаваться на крылышки - муха снова находится в полете. В полете управление осуществляется независимыми подсистемами, регулирующими вертикальную скорость мухи (с помощью регулирования подъемной силы, развиваемой крылышками) и направление полета по горизонтали (оно определяется вращающим моментом, который порождается асимметрией горизонтальной тяги левого и правого крылышек). Зрительная информация, поступающая на вход системы управления по горизонтали, полностью описывается, в частности, двумя следующими составляющими:

r (?)? + D(?)

(форма переменных r и D представлена на рис. 1.5).

Рис. 1.5. Горизонтальная составляющая визуального входного сигнала, поступающего в систему управления полетом комнатной мухи, описывается выражением R =D(?) — r (?) ?, где ? - направление раздражителей; ? - угловая скорость их перемещения в зрительном поле мухи; D(?) - нечетная функция, использование которой обеспечивает центрирование цели в зрительном поле мухи, (а); r (?) - практически постоянная функция (б)

Эта информация показывает, каким образом муха осуществляет слежение за некоторым объектом, появляющимся в ее зрительном поле под углом ? и перемещающимся с угловой скоростью ?. Эта система предназначена для отслеживания в поле зрения объектов, имеющих определенные угловые размеры, причем стратегия движения такова, что если замеченный объект — это другая муха, находящаяся на расстоянии нескольких сантиметров от первой, то перехват будет успешно совершен. Если же целью оказывается слон, находящийся на расстоянии в сотню метров, то перехват успехом не увенчается, так как встроенные параметры систем управления полетом мухи настроены на другую муху, находящуюся поблизости, но не на слона, разгуливающего где-то вдали.

Итак, зрительная система мухи обеспечивает получение некоторого представления, определяющего по меньшей мере следующие три события: 1) не начинает ли поле зрения столь стремительно сужаться, что муха должна приземлиться; 2) не наблюдается ли небольшое пятно (иногда черная крапинка, иногда некоторый текстурный образ на текстурном фоне), перемещающееся тем или иным способом относительно фона; 3) если такое пятно действительно обнаружено, определяются его значения ? и ?, которые передаются в двигательную систему. Эта деятельность занимает, вероятно, около 60 % работы зрительной системы мухи. Исключительно маловероятно, в частности, что муха располагает хоть каким-либо заданным в явном виде представлением изображения окружающего ее мира: у нее нет, скажем, правильного представления о том, что такое поверхность - она располагает лишь несколькими пусковыми механизмами и несколькими специфическими (ориентированными на потребности мухи) параметрами типа ? и ?.

Совершенно очевидно, что зрительная система человека намного сложнее рассмотренной, хотя в ее состав вполне могут входить подсистемы, не столь уж сильно отличающиеся от зрительных подсистем мухи и предназначенные для решения специфических и главным образом относящихся к нижнему уровню задач типа управления движением глаз при слежении. Тем не менее, как показали Поджо и Райкхардт, работу даже столь простых подсистем можно изучать тем же способом, т. е. рассматривая их как системы, предназначенные для решения задач обработки информации. Кроме того, их работа обладает еще одной совершенно замечательной особенностью: им удалось не только сформулировать дифференциальные уравнения, точно описывающие зрительную систему управления мухи, но также и представить эти уравнения с помощью разложения в ряд Вольтерра в таком виде, который непосредственно указывает минимально допустимую сложность связей в соответствующих нейронных сетях.

↑ Развитое зрение

Зрительные системы, подобные той, которой располагает муха, вполне удовлетворительно, с необходимыми быстродействием и точностью обслуживают своих владельцев. Эти системы, однако, не очень сложны, так как сих помощью собирается очень мало объективной информации о внешнем мире. Соответствующая информация в целом чрезвычайно субъективна: требуются угловые размеры раздражителя ”с точки зрения” мухи, а не действительные размеры находящегося перед ней объекта, угол объекта относительно зрительного поля мухи, а не его положение относительно самой мухи либо некоторой другой внешней точки отсчета, угловая скорость объекта, причем снова относительно зрительного поля мухи, а не некоторая оценка его истинной скорости относительно мухи или какой-либо реперной точки.

Одной из причин подобной простоты этой системы должно служить то обстоятельство, что именно эти данные обеспечивают муху необходимой для выживания информацией. Естественно, эта информация не оптимальна и время от времени мухе приходится напрасно растрачивать свою энергию, гоняясь за листьями, падающими на некотором ’’среднем” расстоянии от нее, или за слонами, находящимися где-то очень далеко, что представляет собой непосредственное следствие неадекватностей ее системы восприятия. Очевидно, однако, все это не слишком существенно — муха располагает резервом энергии, достаточным для покрытия этих ’’накладных расходов”. Другой причиной, несомненно, является значительно больший объем вычислений, необходимый для преобразования этих достаточно субъективных показателей в более объективные характеристики. Каким же образом тогда следует рассматривать более совершенные зрительные системы, например зрение человека. Какие здесь возникают проблемы? Какого рода информацию зрение на самом деле поставляет человеку и какие способы представления при этом используются?

Мой подход к этим проблемам в значительной степени сложился под влиянием поразительных достижений клинической неврологии, в частности работ Критчли и Уоррингтон и Тейлора. Значительную роль сыграла также лекция, прочтенная Э. Уоррингтон в Массачусетсском технологическом институте в октябре 1973 года; в этой лекции рассказывалось о том, что доступно и что недоступно пациентам с повреждениями левой и правой теменной области мозга. Самым важным, с моей точки зрения, являлось проведенное Уоррингтон разграничение двух групп больных. Те, у кого повреждения находились справа, были в состоянии распознавать обычные объекты при условии, что предъявлялись они больному в некотором смысле ’’просто”. Она использовала слова обычный и необычный, ведро или кларнет, рассматриваемые сбоку, представляли ’’обычные” картины, а при взгляде сверху (по оси симметрии) — ’’необычные”. Если этим больным удавалось опознать объект, то они были в состоянии назвать его и указать семантику, т. е. способ употребления и назначение, величину, размер, из чего он сделан и т. д Если же объект рассматривался в необычном ракурсе, например ведро сверху, больные не только не могли опознать его, но и яростно отрицали, что ведро вообще может выглядеть таким образом. Больные же с повреждениями левой теменной области вели себя совершенно иначе. Часто эта больные уже утратили владение языком и поэтому были не в состоянии назвать рассматриваемый объект или указать его назначение и семантику. Они, однако, могли довести до сведения экспериментатора, что геометрия объекта, т. е. форма, воспринимается ими правильно даже при необычном ракурсе.

Из выступления Уоррингтон следовало два вывода. Во-первых, представление формы объекта хранится в памяти отдельно от представления способов его использования и назначения, и, следовательно, это совершенно разные характеристики объекта. Во-вторых, только зрение может породить некоторое внутреннее описание формы рассматриваемого объекта, причем даже в том случае, когда объект не распознан в обычном смысле, т. е. не установлены ни способ его использования, ни назначение.

Это оказалось важным для меня по следующим двум причинам. Среди специалистов по машинному зрению было принято считать, что распознавание — задача столь трудная, что для ее решения необходима информация всех разновидностей. Результаты такой установки проявились в полной мере спустя несколько лет в программах типа разработанных Фройдером, а также Тененбаумом и Барроу. В последней программе знания об учреждениях (в частности, что на столах стоят телефоны и что телефоны — черные) были использованы для ’’выделения” черного пятна, расположенного в верхней половине изображения и ’’распознавания” этого пятна как телефона. В программе Фройдера аналогичный подход использовался для ’’выделения” и ’’распознавания” на некоторой сцене молотка. Совершенно очевидно, что в нашей обыденной жизни мы должны пользоваться подобными знаниями: однажды у себя в саду я заметил какое-то коричневое пятно, проворно снующее по грядкам салата, и правильно идентифицировал его как кролика, несмотря на то, что одной зрительной информации для этого было недостаточно. И все же... У нас делала доклад молодая женщина, которая спокойно рассказывала о том, что ее пациенты не только были в состоянии ’’сообщать” ей, что они узнают форму тех предметов, которые она им показывала, хотя и не могут назвать их или указать способы их использования, но им удавалось успешно продолжать делать это даже после того, как она чрезвычайно усложняла задачу в зрительном отношении, показывая им объекты в каких-то специфических ракурсах или освещенные весьма необычным образом. Становилось очевидным, что интуитивные представления специалистов по машинному зрению оказываются абсолютно неверными и что даже в сложной обстановке формы объектов могут определяться с помощью одного лишь зрения.

Вторым, как я считаю, важным моментом оказалось обращение Э. Уоррингтон к тому, что, в определенном смысле, является квинтэссенцией зрения человека — форме, пространству и пространственной организации. Именно здесь пролегает путь к определению предназначения зрения — построение некоторого описания форм и местоположений объектов по изображениям. Этим, конечно, ни в коей мере не исчерпываются все возможности зрения: оно дает нам сведения об освещенности и об отражательных способностях поверхностей, образующих очертания объектов, — об их яркостях, цветах и видимых текстурах — и об их движении. Все это, однако, представляется вторичным и может не учитываться в теории, согласно которой основной задачей зрения является получение некоторого представления формы.

↑ К искомому — через возможное

И наконец, необходимо трезво относиться к словам. Почти наверняка невозможно достичь искомого за один шаг, если требуется, чтобы зрение по некоторому изображению выдавало некоторое полностью инвариантное описание формы (независимо от того, каковы конкретные детали этого процесса). Мы в состоянии добиваться лишь возможного и на этой основе продвигаться далее к искомому. Итак, мы пришли к идее некоторой последовательности представлений, начальными элементами которой служат описания, получаемые непосредственно по изображению, но сконструированные столь тщательно, чтобы позволить затем последовательно устанавливать более объективные, т. е. физические, характеристики формы объекта. Наилучшим средством для достижения этой цели служит описание геометрии видимых поверхностей, так как информация, закодированная в изображении (в частности, с помощью стереопсиса, штриховки, текстуры, контуров или наблюдаемого движения), определяется локальными свойствами поверхностей, образующих очертания (форму) объекта. Целью множества процедур обработки информации на нижнем уровне зрительной системы является получение именно этой информации.

Оказывается, однако, что подобное описание видимых поверхностей нельзя использовать при решении задач распознавания. Это является следствием ряда причин, но важнейшая, вероятно, состоит в том, что, подобно всем зрительным процессам нижнего уровня, данный решающим образом зависит от точки привязки описания. Последний шаг, таким образом, предусматривает преобразование описания поверхностей, ориентированного на наблюдателя, в представление, описывающее форму трехмерного объекта и его расположение в пространстве и не зависящее от направления наблюдения объекта. Это финальное описание привязано не к наблюдателю, а к объекту.

Итак, описанная нами в целом структура предусматривает разбиение процесса получения информации о форме по изображениям на три стадии, соответствующие используемым видам представления : 1) представление характеристик двухмерного изображения типа изменений значений яркости и локальных геометрических свойств; 2) представление характеристик видимых поверхностей в системе координат, начало которой совпадает с позицией наблюдателя (характеристики типа ориентации поверхности, расстояния от наблюдателя, скачкообразных изменений значений этих параметров, коэффициента отражения поверхности, а также приближенного описания основного освещения); 3) представление в системе координат объекта трехмерной структуры и организации (наблюдаемой формы) в сочетании с каким-либо описанием свойств поверхности объекта.

Краткое описание этой структуры представления дано в табл. 1.2.

---

Статья из книги: Зрение | Марр. Д.