Методология и концепция исcледования. Часть 1.

+ -
0
Методология и концепция исcледования. Часть 1.

Описание

Предпосылки и предыстория



Проблема зрительного восприятия уже в течение многих веков будоражит любознательность ученых. Одним из первых существенный вклад в ее решение внес Ньютон (1704 г.), заложивший основу для современных работ по цветовому зрению, а также Гельмгольц , трактат которого, посвященный физиологии зрения, вызывает интерес даже сегодня. В начале нашего столетия Вертхеймер обратил внимание на то, что при последовательном предъявлении изображений (как при показе фильма) наблюдается видимое движение не отдельных точек, а целостных структур, или ”полей”. Во многом подобным же образом мы воспринимаем стаю гусей, совершающих перелет: стая воспринимается как некое единое целое, в котором отдельные птицы не выделяются. Эксперимент Вертхеймера положил начало школе гештальтпсихологии, занимавшейся описанием свойств целостных структур в терминах типа целостность и своеобразие и пытавшейся сформулировать ’’законы”, определяющие возникновение таких целостных структур. По целому ряду причин эта попытка потерпела неудачу, и гештальтистская школа погрузилась во мглу субъективизма. Распад этой школы привел, к сожалению, к тому, что многие из ее оригинальных и неоспоримых открытий оказались вне поля зрения основного направления экспериментальной психологии.

С тех пор исследователи, занимавшиеся психологией восприятия, не предпринимали серьезных попыток выяснить, что представляет собой восприятие как таковое, а анализировали его свойства и операциональные характеристики. Была твердо установлена трехцветность зрения, и продолжалось увлечение изучением восприятия движения — в этой области наиболее интересные достижения, вероятно, связаны с экспериментами Майлса и Уоллака и О’Коннелла, показавшими, что при подходящих условиях форма незнакомого трехмерного объекта может быть правильно определена с помощью всего лишь изменяющейся монокулярной проекции.

Развитие электронно-вычислительной техники позволило получить аналогичные результаты для бинокулярного зрения. Б. Джулес в 1960 году получил с помощью вычислительной машины стереоскопические изображения случайных точек, представлявшие собой пары изображений, которые воспроизводили конфигурации точек и воспринимались как множества случайных точек при рассматривании одним глазом, но сливались при рассматривании одного из изображений пары одним глазом, а другого — другим, что обеспечивало восприятие форм и поверхностей явно трехмерного характера. Пример подобного стереоскопического изображения приведен на рис. 1.1.



Рис. 1.1. Стереоскопическое изображение случайных конфигураций точек типа тех, которые широко использовал в своих экспериментах Б. Джулес. Левое и правое изображения идентичны, за исключением того, что на одном из изображений центральная квадратная зона несколько смещена. При стереоскопическом совмещении создается впечатление, что центральный квадрат ’’плавает” по фону изображения


Здесь изображение, предназначенное для осмотра левым глазом, представляет собой матрицу, заполненную порожденными случайным образом черными и белыми квадратиками; для получения матрицы использовалась вычислительная машина. Изображение, предназначенное для осмотра правым глазом, формируется следующим образом: воспроизводится копия ’’левого” изображения, квадратная область, расположенная в его центре, сдвигается несколько влево, после чего порождается новая случайная конфигурация, заполняющая пустоту на изображении, возникшую в результате сдвига. Если каждый глаз видит лишь одну из матриц, как будто бы эти матрицы физически расположены в одном и том же месте, то в результате создается ощущение, что квадрат ’’плавает” по фону изображения. Очевидно, что эти эффекты восприятия вызваны исключительно стереоскопической диспаратностью, возникающей для соответственных элементов изображений, осматриваемых глазами по отдельности. Подобные эксперименты показывают, что анализ стереоскопической информации, подобно анализу движения, может осуществляться независимо от наличия иной информации. Эти результаты исключительно важны, поскольку дают возможность проводить исследование восприятия в более узких направлениях, которые могут изучаться независимо друг от друга. Ниже будем называть эти направления независимыми модулями восприятия.

Психофизика внесла в самое последнее время в изучение зрительного восприятия вклад, характеризующийся значительным числом разнообразных, но в равной мере существенных результатов. Этот вклад возник после объединения данных, полученных при изучении адаптивного и порогового обнаружения, причем его исходной точкой следует считать демонстрацию Кампбеллом и Робсоном существования пространственно-частотно-настраиваемых независимых каналов, т. е. каналов, чувствительных к изменениям яркости изображения, возникающих в определенных диапазонах уровней яркости или пространственных частот; такие каналы относятся к механизмам восприятия, действующим на начальных этапах обработки изображения. Эта работа породила подлинный взрыв публикаций, посвященных различным аспектам изучения подобных каналов; кульминация наступила десять лет спустя, в 1979 году, когда Уилсон и Берген опубликовали вполне удовлетворительное количественное описание характеристик начальных этапов процесса зрительного восприятия. Эта тема будет подробно изучена ниже.

Не так давно существенный интерес вызвал несколько иной подход. В 1971 году Р. Н. Шепард и Д. Мецлер обратились к изучению штриховых рисунков простых объектов, отличающихся друг от друга либо поворотом в трехмерном пространстве, либо поворотом в сочетании с отражением (рис. 1.2).



Рис. 1.2. Рисунки, аналогичные использовавшимся Шепардом и Мецлером в их экспериментальном исследовании процесса мысленного вращения: а — идентичные объекты (в этом легко убедиться, повернув страницу книги на 80° по часовой стрелке); б — также идентичные объекты (соответствующий угол поворота также составляет 80°, однако в данном случае совмещение первого объекта со вторым обеспечивается с помощью поворота по глубине в третьем измерении) ; в — не идентичные объекты (никакое вращение не дает возможности добиться их конгруэнтности)


Их интересовало, сколько времени необходимо для того, чтобы установить, отличаются ли два изображенных объекта друг от друга вследствие поворота, дополненного отражением, либо вследствие только поворота. Они обнаружили, что это время зависит от угла пространственного вращения, необходимого для приведения двух сравниваемых объектов в соответственное положение. Оказалось, что оно линейно зависит от угла пространственного вращения. В результате становится понятно, что мысленное вращение, которое имеет место в действительности (т. е. последовательная коррекция ориентации мысленного описания очертаний первого объекта пары, выполняемая вплоть до получения его соответствия со вторым), занимает тем больше времени, чем больше существующие углы.
[banner_centerrs] {banner_centerrs} [/banner_centerrs]

Значение описанного подхода состоит не столько в полученных в его рамках результатах, поскольку им дается противоречивая интерпретация, сколько в характере возникающих в связи с ним вопросов. Дело в том, что до его появления специалисты в области психологии зрения не относили проблему
представления к разряду серьезных
. Указанные эксперименты продемонстрировали, что этим необходимо заняться. И хотя первые идеи специалистов по психологии зрения казались наивными по сравнению с концепциями, господствовавшими в области машинного зрения, которая столкнулась с проблемой представления с самого начала, психологам потребовалось не так уж много времени, чтобы их взгляды на эту проблему стали более глубокими.

Как, однако, обстоят дела с научным объяснением? В течение многих лет казалось, что наибольшие надежды в этом отношении связаны с другим направлением исследований, а именно с электрофизиологией. Появление усилителей позволило Эйдрияну и его коллегам регистрировать незначительные изменения напряжения, соответствующие прохождению сигналов по нервам. Результаты их исследований показывают, что характер возникающих при этом ощущений зависит не от того, каким образом раздражалось нервное волокно, как можно было предполагать исходя из данных анатомических исследований, а от того, по какому именно нервному волокну передавался соответствующий сигнал. В этой связи возникла точка зрения, согласно которой периферические нервные волокна могут рассматриваться как некое средство непосредственного отображения, обеспечивающее сенсориум копией физических событий, зарегистрированных на поверхности тела. В остальном, как считалось, получение научного объяснения феномена восприятия можно было перепоручить психологам.

Дальнейшее развитие связано с техническими достижениями в области сигналов, которые сделали возможной регистрацию поведения отдельных нейронов. Это привело к введению понятия клеточного ’’рецептивного поля” и знаменитой серии исследований поведения нейронов, относящихся к последовательно углубляющимся уровням зрительного пути; эти исследования были выполнены в Гарварде. Самым выдающимся событием явилось, вероятно, возникновение новой концепции, состоявшей в том, что проблемы, занимающие психологов, можно изучать и даже получать искомые объяснения с помощью нейрофизиологических экспериментов. Одним из первых в наиболее чистом виде это продемонстрировал Барлоу при изучении ганглиозных клеток ретины лягушки, и мое изложение вряд ли будет лучше, чем у самого автора:

’’Если Вы изучаете реактивность отдельных ганглиозных клеток ретины лягушки, причем мишень (предъявляемый зрительный раздражитель) находится у Вас в руке, то оказывается, что ганглиозная клетка одного типа наиболее эффективно стимулируется раздражителем типа черного круга, располагаемого примерно в пределах соответствующего рецептивного поля либо быстро в нем перемещаемого вперед-назад. В результате возникает энергичный разряд, который может поддерживаться без существенного затухания до тех пор, пока продолжается перемещение мишени. Далее, если раздражитель, являющийся оптимальным для этого класса клеток, предъявляется интактным лягушкам, то наблюдается чрезвычайно бурная поведенческая реакция: они бросаются к мишени и многократно демонстрируют пищевую реакцию, заключающуюся в прыжках и хватательных движениях. Избирательность, присущая нейронам ретины, и реакция лягушки, наблюдаемая при их избирательном раздражении, дают основания считать их ’’устройствами обнаружения мелких насекомых”, реализующими примитивную, но жизненно важную разновидность распознавания.

Этот результат приводит Вас к неожиданному выводу: значительная часть сенсорного аппарата, связанного с пищевыми реакциями лягушки, может в действительности располагаться в ретине, а не в неких мифических ’’центрах”, которые было бы очень трудно изучать физиологическими методами. Каждый нейрон, относящийся к определенному классу, обладает защитным механизмом, допускающим разряд нервной клетки только при подаче ключа-раздражителя определенного типа. Леттвин с соавторами высказали предположение о наличии у лягушки пяти классов нервных клеток различных типов, а Барлоу, Хилл и Левик обнаружили у кролика еще большее число классов клеток. Они называли эти ключевые паттерны ’’пусковыми признаками”. Матурана с соавторами обратили внимание на другой важный аспект поведения этих ганглиозных клеток: клетка продолжает реагировать на один и тот же пусковой признак, несмотря на изменения яркости света в десятки раз. Свойства ретины таковы, что, образно говоря, ганглиозная клетка может ’’высовываться” и определять, не происходит ли перед глазом нечто специфическое. Свет - это средство, с помощью которого она это делает, но информацию передает вполне определенный световой образ, причем общий уровень яркости, имеющий в этот момент место, практически полностью ’’игнорируется”.


Далее Барлоу продолжает резюмировать эти результаты следующим образом:

’’Кумулятивное действие всех тех новых данных, которые я пытался изложить выше, состоит в том, что необходимо осознать следующее: каждый нейрон в отдельности способен выполнять много более сложные и тонкие функции, чем это предполагалось раньше (курсив Барлоу). Функции нейронов вовсе не сводятся к непосредственному и Недостоверному переносу интенсивностей свечения воспринимаемого изображения в наш сенсориум - они выявляют элементы образа, определяют глубину объектов, не реагируют на несущественные причины изменений и поддерживают между собой чрезвычайно сложные иерархические отношения. Более того, имеются данные, показывающие, что с точки зрения информативности нейроны выделяют существенное, отличаются высокой надежностью реагирования и допускают постоянную корректировку характеристики их избирательности исходя из накапливаемого опыта зрительного восприятия. Все это равносильно подлинной революции в наших взглядах. Теперь уже совершенно неуместно рассматривать функционирование нейрона как некое искаженное шумом отражение более существенных и надежных процессов, связанных с мыслительной деятельностью. Наоборот, отдельные нейроны следует рассматривать в качестве первичных двигателей механизмов мышления. Мышление есть результат функционирования нейронов, и мы не должны больше допускать высказываний типа ’’функционирование нейрона отражает, раскрывает или контролирует процессы мышления”, поскольку деятельность нейронов - это, в сущности, и есть процесс мышления”.

Источником этой революции являются физиологические исследования, и она заставляет нас осознать, что функционирование каждого нейрона в отдельности может играть существенную роль в восприятии”.

Эта позиция позволила Барлоу сформулировать первый и наиболее важный из пяти его постулатов: ’’Описание подобной деятельности отдельной нервной клетки, результаты которой поступают в другие нервные клетки и влияют на них, а также ответа нервной клетки на воздействия, оказываемые на нее другими нервными клетками, обладает достаточной полнотой для функционального понимания нервной системы. Не существует больше ничего, что ’’следило бы” за этой деятельностью или управляло ею. Она, следовательно, и должна составлять основу понимания того, каким образом мозг управляет поведением”.

Ниже мы еще вернемся к более тщательному рассмотрению справедливости этого утверждения, пока же позволим себе просто восхищаться им, поскольку кардинальность и конструктивность идей, лежащих в его основе, говорят сами за себя. В то время казалось вполне правдоподобным, что в конечном счете редукционистский подход восторжествует. Начало было положено результатами исследований Хьюбела и Уисела; изучение связи деятельности отдельных нейронов со стереопсисом и с цветовым зрением, очевидно, подтверждает существование тесных связей между восприятием и регистрограммами активности одиночных нервных клеток, а удивительные результаты Гросса, Рочи-Миранды и Бендера, обнаруживших в нижневисочной коре ’’детекторы положения”, по-видимому, показывают, что применимость редукционистского подхода не ограничена исключительно начальными частями зрительного пути.

Вполне понятно, что физиологам повезло: если Вы попробуете зондировать обычную электронную вычислительную машину и будете регистрировать характеристики функционирования ее отдельных элементов, то навряд ли Вы сможете установить, какие функции выполняет соответствующий элемент. Мозг, однако, согласно первому постулату Барлоу, очевидно, устроен ’’удобнее” - человек может установить функции отдельных элементов мозга. Казалось бы, нет причин, препятствующих всеобъемлющему применению редукционистского подхода.

Я сам был воодушевлен этим. Истина, как я также был убежден, принципиально связана с нервным уровнем, и основной целью исследований является проведение досконального анализа функций структуры центральной нервной системы. Мой энтузиазм материализовался в теорию коры мозжечка. Согласно последней простую и регулярную корковую структуру следует рассматривать в качестве простого, но емкого запоминающего устройства, предназначенного для формирования двигательных навыков посредством научения. В соответствии с простым комбинаторным правилом каждая из 15 миллионов клеток Пуркинье, имеющихся в мозжечке, способна обучиться узнаванию 200 различных образов, а также отличать их от образов, не входящих в число изученных. Постепенно появляются данные, подтверждающие, что мозжечок действительно участвует в научении двигательным навыкам, так что некое подобие моей теории может и в самом деле оказаться справедливым.

Путь исследования представлялся совершенно очевидным. С одной стороны, мы располагали новыми экспериментальными методами, мощь которых была продемонстрирована, с другой же стороны, имелись и теоретические основы, позволившие подкрепить экспериментальные данные тонким анализом корковой структуры. На то, что именно требует научного объяснения, могла указать психофизика, а недавние успехи в облаете анатомии (метод Финка - Хаймера, разработанный в лаборатории Науты, а также последние достижения Сентаготаи и других исследователей в области электронной микроскопии) могла позволить получить необходимую информацию о структуре коры головного мозга.

Несмотря на внешнее благополучие, чувствовалось, однако, что дела обстоят совсем неблестяще. За первыми открытиями 1950-х и 1960-х годов не последовали столь же крупные открытия в 1970-х годах. Ни одному нейрофизиологу не удалось зарегистрировать ни одного нового или явно относящегося к внешнему уровню коррелята восприятия. Лидеры исследований 1960-х годов перестали заниматься этой тематикой — Хьюбел и Уисел обратились к анатомии, Барлоу — к психофизике. Основные усилия нейрофизиологии сосредоточились на изучении развития и пластичности (значение этого понятия применительно к деятельности нервной системы пока не установлено), а также на более тщательном анализе деятельности уже известных нервных клеток и нервных клеток, встречающихся у отдельных видов живых существ, в частности у сов. Ни одно из предпринятых исследований не преуспело в объяснении функции зрительной коры.

Трудно определенно сказать, почему так случилось, поскольку мотивация никогда не обнародовалась и имела, вероятно, главным образом подсознательный характер. Ряд факторов, однако, можно выделить. Что касается меня, то изучение мозжечка привело к двоякому результату. С одной стороны, оно дало мне основания считать, что можно рассчитывать в конечном счете на понимание корковой структуры в терминах функции, и это воодушевляло. В то же время это исследование разочаровало меня, так как если моя теория даже и была правильной, она тем не менее мало что давала для понимания двигательной системы — например не указывала, каким образом следует программировать механическую руку. Из теории следовало, что при программировании механической руки, обладающей достаточной универсальностью, на определенном этапе неизбежным окажется использование чрезвычайно большой и довольно просто устроенной памяти. Теория, однако, не указывает, ни почему это так, ни что именно должно в этой памяти содержаться.

Открытия нейрофизиологов, занимавшихся зрением, ставят Вас в аналогичное положение. Допустим, например, что на самом деле кому-то удалось обнаружить мифическую ’’нервную клетку для бабушки”. Даст ли нам такое открытие что-нибудь действительно существенное? Мы будем знать, что такая клетка существует (гроссовские детекторы руки значат для нас практически именно это), но не будем знать, зачем или хотя бы каким образом подобный феномен может быть синтезирован из выходных сигналов уже известных нервных клеток. Много ли говорят нам регистрограммы активности отдельных нервных клеток (простых и сложных) о том, как обнаруживаются яркостные переходы или почему их нужно обнаруживать, за исключением довольно общих рассуждений, проводимых на основании доводов, которые связаны с экономичностью? Если бы нам действительно стали известны ответы на эти вопросы, можно, скажем, было бы воплотить их в программу вычислительной машины. Обнаружение детектора руки, однако, явно не дает возможности написать программу, реализующую такой детектор.

Попытка осмыслить эти проблемы, возникшие в начале 1970-х годов, приводит постепенно к выводу, что упущено нечто важное, причем ни нейрофизиология, ни психофизика не в состоянии восполнить этот пробел. Ключевым здесь служит то обстоятельство, что предметом нейрофизиологии и психофизики является описание поведения нервных клеток и людей соответственно, но вовсе не объяснение этого поведения. Каковы на самом деле функции зрительных зон коры головного мозга? Какие проблемы, возникающие в связи с этими функциями, требуют решения и на каких уровнях описания следует искать соответствующие научные объяснения?

Наилучший способ преодолеть трудности при достижении какой-либо цели — это постараться достичь ее. Поэтому, осознав ситуацию, я перешел в Лабораторию искусственного интеллекта Массачусетсского технологического института, где М. Минский собрал группу исследователей и предоставил в х распоряжение мощную вычислительную машину; это предприятие преследовало вполне определенную цель - разобраться в возникших проблемах.

Первое крупное открытие состояло в том, что поставленные задачи сложны. Естественно, сегодня это общеизвестный факт. В 1960-х годах, однако, почти никто не осознавал трудности задач машинного зрения. Этой области суждено было повторить опыт, приобретенный направлением машинного перевода в результате провалов, которые оно претерпело в 1950-х годах, прежде чем, наконец, стало очевидно, что в машинном зрении возникает ряд проблем, требующих серьезного изучения. Это объясняется тем, что человек располагает прекрасной зрительной системой. Понятие детектора признаков было прекрасно сформулировано Барлоу и Хьюбелом и Уиселом, и мысль о том, что выделение на изображении яркостных переходов и линий может вообще вызывать хоть какие-либо трудности, просто не посещала тех, кто не пробовал это делать. Оказалось, что это сложная задача. Яркостные переходы имеющие решающее значение в трехмерном случае, часто просто не могут быть обнаружены на основе изучения изменений яркости в пределах изображения. Любое текстурное изображение содержит множество отрезков яркостных переходов, искаженных шумом; изменения коэффициента отражения и освещения вызывают бесконечные проблемы; даже если в какой-то точке яркостный переход надежно обнаружен, то очень скоро с равной вероятностью может как начаться, так и не начаться его затухание и проявляться он будет на отдельных участках изображения. У первых исследователей, работавших в области машинного зрения, например Б. К. П. Хорна и Т. О. Бинфорда возникло общее и чуть ли не безнадежное ощущение, что с изображением может происходить практически все, что угодно, и более того, практически все, что угодно, и происходит.

Серьезные попытки справиться с этими трудностями были сделаны с помощью трех известных подходов. Первый из них, отличающийся чисто эмпирическим характером, связан главным образом с именем Розенфелда. Он состоял в том, что выбирался какой-либо новый прием обнаружения яркостного перехода, разделения текстур или что-нибудь в том же роде, затем этот прием опробовался на изображениях, а полученный результат изучался. Хотя этот подход дал ряд интересных идей, в том числе одновременное использование операторов разного размера в качестве средства увеличения чувствительности и уменьшения шума, эти идеи оказались не столь продуктивными, какими могли бы быть, поскольку в их рамках никогда не предпринимались серьезные попытки оценить качество работы различных алгоритмов. Мало было сделано и попыток сравнить достоинства различных операторов, причем для исследования оптимальности применяемых операторов не использовались даже математические методы. В действительности таких попыток и не могло быть, поскольку никто еще точно не сформулировал, что эти операторы должны делать. Большая изобретательность тем не менее была продемонстрирована. Наиболее разумным, вероятно, был оператор Хьюкела, который обеспечил остроумное решение задачи ориентации яркостного перехода, наилучшим образом соответствующего некоторому известному изменению яркости в некоторой малой окрестности обрабатываемого изображения.

Второй подход предусматривал проведение более глубокого анализа за счет введения ограничений на характер рассматриваемых изображений — допустимыми объектами анализа считались лишь сцены, относящиеся к так называемому ’’миру” отдельных освещенных матовых белых игрушечных курков, расположенных на черном фоне. Кубики в таком мире могут иметь произвольную форму при условии, что все грани у них плоские и все ребра прямые. Эти ограничения дают возможность пользоваться более специализированными методами, но сама задача тем не менее не упрощается. Для обнаружения яркостных переходов использовалась система выделения линий Бинфорда — Хорна, а в специальных случаях, например когда все яркостные переходы являлись прямыми линиями, применялась как эта система, так и ее усовершенствованный вариант.

Эти методы, однако, позволяли получать вполне удовлетворительные результаты и давали возможность проводить предварительный анализ задач, возникающих на последующих этапах обработки. В самом общем виде они сводятся к следующей проблеме: что необходимо делать после того, как закончено построение штрихового рисунка, полностью представляющего обрабатываемую сцену? Изучение этой проблемы было начато в свое время Робертсом и Гасманом и достигло кульминации в работах Уолца и Макуэрта , в которых была практически решена задача интерпретации штриховых рисунков, построенных по изображениям призматических тел. Особенно заметное влияние на дальнейшее развитие оказала работа Уолца, поскольку в ней впервые в явном виде было показано, что полный перебор всех допустимых физических локальных вариантов взаимного расположения поверхностей, ребер и затененных областей может привести к синтезу беспереборного и вычислительно эффективного алгоритма интерпретации реального изображения. Рис. 1.3



Рис. 1.3. Некоторые конфигурации границ: физически реализуемые трехгранные стыки, образованные тремя выпуклыми яркостными переходами (а), тремя вогнутыми яркостными переходами (б) и нереализуемая конфигурация (в). Уолц составил каталог всех допустимых стыков (с учетом теневых яркостных переходов), вплоть до четырех совпадающих яркостных переходов. Он обнаружил, что при использовании этого каталога для задания отношений непротиворечивости (предусматривающих, например, что яркостный переход должен иметь один и тот же тип по всей своей длине, подобно яркостному переходу Е (г) результат разметки рисунка, учитывающею тени, часто оказывается однозначно определенным


и подпись под ним воспроизводят основные идеи теории Уолца.

Естественно, эта работа давала надежду на то, что после разрешения проблемы для мира игрушечных белых кубиков полученные результаты удастся обобщить, что и составит основу для анализа более сложных задач, возникающих в среде, более богатой в зрительном отношении. К сожалению, оказалось, что это не так. Для уяснения подхода, который в конечном счете был успешным, следует обратиться к третьему направлению исследований, производившихся в те годы.

В этом отношении интересны две группы работ. Ни одна из них, возможно, не внесла существенного вклада в изучение зрительного восприятия человека, поскольку полученные реальные результаты, вероятно, не отражают специфики процессов зрительного восприятия человека; важны же эти две группы работ из-за их формулировки. Началом послужила работа Ланда и Макканна, посвященная ретинексной теории цветового зрения, развитой ими, а затем Хорном. Отправная точка теории была вполне традиционной: цвет рассматривался как перцептивная аппроксимация отражательной способности. Она позволяла сформулировать вопрос чисто алгоритмического характера, а именно: каким образом можно отличить последствия изменений отражательной способности от колебаний освещения? Ланд и Макканн предложили воспользоваться тем обстоятельством, что освещение обычно изменяется плавно, в то время как отражательная способность поверхности или границы объекта часто изменяется довольно резко. Следовательно, с помощью фильтрации медленных изменений можно выделять изменения, порожденные исключительно отражательной способностью. Хорн предложил остроумный параллельный алгоритм для реализации этой процедуры, а я высказал предположение о том, каким образом эта продукция могла бы выполняться нейронами сетчатки глаза.

Сейчас я не считаю, что этот анализ цветового зрения и работы сетчатки вообще хоть сколько-нибудь достоверен, однако он дает пример возможного стиля корректного анализа. Канули в лету программы, предназначенные для решения частных конкретных задач машинного зрения; канула в лету работа в ограниченных зрительных средах — мини-мирах; канули в лету все объяснения, сформулированные на языке нейронных понятий, за исключением указывающих способ реализации метода. Настоящее связано с получением отчетливого представления о том, что именно должно осуществляться в процессе обработки информации, каким образом, каковы физические предпосылки, лежащие в основе метода, а также представления о некоторых свойствах алгоритмов, обеспечивающих искомую обработку информации.

Другое направление работ связано с выполненным Хорном анализом возможностей определения формы объекта по данным затенения (заштриховки) поверхностей; эта работа положила начало известной серии статей, посвященных формированию изображений. Тщательно проанализировав, каким образом яркость, измеряемая на изображении, порождается в результате взаимодействия таких факторов, как освещение, геометрические свойства поверхности, коэффициент отражения поверхности и позиция наблюдателя, Хорн предложил дифференциальное уравнение, связывающее яркость изображения с геометрическими характеристиками поверхности. Если значения коэффициента отражения поверхности и освещения известны, то это уравнение позволяет определять геометрические свойства поверхности. Таким образом, данные о затенении поверхностей позволяют установить форму объекта.

Значение этих работ очевидно. Должен был существовать еще один уровень объяснения, на котором характер задач обработки информации, возникающих в процессе восприятия, можно было бы анализировать и представлять независимо от конкретных механизмов и структур, обеспечивающих реализацию процессов зрительного восприятия у человека. Именно в этом и состоял пробел — отсутствовал анализ проблемы как задачи обработки информации. Подобный анализ не посягает на объяснения, относящиеся к другим уровням — нейронному или уровню программы для вычислительных машин, — но он является необходимым дополнением, поскольку без него невозможно прийти к истинному пониманию функции всех этих нейронов.

К этому выводу независимо друг от друга пришли, а затем совместно его сформулировали Т. Поджо и я. Это не было совершенно новым — приблизительно в то же время Л. Д. Хармон говорил нечто подобное, да и другие исследователи лицемерно призывали к такому разграничению. Важным, однако, является то обстоятельство, что при серьезном отношении к концепции многоуровнего понимания процессов зрительного восприятия исследование информационной основы зрительного восприятия может стать строгим. Появляется возможность, разграничивая научные объяснения, относящиеся к разным уровням, совершенно определенно указывать, какая именно обработка информации производится и зачем, и формулировать теоретические положения, подтверждающие оптимальность (в некотором смысле) выполняемой обработки либо гарантирующие правильность ее проведения. Устраняется привязка к частным задачам, а эвристические машинные программы уступают место надежному теоретическому фундаменту, на котором может быть выстроена настоящая теоретическая дисциплина. Осознать все это — значит определить, что именно было упущено, ясно представив, каким образом следует заполнить образовавшийся пробел, а значит дать основу для нового комплексного подхода, изложение которого и составляет цель нашей книги.

О понимании сложных систем обработки информации



Любую сложную систему почти никогда невозможно понять, опираясь исключительно на экстраполяцию свойств ее элементарных компонентов. Описание термодинамических явлений (характеристик температуры, давления, плотности и соотношений между ними) нельзя получить с помощью некоторой большой системы уравнений, каждое из которых относилось бы лишь к какой-нибудь одной из частей, образующих систему. Описания подобных явлений даются на соответствующем уровне, т. е. на уровне, представляющем огромную совокупность элементов в целом; при этом необходимо показать, что описания, относящиеся к микроуровню и макроуровню соответственно, совместны. Если Вы хотите добиться полного понимания системы, столь сложной, как нервная система, развивающийся эмбрион, совокупность путей метаболизма, бутыль, наполненная газом, или даже большая программа вычислительной машины, то Вам следует быть готовым к рассмотрению различных научных объяснений на различных уровнях описания, связанных по крайней мере в единое целое, причем невзирая на практическую бессмысленность прослеживания связей между уровнями во всех подробностях. В случае систем, решающих задачи обработки информации, кроме того, возникают две тесно переплетающиеся проблемы (процесс и представление), и обе они требуют определенного обсуждения.

Представление и описание



Представлением называется некоторая формальная система, предназначенная для получения в явном виде определенных объектов или видов информации и снабженная инструкцией, указывающей, каким образом система это делает. Мы будем называть результат использования некоторого представления для получения описания некоторого заданного объекта описанием объекта в данном представлении.

Так, например, арабская, римская и двоичная системы счисления являются формальными системами, предназначенными для представления чисел. Представление арабского числа задается некоторой цепочкой символов, выбираемых из множества (0, 1, 2, 3, 4, 5, 6, 7, 8, 9), а правило построения описания некоторого конкретного целого числа п заключается в том, что это число разбивается на сумму чисел, кратных степеням числа 10, и значения кратностей записываются в виде цепочки, в которой слева располагается значение кратности наибольшей степени 10, а справа - наименьшей. Так, число тридцато семь равно 3*101 + 7*10°, что выражается записью ”37”, представляющей описание этого числа в арабской системе счисления. Это описание характеризует разбиение числа на степени числа 10. Число тридцать семь в двоичной системе счисления имеет вид 100101 Такое описание характеризует разбиение представляемого числа на степени числа 2. В римской системе счисления число тридцать семь имеет вид XXXVII.

Это определение представления является весьма общим. Некоторое представление формы, скажем, будет задаваться некоторой формальной схемой описания отдельных характеристик формы в сочетании с правилами, определяющими порядок применения этой схемы к объекту конкретной формы Так, партитура обеспечивает возможность представления симфонии, алфавит дает возможность конструировать письменные представления слов и т. д. Выражение ’’формальная схема” является решающим в нашем определении, однако это не должно пугать читателя. Дело всего лишь в том, что предметом нашего рассмотрения служат машины для обработки информации, а принцип действия этих машин заключается в использовании символов для обозначения объектов (на нашем языке — представления объектов). Назвать нечто формальной схемой — значит сказать лишь, что это — некоторый набор символов и правил их комбинирования, не больше и не меньше.

Представление поэтому не является некоторой абсолютно незнакомой концепцией — все мы постоянно пользуемся представлениями. Тем не менее сама мысль о том, что можно выделить какой-либо аспект реального мира, построив его описание с помощью символа, и что это может оказаться полезным, кажется мне привлекательной и очень конструктивной. В то же время, однако, даже простые примеры, рассмотренные нами, порождают важные проблемы довольно общего характера, которые возникают, как только Вы обращаетесь к какому-нибудь конкретному представлению. Так, например, при выборе представления в арабской системе счисления нетрудно установить, является ли некоторое число некоторой степенью числа 10, но трудно установить, является ли оно некоторой степенью числа 2. При выборе представления в двоичной системе возникает обратная ситуация. Таким образом, имеется возможность выбора: любое конкретное представление ’’обнажает” некоторую часть информации за счет другой части информации, отодвигаемой на задний план, причем доступ к последней может стать весьма затруднительным.

Это важный момент, поскольку способ представления информации может существенно повлиять на уровень сложности различных процедур ее обработки, что очевидно даже из рассмотренного выше примера с представлением чисел. При использовании арабских чисел и чисел, представленных в двоичной системе счисления, легко выполняются операции сложения, вычитания и даже умножения, но совсем непросто выполнять их (особенно операцию умножения) при использовании римской системы счисления. Это главная причина того, почему римская культура не смогла развить математику так, как это сделали ранние арабские культуры.

С аналогичной проблемой в наши дни сталкиваются разработчики вычислительной техники. Электронная техника значительно лучше приспособлена для реализации двоичной системы счисления, чем для привычной системы счисления с основанием 10, хотя люди задают исходные данные, представленные по основанию 10, и предпочитают получать результаты в таком же виде. Дилемма, возникающая перед разработчиком, сводится, таким образом, к следующему: стоит ли идти на затраты, связанные с преобразованием чисел в двоичную систему, выполнять арифметические операции над числами в двоичном представлении и затем осуществлять преобразование снова в десятичную систему, либо следует пожертвовать эффективностью схемных решений для того, чтобы выполнять арифметические операции непосредственно с десятичными числами? В целом в вычислительных машинах, предназначенных для решения коммерческих задач, и в карманных калькуляторах используется второй подход, а в универсальных вычислительных машинах — первый. Хотя, вообще говоря, не обязательно использовать для некоторого заданного вида информации только одну систему представления, выбор последней - важное решение, которое не терпит легкомыслия. Она определяет, какая именно часть информации будет представляться в явном виде и что, следовательно, окажется отодвинутым на задний план. Кроме того, это решение оказывает глубокое воздействие на то, сколь легко или трудно будет впоследствии обработать эту информацию.

Продолжение в следующей статье: Методология и концепция исcледования. Часть 2.

---

Статья из книги: Зрение | Марр. Д.

Похожие новости

Добавить комментарий

Автору будет очень приятно узнать обратную связь о своей новости.

Комментариев 0