Обоснование правильности информационного подхода к проблеме зрения ? Часть 1

+ -
0
Обоснование правильности информационного подхода к проблеме зрения ? Часть 1

Введение



В первой и второй частях этой книги я предпринял попытку изложить достаточно подробно подход к изучению зрительного восприятия, заключающийся в том, что оно рассматривается главным образом как задача обработки информации. Я старался в процессе изложения отвечать на наиболее часто возникающие вопросы, однако опыт, приобретенный мной в попытках разъяснения сути этого подхода в процессе чтения лекций и дискуссий, заставляет предполагать, что у читателя еще могут быть сомнения и вопросы, оставшиеся без ответа, хотя они и могут сводиться к самым простым замечаниям типа того, что вся схема выглядит слишком искусственной или — на противоположном полюсе мнений — маловыразительна.

Если бы мы, однако, останавливались на всех возможных возражениях, то это в слишком сильной степени нарушило бы наше изложение. Поэтому я счел за благо вынести ответы на такие возражения в отдельный раздел, построив его в виде дискуссии сторонника информационного подхода с человеком, относящимся к нему скептически. Ее основу составляют беседы, в которых участвовали Франсис Крик, Томазо Поджо и я, но эта сконструированная дискуссия отнюдь не следует им буквально, а мой воображаемый оппонент объединяет в себе черты целого ряда реальных людей. Наша дискуссия структурирована в не очень значительной степени и охватывает множество проблем, но, по-видимому, это неизбежно.

Дискуссия



Не начать ли нам с идеи уровней объяснения, поскольку Вы придаете ей столь большое значение?Каким образом она связана с представлениями о детекторах признаков, в частности с первым постулатом Хораса Барлоу, гласящим: ”Описание деятельности отдельной нервной клетки, результаты которой передаются в другие нервные клетки и влияют на их деятельность, а также ответ нервной клетки на воздействия, оказываемые на нее активностью других нервных клеток, обладают полнотой, достаточной для функционально понимания нервной системы”?

Я не могу, естественно, согласиться с этой формулировкой Барлоу, хотя полностью разделяю одно из положений, лежащих в ее основе, а именно что единственный феномен, поддающийся наблюдению, — это деятельность нервных клеток, поскольку именно они являются первичными коррелятами восприятия. Этот постулат Барлоу, однако, не в состоянии охватить анализ на первом уровне — на уровне информационной теории. Невозможно понять стереопсис, рассматривая исключительно нейроны. Необходимо при этом принимать во внимание единственность, непрерывность и основную теорему стереопсиса. Невозможно понять процесс восстановления структуры по движению, не зная результата типа теоремы о восстановлении структуры по движению, показывающего, почему такое явление возможно. Кроме того, уровневый подход вводит усилия исследователя в рамки строгой интеллектуальной дисциплины, а это обстоятельство чрезвычайно важно для исследователя. До тех пор пока Вы оперируете категориями механизмов или нейронов, Ваш анализ чреват сравнительной неточностью.

Вспомним о морали, которую мы вынесли из анализа схем нижнего уровня стереопсиса! Ни в одной из них информационная задача не была точно поставлена на высшем уровне, и почти все предложенные схемы на самом деле предусматривали выполнение совсем не той обработки информации, какая была нужна. Другим примером служит концепция сегментации, обеспечивающая разбиение изображения на отдельные области и выделение на нем объектов. На эту концепцию была затрачена масса времени, что привело в конечном счете к созданию множества частных релаксационных методов и методов, основанных на выдвижении и проверке гипотез, которые были предназначены для сращивания отдельных областей изображения в ’’осмысленные” области. И в данном случае проблема состоит в том, что эйфория, связанная с механизмами, предназначенными для выполнения каких-либо конкретный функций, оказывается столь сильной, что специалисты начинают ошибочно полагать, что они понимают эти механизмы в степени, достаточной для разработки их аппаратной реализации, точно так же, как это имело место в более простом случае стереопсиса. Реальный же прогресс был возможен лишь при обращении к первому уровню, т. е. к построению 2,5-мерного эскиза и связанных с ним средств, а также при условии точной постановки соответствующих задач.

Достаточно ли определенно я выразил свою мысль? Концепция уровней имеет решающее значение: не обращаясь к ней, невозможно понять восприятие — это просто недостижимо на пути мышления в категориях синаптических пузырьков, нейронов и аксонов, точно так же, как невозможно понять полет, изучая исключительно оперение. Контекст, обеспечивающий правильное понимание роли оперения, задается аэродинамикой. Еще один ключевой момент состоит в том, что объяснение всякого явления следует искать на соответствующем уровне. Бессмысленно, например, пытаться достичь понимания быстрого преобразования Фурье, реализуемого на ЭВМ IBM 370, на языке транзисторов. Это просто не имеет смысла, поскольку было бы чрезвычайно трудно.

Возьмем, например, сетчатку. Я утверждаю, что с информационной точки зрения она воспроизводит (по Х — каналам) величину ?2G*I и (по Y-каналам) ее производную по времени ?/?t(?2G*I). С информационной точки зрения — это точное описание того, что делает сетчатка. Естественно, ей свойственно множество других функций: она преобразует свет, способна работать в колоссальном динамическом диапазоне, ее центральная ямка обладает очень интересными свойствами, она может перемещаться и т. д. Что именно Вы будете считать разумным описанием функций сетчатки, зависит от той точки зрения, которой Вы придерживаетесь. Лично я адекватным описанием считаю процедуру ?2 G, но я занимаю откровенно информационную позицию. Физиолог, специализирующийся на изучении сетчатки, не согласился бы с этим, поскольку хотел бы точно знать, каким образом сетчатка ’’вычисляет” эту величину. Специалист же по хеморецепции едва ли согласился бы с тем, что анализ такого рода вообще имеет какое бы то ни было отношение к сетчатке! Каждая из точек зрения соответствует определенному уровню объяснения, и для каждой из них в конечном счете должно быть найдено свое место.

Хорошо, я понимаю Вас. Вы просто утверждаете, что первостепенную важность с информационной точки зрения представляет то, что делается и зачем оно делается - именно это и составляет Ваш высший уровень. Подробности реализации соответствующих процессов не столь уж важны с этой точки зрения при том условии, что с помощью этих процессов делается именно то, что требуется.

Я бы хотел выразить эту мысль еще категоричнее. На рис. 7.1





Рис. 7.1. Математические выражение, описывающее предварительную фильтрацию изображения (а). Поперечное сечение сетчатки, одна из функций которой — реализация выражения а), б). Принципиальная схема кремниевого кристалла интегральной микросхемы, обеспечивающей выполнение процедуры а) со скоростью, соответствующей частоте телевизионных кадров (в). ?2 — оператор Лапласа; G — гауссиан; I (х, у) — изображение; * — символ операции свертки


приведены три описания, в сущности, одного и того же процесса. В верхней части рисунка помещено математическое описание, с которым мы очень хорошо знакомы: ?2 G * I. На рис. 7.1, б изображен участок сетчатки, реализующий, как мы считаем, именно эту процедуру (по крайней мере, частично). И наконец, на рис. 7.1, в представлен кремниевый кристалл интегральной микросхемы, изготовленной по технологии приборов с зарядовой связью сотрудником научно-исследовательских лабораторий фирмы Hughes Г. Наддом и предназначенной для выполнения процедуры свертки ?2G. Итак, по существу, все три объекта — формула, сетчатка и микросхема — оказываются идентичными на самом общем уровне описания их функций.

Независимы ли на самом деле различные уровни объяснения?

В сущности, нет, хотя информационная теория некоторого процесса довольно независима от алгоритмического уровня и уровня реализации, поскольку она определяется исключительно подлежащей решению задачей обработки информации. Соответствующий алгоритм, естественно, в очень значительной степени зависит от информационной теории, но он зависит также и от характеристик тех ’’аппаратных” средств, с помощью которых он должен быть реализован. Так, например, возможно, что биологические механизмы лучше приспособлены для реализации параллельных, а не последовательных алгоритмов, в то время как, очевидно, прямо противоположное можно сказать о средствах современной цифровой электроники.

Право, я не могу согласиться с тем, что информационная теория столь независима от других уровней. Точнее, я не могу вообразить, чтобы оказались возможными две совершенно различные теории некоторого процесса. Теория 1 может существенно превосходить теорию 2, представляющую собой, возможно, всего лишь одну из точек зрения, причем слабо обоснованную, однако может оказаться, что нейронные сети не обеспечивают простой реализации теории 1, но прекрасно воспроизводят теорию 2. В результате тщательная проработка теории 1 oказалась бы напрасной тратой сил.

Конечно, вполне возможно, что дело будет обстоять именно таким образом (мне кажется, что именно с таким случаем мы встречаемся в задаче определения формы объекта по данным о затенении). Меня вовсе не удивило бы, если бы оказалось, что решение интегральных уравнений Хорна при определении формы объекта по данным о затенении с помощью нейронных сетей вызывает неоправданные осложнения, в то время как эти же уравнения для простых случаев поддаются решению на вычислительной машине. Человек лишь в очень ограниченной степени способен восстанавливать форму объектов по данным о затенении; соответствующие модели часто строятся на основе упрощенных допущений, которые часто нарушаются (случай вышеупомянутой теории 2). Тем не менее я не уверен в том, что усилия, затраченные на углубленное исследование, подобное выполненному Хорном, напрасны, даже в данных обстоятельствах. Хотя они и не дают непосредственной информации относительно стратегий восстановления формы объектов по данным о затенении, используемым человеком, такие исследования могут служить источником информации, необходимой в качестве основы для построения рутинных рабочих моделей, используемых нами

Что Вы могли бы сказать относительно известных идей, связанных с детекторами признаков7 Насколько они согласуются с Вашим подходом?

В историческом плане, я полагаю, понятие признака (я вовсе не хотел бы здесь заниматься его точным определением) сыграло важную роль в отходе наших представлений от концепции полного действия Лешли (согласно которой мозг является некоторой разновидностью мыслящей овсяной каши, причем единственным решающим фактором является количество этой каши, участвующей в работе в соответствующий момент времени) и в переходе на значительно более конкретные позиции, связанные с деятельностью отдельных нейронов (таких позиций мы и придерживаемся в настоящее время). Эта смена представлений произошла благодаря работам Барлоу, Каффлера, Леттвина с соавторами и, естественно, Хьюбела и Уисела. В сущности, их результаты в конечном счете привели к возникновению представления, согласно которому одной из функций, выполняемых отдельными нервными клетками, является воспроизведение в явном виде сообщения о том, что на входе имеется некоторая конкретная и очень специфическая конфигурация — излагалось же это представление в категориях признаков.

В связи с основным вопросом в каких случаях наличие специфической конфигурации на изображении означает, что некоторая специфическая конфигурация реально существует во внешней среде? — возникает, однако, ряд чрезвычайно занимательных проблем. Первая из них связана с тем, каким образом описания внешней среды возникают в действительности. Так, например, лягушка фактически пытается обнаружить не муху — она отыскивает маленькие движущиеся черные пятнышки подходящего размера Аналогичным образом комнатная муха на самом деле не получает представление наблюдаемого мира, в котором она находится. Она просто вычисляет значения двух параметров (?, ?'), которые вводятся в быстродействующее устройство, порождающее момент вращения, в результате при преследовании самки муха достаточно часто завершает этот процесс успешно. С другой стороны, совершенно очевидно, что человек действительно в явном виде определяет характеристики реальных наблюдаемых им поверхностей Интересно, что одной из особенностей эволюции зрительных систем является постепенный переход к решению трудной задачи представления все более существенных аспектов наблюдаемого мира Вознаграждением служит рост пластичности зрительной системы, который достигается за счет роста сложности анализа и, следовательно, роста затрат времени и размеров мозга, необходимых для его осуществления.

Ограничивается ли, однако, этим то, что можно сказать об идеях, связанных с признаками ?

Нет, не ограничивается. Существует интересный круг проблем, которые в определенной мере побуждают нас вновь обратиться к работам философов, изучавших восприятие, используя категории ’’сенсорных атомов”, объединяющихся в более крупные ’’молекулы” сенсорного опыта, которые и представляют собой те объекты, которые мы в состоянии распознавать. Вероятно, можно было бы выявить некую традицию попыток изучения распознавания, основанного на использовании признаков. Их отправной точкой можно считать идеи Барлоу, затем появился метод многомерного шкалирования Краскала, Далее следует отметить прекрасную монографию Джардина и Сибсона, посвященную кластер-анализу, мои ранние работы по новой коре и огромное число работ, посвященных теории статистических решений.

В чем же состояла главная идея?

В ее основе лежала надежда на то, что процесс распознавания может осуществляться следующим образом: Вы смотрите на изображение, выделяете на нем признаки и используете найденные признаки для классификации и, следовательно, распознавания того, что Вы наблюдаете. В основе такого подхода лежит некоторое допущение, сводящееся, в сущности, к тому, что разумно заданные классы объектов определяют в некотором многомерном пространстве признаков, координаты которого соответствуют отдельным измеримым признакам, выпуклые или почти выпуклые области. Это означает, что ’’одинаковые” объекты — элементы одного и того же класса — характеризуются признаками, обладающими большим сходством, чем объекты, не являющиеся одинаковыми.
Это выглядит вполне логично. Что же было здесь не так?

К сожалению, это просто неверно — наблюдаемый мир ведь столь сложен. Неясно, относится признак к изображению или к соответствующему объекту? Различные условия освещения порождают совершенно разные изображения и точно то же самое можно сказать о различных точках наблюдения. Даже в таком частном случае, как изолированные двухмерные стилизованные рукописные символы, трудно установить, что должен представлять собой признак. Посмотрите, что происходит при постепенном переходе от 5 к 6: исчезает угол, сужается промежуток. Практически ни для одной цифры нельзя ограничиться каким-либо единственным признаком. Зрительные описания, необходимые для решения этой задачи, должны быть более сложными и не столь непосредственно связанными с тем, что мы рассматриваем как их естественное представление в виде цепочки штрихов, нанесенных отдельными движениями.

Следовательно, Ваш главный тезис сводится к тому, что наш мир просто слишком сложен и потому не может служить источником разновидностей анализа, подобных тому, который порождается идеей детектора признаков?

Это верно, за исключением, естественно, тех случаев, когда для наблюдаемой среды удается задать жесткие ограничения: освещение, точка наблюдения, диапазон, в котором элементы поддаются наблюдению, и т. д. Если это сделано, то можно рассчитывать на получение определенных результатов. В противном случае — нет, причем для того, чтобы удостовериться в этом, приходится очень тщательно изучать публикации, поскольку об отрицательных результатах обычно не сообщается, несмотря на то, что подобные результаты могут оказаться исключительно важными при оценке перспективности соответствующей стратегии исследования.

Какие возможности существуют в тех случаях, когда объект исследования не позволяет вводить столь жесткие ограничения?

Таких возможностей имеется две: использование более сложного критерия принятия решений и использование лучшего представления. Переход к более сложному критерию принятия решений означает отказ от надежд на то, что классы соответствуют выпуклым кластерам признаков, и включение в процесс принятия решений логических механизмов, с тем чтобы вопросы, которые ставятся на определенном этапе процесса классификации, могли формулироваться с учетом полученных к этому моменту ответов. Грубо говоря, из этого подхода развился искусственный интеллект. Этот же подход приводит к взгляду на распознавание или классификацию как на разновидность направления решения задач. Решения, принимаемые в процессе поиска окончательного решения, и пути его поиска существенно зависят от частных результатов, получаемых в процессе определения окончательного решения; эти результаты, в свою очередь, определяют, какую информацию необходимо использовать, для того чтобы процесс решения продолжался. Мы встречались с примерами такого подхода. Другая возможность связана с использованием некоторого представления или последовательности представлений, которые лучше приспособлены для решения именно той задачи, которую требуется решить в конкретном случае. Для зрения практически именно эта задача оказывается более существенной, хотя для таких областей, как медицинская диагностика, более плодотворным может оказаться подход, основанный на методах решения задач.

Не может ли оказаться так, что существуют какие-то иные подходы, которыми можно было бы воспользоваться для рассмотрения этих проблем? Что Вы могли бы сказать относительно процедурного представления знаний, использованного Виноградом (в соответствии с таким способом представления, скажем, понятия типа ’’поднимать” или ’’кубик” представляются программами)? Если Вы хотите, чтобы был поднят кубик, то Вы прост последовательно реализуете две соответствующие программы. Мне такой подход кажется вполне разумным. Каким образом он связан с упоминавшимися Вами двумя возможностями?

Процедурное представление на самом деле вовсе не является представлением — это просто некий способ реализации. Представление — значительно более точно определяемый объект. Так, в частности, не существует ни одного результата, который определял бы границы процедурного представления или вводил бы какие-нибудь условия единственности. Этот механизм не в большей степени является представлением, чем любой список свойств! Как мы уже убедились, для того чтобы определить некоторое представление, следует задать его непроизводные элементы, возможный способ их ’’устройства” и т. д. В данном случае (в этих процедурных представлениях) непроизводными элементами служат просто примитивы соответствующего языка программирования (в работе Винограда — языка Плэннер или Лисп). Такие непроизводные элементы бесполезны при представлении того, что действительно реализует соответствующий процесс, если речь идет о любом описании высокого уровня, точно так же, как отдельные команды программы, реализующей быстрое преобразование Фурье и написанной на каком-либо машинном языке, бессмысленно использовать для понимания смысла этого преобразования. Для того чтобы понимать программу и работать с ней, необходимо ввести в нее комментарии. Именно комментарии, а не машинный код, обеспечивают, в сущности, представление того, какого рода обработку информации выполняет программа. Программа HACKER, разработанная Сассманом, как раз и служит примером попыток создания полезного стандартного комментария в одном из конкретных и узких направлений программирования.

Почему Вы считаете, что список свойств не есть способ представления знаний? Так ли это на самом деле?

Этого я не утверждаю. Я считаю лишь, что список свойств не является представлением. Он является одним из приемов программирования, которым можно воспользоваться, чтобы реализовать некоторое представление, но собственно представлением не является. Для того чтобы убедиться в этом, достаточно поставить очень простой вопрос: что можно и что нельзя представить в списке свойств? Или, если воспользоваться приведенным выше выражением, каковы границы его возможностей? Единственно ли любое описание? Бессмысленно ставить эти вопросы применительно к списку свойств, точно так же, как и применительно к процедурам. Оба эти механизма универсальны с точки зрения представления, поскольку на самом деле они оба относятся к нижнему уровню объяснения и связаны с решениями, касающимися реализации. Это — не представления, это - механизмы. Выбор того или иного механизма влияет на то, сколь сложно или просто будет программисту придать какой-то части информации явный вид, однако решение о том, что именно должно переводиться в явную форму и что не должно, — это решение, касающееся собственно представления и не зависящее от механизма реализации.

Ах, так - ну, хорошо, давайте вернемся снова к признакам, поскольку именно от понятия признака мы в конце концов пришли к идее о том, что роль представления состоит в переводе определенной информации в явную форму, не так ли!

Именно так. Я считаю, однако, что пора отказаться от этих старомодных взглядов; значительно продуктивнее обратиться к системам представлений, позволяющих с необходимой полнотой описывать, во-первых, изображения, а затем и иные извлеченные из изображения аспекты наблюдаемого мира. Кроме того, я думаю, что важно не придавать чрезмерного значения установлению непосредственной связи наших идей с нейронным уровнем объяснения. В первую очередь следует убедиться в том, что наши представления и алгоритмы точны, устойчивы и основываются на психофизических данных. После этого можно будет углубиться в нейрофизиологию.

Прежде чем оставить эту тему, как мне кажется, следует обсудить еще одну проблему. Речь идет о признаках (допустим, что начиная с этого момента мы будем говорить о них как об описаниях) и об изменениях, позволяющих получать их. В чем точно заключается различие между некоторым элементом описания (вероятно, его можно было бы называть высказыванием) и соответствующим измерением? Действительно ли это так существенно?

Эта проблема имеет два аспекта. Один — исторический, который связан с тем, что еще в 1974 году, в этом вопросе имела место фантастическая путаница. Говоря проще, эта путаница состояла в том, что понятия измерений и высказываний смешивались в одну кучу. Так, например, нервная клетка, рецептивное поле которой обладает центрально-периферической организацией, будет отвечать на появление какого-либо пятнышка, но, кроме того, она будет отвечать и на появление множества иных объектов — линии, яркостного перехода, двух пятнышек и т. д. В сущности, часто по этому поводу нельзя сказать ничего, за исключением того, что нервная клетка воспроизводит значение свертки, например нашего ’’старого приятеля” ?2G*I. Тем не менее эти клетки называли детекторами пятнышек.

Это не так уж страшно, когда речь идет о сетчатке, но если понимать определение простой нервной клетки (простейшая разновидность рецептивного поля), данное Хьюбелом и Уиселом, буквально, то оно также сведется к выполнению линейной свертки с одной возбуждающей полоской и одной тормозящей полоской. В результате на выходе будет воспроизведена величина, близкая к первой производной по направлению. Сегодня я не считаю, что эти нервные клетки реализуют операцию линейной свертки, но дело, однако, состоит в том, что находятся люди, считающие их одновременно и устройствами, реализующими процедуру линейной свертки, и детекторами признаков, а это уже — интеллектуальное преступление. Естественно, выходные сигналы таких устройств, реализующих операцию линейной свертки, можно использовать для обнаружения яркостных переходов, но для этого требуются дополнительные усилия: необходимо отыскивать максимумы первых производных или пересечения нулевого уровня вторых. И естественно, теперь мы считаем, что простые клетки на самом деле являются детекторами пересечений нулевого уровня. Дело, однако, в данном случае снова состоит в том, что исключительно из-за неорганизованности мышления специалистов в области машинного зрения, а также и физиологов, упущена из вида плодотворная теория предварительной обработки изображений в зрительной системе в целом.

Второй аспект проблемы вполне актуален и в наши дни — он возникал уже в нашем рассмотрении и связан с тем, когда и каким образом зрительные процессы ’’осуществляются с помощью символьных операций”. Большинство согласится с тем, что некоторая матрица яркостей I(х, у) или даже результат применения к ней операции свертки ?2G *I не очень похожи на объект, образованный символами. Это просто непрерывный двухмерный массив, некоторые элементы которого вызывают очевидный интерес. Тем не менее, когда мы начинаем говорить о людях и автомобилях, полях и деревьях, то явно в очень значительной степени оперируем символами, и я снова подчеркиваю, что большинство сможет обнаружить намеки на символы в результатах экспериментов Хьюбела и Уисела. Наша позиция состоит в том, что зрение обращается к операциям над символами практически сразу — прямо на стадии пересечений нулевого уровня, причем вся прелесть заключается в том, что переход от аналогового представления в виде некоторого массива к дискретным ориентированным отрезкам, пересекающим нулевой уровень под определенным углом, осуществляется., вероятно, без потери информации.

На этом использование символов ни в коем случае не заканчивается. Предварительная обработка изображений в зрительной системе почти полностью сводится к манипулированию символами. Концы, нарушения непрерывности, локально-характерные объекты, допустимые прямые, группы, границы — все эти объекты представляют собой чрезвычайно абстрактные конструкции, и лишь для очень немногих из них обнаружены нейрофизиологические коррелянты; тем не менее эксперименты, подобные поставленным Стивенсом, указывают, что объекты такого рода должны существовать.

Каким еще образом можно было бы подойти к изучению этих явлений? Что Вы могли бы сказать о какой-либо разновидности трансформационного или структурного подхода, подобного использованному Хомским?

Предпринимались попытки разрабатывать грамматики для анализа изображений, включавшие правила, которым должны удовлетворять штриховые рисунки. Однако эти грамматики в целом были неудачны и ни разу не увенчалось успехом их использование при анализе какого-либо реального изображения. Среди первых работ, выполненных в рамках такого подхода, наилучшим, как мне кажется, оказались варианты анализа миров, построенных из кубиков, которые были предложены Гасманом, Макуэртом и Уолцем. К сожалению, обобщение этого анализа не было получено: он подвержен влиянию неправильного выбора соответствующего мини-мира, как, впрочем, и большая часть исследований в области искусственного интеллекта. Величайшей заслугой работ в области искусственного интеллекта явилось то, что они побуждали исследователей подтверждать свои взгляды с помощью соответствующих программ ЭВМ, причем в процессе разработки таких программ они часто убеждались в неправильности своих представлений. Эти исследования прокладывали путь конструктивному способу мышления, отвергая, например, данное Бертраном Расселлом определение восприятия объекта как множества всех допустимых образов этого объекта. Сталкиваясь, однако, с необходимостью программировать в рамках таких исследований реальности, исследователи очень часто оказываются связанными с каким-либо мини-миром, в котором очень многие факторы проявляются лишь в простых формах. Хотя такие программы не были предназначены для решения отдельных задач, в целом они работали достаточно хорошо, для того чтобы обеспечить получение искомого результата. Именно к этому жанру относится программа Винограда, предназначенная для анализа мира, образованного кубиками. Основная концептуальная ошибка здесь заключается в игнорировании модульности: использование которой позволяет проводить разбиение задачи.

Я что-то не улавливаю Вашу мысль. Зачем здесь нужна модульность и каким образом она игнорировалась?

Как и раньше, я полагаю, что наиболее яркие примеры предоставляет нам зрение. Мини-миры, использовавшиеся в первых исследованиях, или, если угодно, предметная область, представляли собой миры, состоящие из кубиков, — конфигурации, образованные призмами, которые имели белую матовую поверхность и располагались на черном фоне. В результате изучения этой предметной области Уолц аккуратно систематизировал типы узлов, которые могут возникать при ’’встрече” различных типов яркостных переходов. Допустив затенение, Уолц обнаружил, что большинство штриховых рисунков, построенных по таким сценам, допускает однозначную интерпретацию. Обратите, однако, внимание на то обстоятельство, что ни один из процессов общего характера, в рамках этого подхода объяснен не был. Причина же состоит в том, что непросто изучать процессы общего характера, комбинация которых и создает зрение человека, если ограничиваться каким-то частным мини-ми-ром, за исключением тех случаев, когда соответствующий мир тщательно выбирается исходя из уже сложившихся у исследователя представлений о том, что такой мир действительно соответствует какому-то модулю (как это имеет место в случае стереограмм, образованных случайными конфигурациями точек).

Принципиально важно понять различие между этими двумя разновидностями мини-миров. Первые имеют очень частный характер, вторые — общий. До сих пор была подтверждена ценность лишь мини-миров второго типа, хотя ограничения типа использованных Уолцем могут оказаться полезными применительно к 2,5-мерному эскизу. Дело в том, что для истинных информационных модулей, отличающихся универсальным, а не частным характером, действительно можно доказывать теоремы, устанавливающие работоспособность этих модулей в реальном мире.

Именно в этом состоит подлинная разница между подходом, изложенным в данной книге, и концепцией, лежащей в основе искусственного интеллекта; отчаянные попытки запихнуть целостный действующий мини-мир в программу вычислительной машины (предприятие, требующее выполнения неимоверного объема работы) заставили искусственный интеллект (как направление) пренебречь попытками создать подлинную теорию, а затем и вовсе отказаться от таких попыток, сосредоточившись вместо этого на усовершенствовании инструментальных вычислительных средств. Эти усилия не увенчались особыми достижениями. Таким образом, хотя подход, практикуемый искусственным интеллектом, был необходим для того, чтобы избавить нас от ложных исходных представлений о простоте зрения, он, в свою очередь, стал ограниченным и бесплодным из-за неспособности осознать, что такое истинная информационная теория и каким образом ее следует развивать.

Существуют ли правила, обеспечивающие успешное выполнение такой работы?

Не думаю. Я считаю, что неудачи вначале вполне естественны. Пример с полетом, приводившийся нами выше, прекрасно иллюстрирует ряд важных моментов. Во-первых, очевидно, что невозможно понять, каким образом летает птица, рассуждая о деталях структуры ее оперения. Поэтому естественно в качестве следующего шага попытаться повторить поведение птицы — я называю это стадией имитации. В результате люди пытались строить крылья по образу и подобию птичьих и летать, размахивая ими. Из этого вообще ничего не получилось. На этой стадии имитация ограничивалась, в сущности, двумя нижними уровнями или, быть может, лишь вторым уровнем. Подлинный успех приходит лишь после того, как Вы понимаете, что профиль крыла обеспечивает аэродинамическую подъемную силу в соответствии с уравнением Бернулли. Эта часть относится к первому уровню - уровню аэродинамики. Именно она объясняет подобие птицы и самолета ”Боинг-747” и отличие их от комара, который держится в воздухе не за счет крыльев, а буквально ’’протаптывая воздух” в настоящем турбулентном режиме

На каком-то этапе, однако, ведь все-таки придется непосредственно связать представления, относящиеся к первому уровню, с нейронными механизмами, не так ли? Вы говорили о глазах - о сетчатке и о ?2G-преобразовании; что, однако, Вы могли бы сказать относительно движения глаз ? Я понял, что с Вашей точки зрения (я хотел сказать, с точки зрения обработки информации и уровней объяснения) они слишком тривиальны, для того чтобы заниматься ими. Это, однако, никак не облегчает мне поиск механизма, соответствующего им на нейронном уровне.

Да, я согласен с тем, что это трудная проблема. Но, во-первых, как я надеюсь, было ясно показано, что движения глаз отнюдь не сводятся к обычному вычитанию. Мы установили там, сколь тесно, скажем, представление ориентации поверхности связано с тем, выбираете ли Вы систему полярных координат, привязанную к сетчатке (естественную с точки зрения формирования изображения), либо какой-либо более инвариантный тип привязанной к сетчатке системы координат.

Во-вторых, если отложить переход от системы координат, привязанной к сетчатке, то соответственно уменьшится сложность вычислительных операций, необходимых в тот момент, когда переход, наконец, осуществляется. В соответствии с изложенным можно непосредственно переходить к представлению 3-мерной модели, для которого используется некоторая устойчивая система координат, привязанная к наблюдателю. После этого остается убедиться лишь в том, что при движении глаз соответствующее пятнышко перемещается так, как оно должно перемещаться.

И наконец, я полагаю, что в данном случае, как и всегда, не следует позволять обманывать себя кажущимися свойствами и богатством нашего восприятия. Мы уже сталкивались с этой проблемой в связи с непосредственностью и живостью нашего восприятия. Я был бы удивлен, если бы оказалось, что при движении глаз мы в состоянии уследить за чем-либо, выходящим за пределы минимума объектов, и считаю, что возможности человека в этом отношении чрезвычайно ограниченны.

Хорошо, я согласен с правдоподобностью Ваших доводов. Они, однако, не предполагают использования наших уровней, не так ли? Мне кажется, что это проблема несколько иного рода.

Совершенно верно, однако, объясняется это главным образом тем, что теория движений глаз, относящаяся к первому уровню, столь проста, что мы даже не упоминали ее там. Мне кажется, что фактически общие идеи, касающиеся этих проблем, можно найти у Гибсона, и совершенно очевидно, что их ясно сформулировали в конце 1960-х — начале 1970-х годов Марвин Мински и Симор Пейперт. Тем не менее эти общие идеи никогда не разрабатывались подробно. Курьезно, что происходило это из-за того, что искусственный интеллект оставался лишенным головного мозга: не было осознано существование теории первого уровня, которую предстояло создать. Это направление быстро продолжало (а часто и продолжает) погружаться в трясину механистических объяснений, в рамках которых запоминание должно обеспечиваться какой-либо разновидностью нервной сети, процессом, реализуемым на вычислительной машине, или некоторым набором процедур.

Мне это неизвестно. Эти способы кажутся мне вполне разумными объяснениями памяти. Почему Вы находите их столь предосудительными?

Действительно, в простых случаях типа движения глаз можно прибегать к столь непосредственному стилю рассуждений, оставаясь безнаказанным. Очень опасно, однако, рассчитывать на то, что подобный стиль мышления в принципе может позволить в самом деле прийти к какому бы то ни было истинному пониманию тех задач обработки информации, решением которых заняты нейронные механизмы.

Рассмотрим в качестве примера известный и элегантно сформулированный случай — обсудим вкратце теорию фреймов, предложенную Минским. Фрейм представляет собой, в сущности, некоторый объект, которому можно приписать различные свойства. Рассмотрим, например, следующие свойства слова, представленного в виде фрейма:



Фрейму можно также поставить в соответствие и процессы, а содержание фрейма можно оснастить разнообразными взаимосвязями и индексами. В своей наиболее известной работе, относящейся к этой проблеме, Минский описывает, сколь велико число ’’субъективно правдоподобных” явлений, поддающихся рассмотрению в рамках этого подхода при условии, что используемые концептуальные элементы достаточно ’’велики”. Я, од-ко, считаю этот подход фундаментально порочным из-за свойственного ему стиля мышления, основанного на анализе механизмов. Это возвращает нас к одной из уже обсуждавшихся проблем. Если бы фреймы давали некоторое представление, а не просто механизм можно было бы сразу установить, что поддается представлению с их помощью, а что — нет. Это может быть сделано, но пока еще не сделано. До тех пор пока это не сделано, следует остерегаться идей типа фреймов или списков свойств. Дело в том, что этот метод предполагает, скорее, мышление в категориях сравнений, чем рассмотрение каких-то реальных объектов, точно так же, как анализ зрения, основанный на изучении отдельных частей Фурье-спектра, является аналогом рассмотрения описаний изображения, относящихся к различным масштабным уровням. Это слишком неточный метод, для того чтобы он мог оказаться полезным. В таких ситуациях подлинного прогресса можно добиться, лишь точно сформулировав соответствующие задачи обработки информации, возникающие в пределах нашего первого уровня.

Ваша точка зрения не относится, однако, исключительно к фреймам, не так ли? Не справедлива ли она по отношению ко всему искусственному интеллекту в целом?

Да, Вы это очень точно заметили — подходы, основанные на рассмотрении механизмов, по-настоящему опасны. Дело в том, что целью подобных исследований служит, скорее, имитация, чем достижение подлинного понимания, и они могут легко выродиться в написание программ, лишь самым механическим образом имитирующих отдельные узкие аспекты поведения человека. Именно к этой категории относит свою программу ELIZA Вейценбаум, и я не вижу никаких оснований не согласиться с ним. В более дискуссионном плане, но также критически я оценил бы исходя из этих позиций работу Ньюэлла и Саймона, посвященную системам правил подстановки, и отдельные части работы Нормана и Румелхарта, посвященной долговременной памяти.

А почему все-таки?

Причина состоит в следующем. Если мы считаем целью исследований, выполняемых в рамках информационного подхода, постановку и осмысление конкретных задач обработки информации, то главную роль должны выполнять структуры этих задач, а не механизмы, с помощью которых реализуются их решения. Следовательно, исходя из этого в первую очередь необходимо отыскать задачи, которые мы в состоянии хорошо решать, выяснить, каким образом они решаются, и проанализировать нашу деятельность, опираясь на достигнутое понимание задач. Наиболее продуктивным источником подобных задач служат те операции, которые нам удается выполнять хорошо, легко и, следовательно, бессознательно, поскольку трудно понять, каким образом могла бы обеспечиваться надежность при отсутствии в основе доброкачественного метода.

К сожалению, исследования, посвященные решению задач, по вполне очевидным причинам оказались сконцентрированными вокруг тех задач, которые вполне понятны содержательно, но вызывают затруднения, когда человек пытается их решать. Речь идет о таких задачах, как решение в уме вычислительных и криптоарифметических задач, доказательство геометрических теорем, игра в шахматы, — обо всех тех задачах, качество решения которых человеком существенно зависит от его индивидуальных способностей, и достижение хороших результатов, очевидно, основывается на использовании колоссального объема знаний и опыта.

Я утверждаю, что они создают исключительно благоприятные условия, чтобы не приступать к изучению того, каким образом человек справляется с такими задачами. У меня нет сомнений, что, решая в уме вычислительные задачи, мы хорошо справляемся с какими-то задачами, однако последние не являются вычислительными задачами; в результате мы оказываемся далеки от понимания хотя бы одного элемента того, что представляет собой изучаемое явление. Поэтому мне кажется, что нам следует в первую очередь заняться более простыми задачами, поскольку именно на этом пути можно рассчитывать на получение реальных достижений.

Если не обращать внимания на эти критические замечания, то Вы будете получать неправдоподобные механизмы, которые могут послужить основой лишь для выводов о том, что они не в состоянии обеспечивать решение тех задач, которые не может решать человек. Как мне кажется, системы правил подстановки прекрасно соответствуют этой характеристике. Если даже рассматривать их как механизмы в рамках их определения, очень многого еще продолжает не хватать. Для использования в качестве языков программирования они плохо сконструированы и с ними неудобно работать — мне трудно поверить в то, что мозг человека может страдать от столь плохих способов реализации на столь важном уровне.

Эта идея имитации — сводится ли она лишь к мышлению в категориях сопоставлений, как Вы заметили выше?

Да, в очень значительной мере это именно так. В сущности, можно было бы провести и другую параллель, на этот раз между системами правил подстановки, используемыми специалистами в области решения задач, и Фурье-анализом, используемым специалистами в области нейрофизиологии зрения. Простые операции, связанные с построением пространственно-частотного представления изображения, могут имитировать ряд интересных особенностей, свойственных, очевидно, зрительной системе человека. В их число входят обнаружение повторяющихся событий, некоторые зрительные иллюзии, концепция отдельных независимых каналов, выделение формы объекта в целом из мелких локальных деталей, а также простой способ обеспечения инвариантности по размерам. Причиной игнорирования специалистами в области анализа изображений пространственно-частотной области служит то обстоятельство, что она фактически бесполезна с точки зрения главной задачи зрения — построения описания, указывающего, что где находится, на основе матрицы яркостей. Интуитивные знания, которыми не располагают специалисты в области физиологии зрения и которые столь важны, относятся именно к тому, каким образом может быть построено подобное описание. В качестве средства обработки информации система правил подстановки воспроизводите несколько интересных идей: отсутствие в явном виде обращений к подпрограммам, использование канала связи типа ’’классная доска” и наличие некоторой разновидности кратковременной памяти.

Однако именно то, что системы правил подстановки обнаруживают эти побочные эффекты (подобно тому, как фурье-анализ ’’отображает” некоторые зрительные иллюзии), и означает отсутствие у них какой бы то ни было связи с происходящим в действительности. Я предполагаю, в частности, что возможность выполнения кратковременной памятью роли регистра запоминающего устройства, вероятно, является наименее важной из ее функций. Я считаю, что существует несколько ’’интеллектуальных рефлексов”, связанных с обработкой объектов, хранящихся в такой памяти, причем до сих пор об этих рефлексах нам ничего не известно, хотя в конечном счете выяснится, что именно они являются факторами, определяющими работу кратковременной памяти.

Изучение деятельности человека в рамках систем правил подстановки кажется мне напрасной тратой времени, поскольку это занятие эквивалентно изучению некоторого механизма, но не задачи. И снова, механизмы, ради постижения которых предпринимаются подобные исследования, будут раскрыты в процессе изучения тех задач, которые требуют решения, точно так же, как продвижение в области изучения зрения происходит потому, что изучается именно проблема зрения, а не нейронные механизмы зрительной системы.

Продолжение в следующей статье: Обоснование правильности информационного подхода к проблеме зрения ? Часть 2


----

Статья из книги: Зрение | Д. Марр

Возможно, Вам будет интересно

Похожие новости

Поделитесь своим мнением. Оставьте комментарий

Автору будет приятно узнать обратную связь о своём посте.

    • bowtiesmilelaughingblushsmileyrelaxedsmirk
      heart_eyeskissing_heartkissing_closed_eyesflushedrelievedsatisfiedgrin
      winkstuck_out_tongue_winking_eyestuck_out_tongue_closed_eyesgrinningkissingstuck_out_tonguesleeping
      worriedfrowninganguishedopen_mouthgrimacingconfusedhushed
      expressionlessunamusedsweat_smilesweatdisappointed_relievedwearypensive
      disappointedconfoundedfearfulcold_sweatperseverecrysob
      joyastonishedscreamtired_faceangryragetriumph
      sleepyyummasksunglassesdizzy_faceimpsmiling_imp
      neutral_faceno_mouthinnocent

Комментариев 0