Избирательность по направлению

+ -
0
Избирательность по направлению

Описание

Введение в проблему наблюдаемого движения



Видимый мир преисполнен движения, и это обстоятельство оказало существенное воздействие на процесс эволюции. Изучение наблюдаемого движения — это изучение того, каким образом информацию только об организации движения на изображении можно использовать для получения результатов, которые отражают структуру реального мира и перемещения, происходящие в нем. И снова проблема включает две основные части: каким образом осуществляются исходные измерения изменений, порожденных движением, и используется ли такая информация? Ни одна из задач не является легкой. И, быть может, именно потому, что первая столь трудна, вторая в определенной степени сводится к исследованию проблемы минимальной информации, имеющей место при решении первой задачи и необходимой для того, чтобы в процессе дальнейшей обработки можно было бы получить какие бы то ни было разумные результаты.

Психофизическое изучение наблюдаемого движения — это не новая проблема. Большинство его пионеров, вербятно, являются участники гештальтистского движения. Вертхеймер и Коффка, которые, как и их последователи Гибсон и Джулес, изучали влияние движения на разделение фигур и фона и на движения глаз. Майлс и Уоллак и О’Коннелл поставили задачу определения трехмерной структуры по информации о движении — эта задача подробно рассматривается в вышедшей сравнительно недавно замечательной книге С. Уллмана. Гибсон занимался проблемой оптического потока, которая лишь недавно удостоилась заслуженного внимания математиков.

В первую очередь, однако, я хотел бы обратить внимание на один важный психофизический результат, полученный сравнительно недавно - он связан с проблемой количества модулей или процессов движения, их ’’содержания” и обилия имеющейся в них информации. Вслед за Джулесом Браддик использовал случайные конфигурации из точек и линий при изучении видимого (кажущегося) движения Так, в частности, он обнаружил ряд странных различий между тем, что происходит при небольших перемещениях за небольшие промежутки времени, и тем, что происходит при больших перемещениях за большие промежутки времени. Он пришел к выводу о существовании двух различных процессов, характеризующихся разными критериями восприятия; свойства процессов перечислены в табл. 3.1.

Таблица 3.1. Существенные характеристики видимого движения, выделенные при использовании двух различных критериев восприятия



Свойства эти были определены в следующих экспериментах. Испытуемым предъявлялись две случайные конфигурации, образованные точками или линиями. Как показано на рис. 3.27,



Рис. 3.27. Задача различения в экспериментах Браддика с малыми диапазонами изменений. На произвольном фоне требуется выделить прямоугольник, расположенный горизонтально или вертикально


за пределами центрального прямоугольника корреляция между конфигурациями отсутствовала. Внутри центрального прямоугольника точки одной конфигурации смещены относительно другой так, как это показано на рис. 3.28.



Рис. 3.28. Прямоугольники (см. рис. 3.27) формируются при последовательном предъявлении двух случайных точечных конфигураций с помощью смещения некоторой прямоугольной области на несколько элементов. Остальные части изображений двух кадров между собой не коррелированы


Эти конфигурации предъявляются попеременно с определенной частотой и междукадровым интервалом, во время которого иногда предъявляются другие маскирующие поля. Проблема заключается в следующем: при каких частотах и смещениях испытуемый в состоянии воспринимать прямоугольник так хорошо, чтобы иметь возможность определить, горизонтальный он или вертикальный?

Второй вид эксперимента аналогичен тому, который широко практиковался Уллманом: в первом кадре предъявляется одна или несколько линий, а далее (после междукадрового интервала) - снова несколько линий, как это показано на рис. 3.29.

Избирательность по направлению


Рис. 3.29. Изображения второго типа, которые широко использовались Уллманом, также состоят из двух кадров, однако они существенно проще изображений на рис. 3.27 и 3.28. Первый кадр может включать линию l, а второй -две линии m и n. Наблюдатель должен ответить на вопрос, движется ли линия l к линии m, к линии n или к обеим


В данном случае проблема такова: воспринимает ли испытуемый отображение одной линии в другую или другие как естественное, и если это так, то каким образом происходит такое отображение? Эксперименты Уллмана заставляют нас относиться к естественности (гладкости) с осторожностью, но собственно реальное отображение — это интересный и надежно установленный процесс.

Браддик же обнаружил, что, варьируя оба типа предъявляемых изображений - при изменении смещения, или междукадрового интервала, или при предъявлении на его протяжении яркого равномерно освещенного поля - можно очень сильно изменять характер восприятия этих изображений. Так, условия, легко приводящие к срыву выполнения первой экспериментальной задачи, не влияют на вторую задачу. Скажем, для того чтобы можно было увидеть прямоугольник, угловое смещение должно быть небольшим (менее 15 ), междукадровый интервал должен быть коротким (менее 80 мс) , а влияние любых маскирующих полей должно быть исключено. Иначе обстоят дела со второй задачей: угловое смещение может достигать многих угловых градусов, междукадровый интервал может составлять 300 мс или даже больше, а маскирующее поле может быть как темным, так и ярким. Эти, а также и другие характеристики сведены в табл. 3.1.

Что же могут означать эти различия? Возможно, ключ к этой проблеме состоит в том, что в анализе движения, быть может, в большей степени, чем в любом ином аспекте зрения, существенную роль играет время. Это связано не только с потенциальной опасностью движущихся объектов, но также и с тем, что старые описания состояния движущегося тела, подобно прогнозу погоды, быстро становятся бесполезными. Подробность, с которой можно вести анализ, с другой стороны, зависит от объема той информации, на которой он основывается. Объем информации, в свою очередь, должен зависеть от времени, необходимого для сбора. При мгновенном взгляде, например, все кажется статистическим и поэтому никакой информации о движении получить не удается. Информация об изменениях, замеченных после паузы продолжительностью 60 мс, может дать значительно больше для анализа, а третий взгляд, брошенный на сцену спустя еще 60 мс, вероятно, позволит полностью восстановить картину движения при условии, что обработка информации проводится достаточно интенсивно.

Одной из простейших разновидностей анализа движения, вероятно, является анализ, связанный с фиксацией каких-то изменений в поле зрения и, возможно, отчасти связанный с определением направления соответствующего движения, хотя последнее, несомненно, составляет более сложную проблему. С анализом такого типа мы уже встречались выше при обнаружении зрительной системы комнатной мухи. Другим примером действия подобных механизмов служат обладающие избирательностью по направлению клетки сетчаток кролика, лягушки, голубя, а также, вероятно, и W-клетки сетчатки млекопитающих.

Все эти механизмы обладают рядом общих свойств. Они, очевидно, действуют на самом раннем из существующих этапов обработки - т. е. оперируют непосредственно значениями яркости тонового изображения, - и их основная функция представляет собой некий эквивалент комбинации временной задержки (или временного фильтра нижних частот) и логического элемента И-НЕ. Идея, положенная в основу этой модели, иллюстрируется рис. 3.30, а.



Рис. 3.30. Модель избирательности по направлению Барлоу и Левина, в которой два рецептора соединены с логическим элементом И—НЕ, причем один из них - через устройство задержки, в результате эта схема не реагирует на раздражители, перемещающиеся со скоростью, близкой к допустимой в несущественном направлении (в). Модель Хассенштайна и Райкхардта, реализующая этот же принцип, за исключением замены задержки временным фильтром нижних частот (L); через Н обозначен фильтр верхних частот (б)


Два рецептора соединены с логическим элементом И-НЕ (один - непосредственно, а другой - через элемент задержки). Если какое-либо яркое пятно проходит через правый рецептор R2, а затем через второй рецептор R1, то сигналы, поступающие от них на вход логического элемента, попадают туда приблизительно одновременно и, следовательно, он остается в состоянии покоя. Направление движения, соответствующее такому режиму, называют несущественным. Движение яркого пятна в ином направлении приведет к срабатыванию логического элемента.

При замене детекторов яркости операторами с центральной возбуждающей и периферийной тормозной зонами эта трудность отпадает мы получаем устройство с избирательностью по направлению для обнаружения мелких насекомых или яркостных переходов. Специфические проблемы, однако, возникают и в этом случае. Во-первых, при очень медленном движении раздражителя в несущественном направлении или его остановке на полпути между двумя рецепторами и при последующем возобновлении движения логический элемент сработает. Во-вторых, и снова из-за наличия задержки, диапазон пространственных частот, в котором такое устройство может работать, определенно зависит от того, как быстро перемещается раздражитель Относительно такого устройства толстая синусоидальная решетка, перемещающаяся быстро, выглядит как тонкая синусоидальная решетка, перемещающаяся медленно Аналогичные свойства демонстрирует и зрительная система человека. Для надежной работы механизма необходимо, чтобы он реагировал лишь на ’’нужную” часть пространственно-временного диапазона.
[banner_centerrs] {banner_centerrs} [/banner_centerrs]

Ненадежность устройств обнаружения типа приведенных на рис. 3.30 порождается достаточно серьезными причинами. Из-за своей конструкции в некоторый момент времени они воспринимают сигнал, поступающий от одного из рецепторов, и немного позже — сигнал от другого рецептора, расположенного недалеко от первого. Если некоторый сигнал поступает от одного из рецепторов и после соответствующего промежутка времени — от другого, то устройство обнаружения неявно ’’предполагает”, что оба изменения вызваны одним и тем же реальным событием. Это, в сущности, наше первое столкновение с реальностями задачи установления соответствия для случая видимого движения. Ненадежность таких систем обнаружения объяснятся теми же основными причинами, по которым в фильме-вестерне колесо фургона переселенца на ’’дикий запад”, быстро вращающееся по часовой стрелке, кажется медленно вращающимся против часовой стрелки. Подсознательное впечатление о том, что ближайшей спицей на очередном кадре остается та же, которая была на предыдущем, неверно, поскольку скорость вращения колеса слишком велика по сравнению со скоростью смены кадров

Подобные схемы, как мы уже отмечали, все же полезны для определения участка поля зрения, в котором возникает относительное движение, и получения определенной информации о его направлении, если наблюдатель окажется внимательным. Однако если же, кроме того, желательно проанализировать и форму движущегося пятна, то более целесообразной кажется попытка объединить анализ движения и анализ контуров. Эта точка зрения, кстати, полностью противоречит существующим в настоящее время в физиологии и психофизике представлениям, согласно которым тонические и фазные каналы нижнего уровня зрительной системы человека разделены на две параллельные системы - для анализа формы зрительных образов и для анализа движения. Конечно, для управления движениями глаз нет необходимости в их объединении, но делать это представляется целесообразным, для того чтобы иметь возможность рассмотреть форму движущегося пятна.

Итак, мы рассмотрели два вида информации, которую можно получить при анализе движения. 1) обнаружение движущегося объекта и определение его положения в поле зрения, 2) определение двухмерной формы движущегося объекта. Как можно предполагать, ни то ни другое не требует выполнения чрезмерно сложных измерений, и, вообще говоря, при наличии достаточно точных результатов измерений обе задачи могут быть решены очень быстро. А как в таком случае обстоит дело с определением трехмерной структуры? Очевидно, последняя информация представляет большую ценность, однако интуитивно понятно, что для ее получения необходимо извлекать больше информации из изображений.

Действительно, для этого требуется больше информации. И главное усовершенствование, которое здесь необходимо, — это по-настоящему хорошее решение задачи установления соответствия, а не малопродуктивных приближенных указаний, достаточных при решении более простых задач. Для восстановления трехмерной структуры необходимо иметь возможность указать, что некоторая точка А изображения в момент времени t1 соответствует в момент времени t2 некоторой точке B этого же изображения для эквивалента трех кадров при проведении анализа по Уллману. С другой стороны, что практически то же самое, при решении более простой задачи анализа оптического потока, порождаемого перемещениями наблюдателя в жесткой среде, нам требуются точные мгновенные значения положений и скоростей на изображении. Задача психофизики — определить, используется ли в зрительной системе человека какой-либо из этих теоретически возможных механизмов или оба. Как мы убедимся, имеются веские данные, свидетельствующие в пользу схемы Уллмана. Схема типа анализа оптического потока по Гибсону располагает несколько более слабыми подтверждениями, однако собственно теория тем не менее вызывает интерес.

Этот и следующий разделы данной главы посвящены отдельным элементам задачи анализа движения. В этом разделе мы рассматриваем избирательность по направлению, главным образом с точки зрения использования ее для выделения фигур из фона и восстановления двухмерной формы выделенной фигуры. Мы остановимся на предложенной Уллманом теории определения трехмерной формы по видимому движению, а также кратко обсудим проблему оптического потока.

Информационная теория

Теория избирательности по направлению изучает возможности использования неполной информации о движении (в частности, о его направлении с точностью до 180°) для визуального определения двухмерной формы областей, попадающих в поле зрения, исходя из относительного движения.

Основой для этой задачи с точки зрения информационного подхода является решение следующего вопроса: сколько такой информации можно извлекать из движения, не решая полностью задачу установления соответствия, т. е. не имея для изображения в целом исчерпывающих сведений о поле текущих положений движущегося объекта и его мгновенных скоростей? Причина изучения информативности собственно направления движения связана с так называемой проблемой апертуры, иллюстрацией к которой служит рис. 3.31.



Рис. 3.31. Проблема апертуры. Если движение некоторого ориентированного элемента обнаруживается с помощью устройства, размер которого мал по сравнению с размером движущегося элемента, то единственная информация, которую при этом удается получить, - это составляющая движения, перпендикулярная локальной ориентации элемента. Так, например, рассматривая перемещающийся яркостный переход Е через некоторую малую апертуру А, невозможно определять, происходит ли реальное движение в направлении b или с


Если некоторый прямолинейный отрезок яркостного перехода перемещается по изображению в направлении b, как это показано стрелкой на рис. 3.31, то одних локальных измерений для обнаружения этого события недостаточно. Как следует из рисунка, с помощью некоторой малой апертуры, наложенной на яркостный переход, можно обнаружить лишь один вид движения — движение в направлении, перпендикулярном этому яркостному переходу. Для определения того, куда направлено это движение — вперед или назад, необходим всего лишь один бит информации. Конечно, если речь идет лишь о некоторых точке, пятнышке или конце такого типа, который поддается распознаванию, то может быть получена большая информация. Если же как-то удалось определить угол ?, образованный яркостным переходом и направлением движения b, то можно установить скорость s, измерив составляющую s sin ?, перпендикулярную яркостному переходу. Простейший же случай, когда известен лишь знак, представляет, по крайней мере, теоретический интерес.

Ряд экспериментов показывает, что этот простейший случай представляет интерес и с точки зрения понимания одного из способов анализа движения, используемых в зрительной системе. Экспериментальная ситуация аналогична использовавшейся Браддиком, а раздражители представлены на рис. 3.32.



Рис. 3.32. Два эксперимента, показывающие, что система Браддика с малым диапазоном действия использует при разбиении изображения лишь ограниченный объем информации: а — скорости точек, входящих в центральный прямоугольник, одинаковы и отличаются от скоростей точек, не входящих в него, которые также одинаковы; направления же движения всех точек случайны; б — направления движения точек, входящих в центральный прямоугольник, одинаковы, но скорости различны. Разбиение изображения при этом достигается без затруднений


Эти эксперименты относятся к первому из двух его классов экспериментов, посвященных изучению быстропротекающих явлений с малым диапазоном действия.

На рис. 3.32, а все точки, входящие в центральный квадрат, имеют постоянные скорости, вдвое большие скоростей точек, не входящих в центральный квадрат. Направления же движения всех точек - случайны. Оказывается, что в этих условиях центральный квадрат не выделяется. И, следовательно, нам не удается разделить участки изображения, опираясь на данные лишь о скорости движения. Джулес описал аналогичный эффект. На рис. 3.32, б периферийные точки движутся случайным образом, в то время как все центральные точки - в одном и том же направлении, но с различными скоростями (отличающимися в 4 раза). Центральный квадрат вырисовывается вполне определенно, причем в тех случаях, когда скорости соседних точек отличаются очень сильно, создается также впечатление о движении точек.

Из замечаний относительно проблемы апертуры следует, что именно мы хотим измерять и зачем. Перечисленные психофизические эксперименты показывают, что зрительная система при разделении поля зрения на отдельные части использует только информацию о направлении движения. Таким образом, нами рассмотрены алгоритмы, обеспечивающие быстрое определение знака направления движения на уровне локальных отрезков яркостных переходов или тех элементов, на основе которых они построены. Самый ранний этап, на котором эта процедура может осуществляться, соответствует уровню отрезков пересечений нулевого уровня, и, как мы убедимся ниже, физиологические данные свидетельствуют в пользу такой возможности.

Алгоритм

Для того чтобы построить устройство обнаружения пересечений нулевого уровня, обладающее избирательностью по направлению, необходимо каким-либо образом определить направление перемещения ориентированного отрезка пересечения нулевого уровня того типа. Там было показано, что отрезок пересечений нулевого уровня представляет собой некоторый отрезок нулевых значений свертки ?2G*I. Поперечное сечение графика этой операции свертки приведено на рис. 3.33



Рис. 3.33. Графики X = ?2 G * I и Y = ?/?t * ( ? 2 G * I) в окрестности изолированного яркостного перехода. График сигнала X в функции расстояния (а). Пересечение нулевого уровня Z на графике сигнала соответствует расположению яркостного перехода. Пространственное распределение значений сигнала У при перемещении яркостного перехода вправо (б) и при его перемещении влево (в). Свидетельством движения яркостного перехода вправо служит одновременное принятие значений X+Y+X- в диаграмме, приведенной на рис. 3.33, б. Свидетельством движения яркостного перехода влево служит одновременное принятие значений X+Y-X- в диаграмме, приведенной на рис. 3.33, в


для изображения, профиль распределения значений яркости которого приведен там же.

Существует несколько способов построения на этой основе устройств, обладающих избирательностью по направлению; одним из таких способов является использование в качестве источников входных сигналов для устройства типа предложенного Барлоу и Левиком двух устройств обнаружения пересечений нулевого уровня. Как нам известно, однако, недостатком таких устройств является ложное срабатывание при прерывистом движении раздражителя по несущественному направлению; известно и то, что простые корковые клетки, обладающие избирательностью по направлению, не страдают этим недостатком. Итак, Марр и Уллман предложили следующий алгоритм.

Шаг 1. Измерение значений производной во времени ?/ ?t [ ?2 (G * I) ].

Шаг 2. Если ее значение положительно в точке пересечения нулевого уровня Z, то пересечение нулевого уровня движется вправо; если оно отрицательно, то пересечение нулевого уровня движется влево. Если контраст яркостного перехода противоположен, направления движения меняются местами.

Правильность этих утверждений можно установить с помощью рис. 3.33, б и в, на которых приведены графики производной по времени ?/?t ( ?2 G*I) зависимости, представленной на рис. 3.33, а, для движения вправо и влево соответственно. Знак производной по времени постоянен по всей ширине (т. е. между максимальными значениями подвергаемой дифференцированию свертки ?2 G*I), следовательно, данный алгоритм является устойчивым.

Этот алгоритм обладает несколькими достоинствами: 1) предусматривает выполнение лишь локальных измерений; 2) не предусматривает использования временных задержек, за исключением необходимой для вычисления производной; 3) может обеспечивать очень высокую чувствительность. Нижняя граница поддающегося обнаружению смещения определяется чувствительностью детектора, а верхняя граница, зависящая от характеристик временного фильтра, достигает больших значений, если постоянные времени малы. Следовательно, можно обеспечить чувствительность одного детектора к широкому диапазону скоростей, и, поскольку на самом деле при измерении значения ?/?t ( ?2 G * I) важен лишь знак производной, это обстоятельство можно использовать, придав, измерительному элементу очень высокую чувствительность. Быстрое насыщение при этом значения не имеет; 4) в пределах соответствующего диапазона при обработке в достаточной мере изолированного яркостного перехода устройство работает абсолютно надежно.

Решающее отличие данного алгоритма от предложенного Барлоу и Левиком заключается в том, что в первом нет необходимости дожидаться перехода нулевого уровня от первого детектора ко второму. Он, таким образом, может мгновенно реагировать на движение и обладает чувствительностью к очень малым смещениям. Кроме того, в отличие от алгоритмов, в которых используется пара детекторов, данному не приходится ’’гадать”, является ли некоторое пересечение нулевого уровня, послужившее в данный момент времени причиной перехода в возбужденное состояние левого детектора, тем же, которое послужило причиной перехода в возбужденное состояние правого детектора несколько мгновений назад. Таким образом, за счет оперирования меньшим объемом информации устраняются трудности, неизбежно возникающие в задаче полного установления соответствия.

Реализация на нейронном уровне

Мы, конечно, не стали бы предлагать этот алгоритм, если бы у нас не было определенных соображений по его реализации. Как мы уже убедились, обнаружение отрезков пересечений нулевого уровня основывается на том представлении, что X-клетки наружного коленчатого тела передают положительные и отрицательные выходные значения ?2 G-фильтра с помощью специализированных клеток КСЦР и КТЦР соответственно. Для обнаружения пересечения нулевого уровня достаточно просто соединить КСЦР- и КТЦР- X-клетки через логический элемент И.

Но как измерить значение производной по времени? Это очень интересный и примечательный момент. Психофизическое изучение фазных каналов и нейрофизиологическая регистрация активности Y-клеток, которым, как считается, соответствуют фазные каналы, определенно свидетельствуют о том, что эти каналы осуществляют измерение значений нашей производной по времени ?/?t ( ?2 G *I)! Интересно отметить, что работа этих каналов, насколько нам известно, еще никогда не представлялась как вычисление некоторой производной по времени, и объясняется это, вероятно, тем, что никто не задумывался о потенциальной полезности реализации такой функции на столь раннем этапе обработки информации в зрительной системе.

Рассмотрим этот факт несколько подробнее. В идеальном случае для получения некоторого значения производной по времени из текущего значения соответствующего сигнала вычитается значение, которое он имел бесконечно малое время назад. Практически эти измерения должны выполняться на конечных промежутках времени. Следовательно, импульсная характеристика соответствующего устройства во временной области должна иметь положительную фазу, после которой следует отрицательная, причем форма характеристик в обеих фазах аналогична, а их знаки - противоположны. Что касается частотной области, то в диапазоне рабочих частот устройства энергетический спектр должен приблизительно линейно зависеть от частоты.

На существование временного фильтра, включающего положительную фазу продолжительностью 60 мс и следующую за ней отрицательную, в явном виде указали Уотсон и Накмиаз; позже их данные были подтверждены результатами Толхерста, Бритмайера и Ганза и Легга. Отрицательная фаза может длиться дольше положительной, или за ней могут следовать затухающие колебания малой амплитуды, что не отражается существенным образом на результатах.

В частотной области модуляционная передаточная функция (МПФ), измеренная Уилсоном для фазного U-канала, в диапазоне до ? = 10 Гц точно описывается выражением F (w) = 16 ? — ?2. Это согласуется с представлением о некотором операторе, аппроксимирующем вычисление первой производной входного сигнала при условии, что мощность последнего на частотах выше 8 Гц незначительна. Поскольку U-канал ослабляет пространственные частоты, превышающие значение 3 периода/град, то на его выходе будут воспроизводиться производные для яркостных переходов и полос, перемещающихся по сетчатке со скоростями приблизительно до 3 град/с. Рисунок 3.34



Рис. 3.34. Ответы фазного U-канала на предъявление яркостного перехода, а также узкой и широкой полос, перемещающихся со скоростью 3 град/с. Сигнал на выходе пространственного фильтра ( ?2 G * I) для U-канала с параметрами, соответствующими данным Уилсона и Бергена; по оси у откладывается нормированное значение ответа, по оси х — расстояние (полный диапазон составляет 3° ) (а). Расчетные выходные значения временного фильтра в предположении, что фазный канал реализует операцию ?/?t(? 2 G * I) (б). Выходные значения временного фильтра при использовании кривой контраст-чувствительности Уилсона и антисимметричного фильтра (в). Сопоставление графиков, приведенных на рис. 3.34, б и в (г). Ширина узкой полосы составляет 2', широкой 40'. Во всех представленных случаях имеется удовлетворительное совпадение кривых, полученных дифференцированием по времени, и экспериментальных кривых. Следовательно, для изолированных полос и яркостных переходов психофизические данные не противоречат представлению о том, что фазные каналы приближенно реализуют операцию ?/?t(? 2 G * I). На рис. 3.34, б-г по оси х откладывается время. Полный временной диапазон равен 1 с


показывает, сколь точно характеристики фазных каналов, измеренные в эксперименте, соответствуют расчетным значениям производной по времени ?/?t(?2G * I) в случаях изолированного яркостного перехода, узкой и широкой полос.

Возвратившись к нейрофизиологическим данным, отметим, что Родик и Стон описали ганглиозные нервные клетки сетчатки, ответ которых на предъявление некоторого движущегося пятна был ’’непосредственно связан с градиентом рецептивного поля, как в случае ярких мигающих огней”. Ни одно реальное устройство, естественно, не может обеспечить абсолютно точное вычисление производной по времени во всем частотно-временном диапазоне. Тем не менее опубликованные кривые отклика Y-клеток сетчатки и коленчатого тела на предъявления полос и яркостных переходов, перемещающихся с умеренными скоростями, хорошо согласуются с расчетными значениями, полученными при взятии производной ?/?t(?2G * I). Рисунок 3.35



Рис. 3.35. Сопоставление расчетных ответов КСЦР- и КТЦР- Y-клеток сданными электрофизиологических экспериментов. В верхнем ряду представлены ответы типа ?/?t (? 2 G * I) для изолированного яркостного перехода, узкой полосы (ширина полосы равна 0,5 где w1-D) - значение ширины, спроектированной на одну из координатных осей центральной возбуждающей зоны рецептивного поля) и широкой полосы (ширина полосы равна 2,5w1-D). Расчетные графики получены с помощью наложения положительной (второй ряд) или отрицательной (четвертый ряд) составляющих производной ?/?t (? 2 G * I) на небольшие значения разряда в невозбужденном состоянии (фонового). Эти положительная и отрицательная составляющие соответствуют либо одному и тому же раздражителю, перемещающемуся в противоположных направлениях, либо раздражителям с противоположными контрастами (скажем, темный яркостный переход и светлый яркостный переход, перемещающиеся в одном и том же направлении). Экспериментальные графики (третий и пятый ряды) хорошо согласуются с расчетными даже в тех случаях, когда имеют сложную форму (как, например, при предъявлении широкой полосы)


позволяет сопоставить расчетные значения ответов КСЦР- и КТЦР- Y-клеток с их ответами на предъявление различных раздражителей, зарегистрированными в эксперименте. Все раздражители представляют собой яркие объекты (т. е. яркостные переходы и полосы света), причем ширина узких полос составляет около 0,5°, а широких полос 5°. Графики заимствованы из статьи Дрихера и Сандерсона. Графики построены по точным значениям производной ?/?t(?2G * I), и толщина узкой и широкой полос составляет 0,5 w и 2,5 w соответственно. Ответы, полученные в эксперименте, хорошо согласуются с расчетными, причем даже в тех случаях, когда и те и другие имеют сложный характер (как, например, для широкой полосы).

Идея о том, что X-клетки воспроизводят значение преобразования ?2 G, а Y-клетки — соответствующую производную по времени, позволяет создать устройства для обнаружения ориентированных отрезков пересечений нулевого уровня, обладающего избирательностью по направлению. Кроме того, она дает точное объяснение некоторых функций сетчатки и ставит перед спeциапистами-анатомами и нейрофизиологами, занимающимися изучением сетчатки, волнующий вопрос, а именно: каким же образом происходит измерение этих сигналов? Легко представить себе возможность реализации свертки с преобразованием ?2 G, но измерение значений ?/?t(?2G * I) или хотя бы просто определение их знаков является достаточно сложной задачей, выполнение которой требует сравнений как в пространственной, так и в частотной области: значения в центральной части должны сравниваться с периферийными, а текущее значение — со значением, зафиксированным несколькими мгновениями раньше. Все это означаем что должна быть предусмотрена память на 60 мс. Некоторые из этих значений могут подвергаться в сетчатке искажениям, особенно из-за запаздывания при сравнении значений, соответствующих двум различным моментам времени. Результаты Хокштайна и Шапли показывают, в частности, что периферийная зона Y-клетки с запаздыванием получает сигналы от соседних элементов, расположенных на расстоянии, соответствующем размерам центральных частей локальных рецептивных полей Х-клетки, и что именно такой запаздывающий входной сигнал может служить главной причиной наблюдаемой нелинейности. Нелинейные эффекты вызываются в основном дифракционными решетками. В случае изолированных яркостных переходов и отдельных полос Y-клетки вполне удовлетворительно аппроксимируют операцию ?/?t(?2G * I), как это следует из рис. 3.35.

При условии, что Y-каналы воспроизводят значения производной ?/?t(?2G * I), а положительные и отрицательные значения воспроизводятся с помощью разных каналов, придание избирательности по направлению устройству обнаружения отрезков пересечений нулевого уровня, на рис. 3.36,



Рис. 3.36. Обнаружение перемещающихся пересечений нулевого уровня. Части элементов Х- и Х+ соединяются через логический элемент И (а). Получаемое в результате устройство должно фиксировать появление некоторого пересечения нулевого уровня определенного знака между этими частями. Ряд аналогичных элементов, соединенных через логический элемент И, обеспечивает обнаружение ориентированных пересечений нулевого уровня в границах, показанных штриховыми линиями (б). На рис. 3.36, в приведено устройство обнаружения, показанное на рис. 3.36, б, в которое введен Y-эле-мент. Если последний имеет вид Y+, он будет срабатывать при перемещении отрезка пересечений нулевого уровня от X+ к Х-. Если же этот элемент имеет вид Y-, он будет срабатывать при перемещении отрезка пересечений нулевого уровня в противоположном направлении


обеспечивается введением в него, снова через посредство логического элемента И, одной Y-клетки.

Основной блок устройства обнаружения приведен на рис. 3.36, в и представляет собой простейшую ХYХ-модель Марра и Уллмана простой клетки зрительной коры. Ее рецептивное поле состоит из трех элементов: тонических КСЦР-X-входов, тонических КТЦР- Х—входов и одного Y-входа. Все Х-элементы должны иметь одинаковые размеры и располагаться в других параллельных колонках, отстоящих друг от друга на расстоянии, не большем w2-d/?2 (здесь W2—D - диаметр центральных возбуждающих областей Х-клеточных рецептивных полей). Для организации Y-входа вообще достаточно одного входного элемента, рецептивное поле которого расположено в центре или немного смещено в сторону одной из колонок (по направлению к положительной колонке в случае КСЦР- Y-элементов и к отрицательной - в случае КТЦР- Y-элементов).

Идеальная реализация обнаружения требует точного выполнения логической операции И для выходных значений подэлементов. Практически это можно осуществить, обеспечив сильное мультипликативное взаимодействие между колонками и Y-входом и более слабую нелинейность вдоль колонок. Подобное устройство должно обеспечивать оптимальное обнаружение перемещающегося отрезка пересечений нулевого уровня, располагающегося по всей длине колонок, но оно должно реагировать и на более короткие раздражители и даже на движущиеся световые пятна. Из таких устройств могут быть построены более сложные рецептивные поля (например, движущиеся полосы или щели). Подобное устройство будет обладать тем важнейшим практическим свойством, что при устранении Y-входа клетка либо вообще не будет возбуждаться, либо, если разряд будет происходить, утратит избирательность по направлению. До сих пор еще неизвестно, справедливо ли то же самое для нервных клеток, обладающих избирательностью по направлению. В остальном свойства данной модели, в общем, согласуются с имеющимися экспериментальными данными (в этих работах ее называют S'1-клеткой). В статье Марра и Уллмана полнее описываются свойства этой модели, а также теоретические результаты, полученные на ее основе.

Использование избирательности по направлению для разделения поверхностей, перемещающихся независимо друг от друга



Информационная теория

Перемещения объекта относительно фона можно использовать для определения границ объекта, и эта возможность используется в зрительной системе человека чрезвычайно эффективно. Если поле скоростей (т. е. скорость и направление в каждой точке изображения) определено полностью, то границы объекта указываются нарушениями непрерывности этого поля, так как движение твердого тела характеризуется локальной непрерывностью в пространстве и времени. Непрерывность обеспечивается процессом получения изображения и порождает то, что в свое время было определено нами как принцип непрерывности потока; согласно ему поле скоростей движения твердого объекта на изображении изменяется непрерывным образом всюду, за исключением границ объекта, загораживающих самих себя. Поскольку движения объектов, не связанных между собой, вообще говоря, не зависят друг от друга, на границах объектов поле скоростей довольно часто будет претерпевать нарушения непрерывности. С другой стороны, линии, по которым происходят нарушения непрерывности, служат надежными индикаторами границ объекта.

К сожалению, измерения, проводимые на малых ориентированных элементах изображения, не дают возможности полностью определить поле скоростей. Существование проблемы апертуры приводит к тому, что локально удается установить лишь знак направления движения. Это означает необходимость включения еще одного, дополнительного, этапа обнаружения нарушений непрерывности поля скоростей. В данном разделе нас будет интересовать, каким образом и в какой степени такая ограниченная исходная информация (информация только о знаке направления движения) может быть использована для обнаружения этих нарушений непрерывности.

Знак локального направления движения сам по себе не определяет ни скорости движения, ни его истинного направления, однако его можно использовать для введения ограничений на возможные истинные направления движения (рис. 3.37).



Рис. 3.37. Объединение локальных ограничений, порождаемых одиночными нервными клетками, которые обладают избирательностью по направлению, для установления направления движения. Ограничение, вносимое подобной одиночной нервной клеткой, состоит в том, что направление движения должно принадлежать зоне 180°, расположенной с допустимой стороны (а). Запретные зоны (б) для двух ориентированных элементов (V — вертикальный, H - горизонтальный), движущихся в направлениях, указанных стрелками (в). Запретная зона для совместного движения представляется объединением их индивидуальных запретных зон (г). В этом случае направление движения должно принадлежать пересечению их допустимых зон, т. е. располагаться в первом квадранте


Эти ограничения сводятся к тому, что истинное направление движения должно располагаться в пределах зоны 180°, лежащей с разрешенной стороны от локально ориентированного элемента (рис. 3.37, а), или, наоборот, оно не должно попадать в зону, расположенную по другую сторону от этого элемента (рис. 3.37, б). Они, таким образом, связаны с ориентацией локального элемента. Следовательно, если видимая поверхность текстурирована и порождает множество локальных ориентаций, то истинное направление движения может оказаться достаточно сильно ограниченным.

Ограничения могут комбинироваться, как это показано на рис. 3.37, в и г для простого случая двух локальных элементов. Здесь истинное направление движения указывает диагональ. Вертикально ориентированная одиночная нервная клетка V, обладающая избирательностью по направлению, воспринимает движение, происходящее справа от нее, а горизонтально ориентированная одиночная нервная клетка Н воспринимает движение, происходящее над ней. Если они воспринимают одно и то же движение, то ограничения, налагаемые ими на его направление, можно объединить, взяв объединение соответствующих запретных зон (рис. 3.37, г). В результате оказывается, что направление движения должно принадлежать первому квадрату, как это показано на рисунке. Введение дополнительных одиночных нервных клеток позволяет еще больше ограничивать вариации истинного направления движения расширением запретной зоны.

Наш рисунок показывает также, каким образом движение двух групп элементов может оказаться несовместным. Если допустимая зона одной группы элементов полностью покрывается запретной зоной другой группы, то очевидно, что их движения не могут являться совместными. Отметим в этой связи, что в данном случае используется лишь направление движения, но не его скорость. Система, разделяющая некоторую сцену таким образом, будет в определенной мере нечувствительна к изменениям скорости.

Последнее из замечаний, являющихся предпосылкой для использования этой схемы, состоит в том, что наблюдаемые объекты локализованы в пространстве. Если эти объекты к тому же непрозрачны, то их изображения должны содержать некоторую внутреннюю область, в пределах которой запретные зоны диаграмм типа приведенных на рис. 3.37, г оказываются совместными при условии, что элементы этих запретных зон выбираются из малых окрестностей. Исключения могут иметь место, как, скажем, в случае вращающегося диска, но лишь изредка. Следовательно, метoд является надежным, но не обладает универсальностью: если две поверхности неподвижны друг относительно друга, разделить их не удастся.

Алгоритм и его реализация

Диаграммы, приведенные на рис. 3.37, фактически содержат всю информацию, которая должна быть известна в данном случае, поскольку искомый алгоритм должен сводиться к поиску окрестностей с локально совместными направлениями движения. На рис. 3.38 — 3.40



Рис. 3.38. Выделение движущейся фигуры из фона с помощью объединения одиночных нервных клеток, обладающих избирательностью по направлению. Центральный квадрат (я) на рис. 3.38, б смещен вправо. Фон на обоих изображениях перемещается в противоположном направлении. Контуры пересечений нулевого уровня изображения на рис. 3.38, а, обработанного с помощью ?2 G-фильтра (б) Результат свертки разности изображений, приведенных на рис. 3,38, а и б, с ?2 G-фильтром (г). Если изображения, приведенные на рис. 3.38, а и б, при предъявлении быстро следуют друг за другом, то функция на рис. 3.38, г является приближением производной ?/?t(?2G * I). Размер изображений составляет 400x400 пикселов, размер внутреннего квадрата 200x200 пикселов, размер каждой точки 4x4 пикcела, а смещения 1 пиксел




Рис. 3.39. Два последовательных кадра из 16-мм фильма о баскетбольном матче. Эти изображения проанализированы точно таким же образом, как и случайные конфигурации точек, приведенные на рис. 3.38




Рис. 3.40. Движения, соответствующие пересечениям нулевого уровня изображений, приведенных на рис. 3.38 и 3.39. Направление движения определено в соответствии с приведенными в тексте правилами, а для воспроизведения полученного результата использованы тоновые градации Под рисунками приведено кодирование направлений движения градациями серого тона. Центральный квадрат явно перемещается вправо, в то время как остальная часть изображения перемещается влево (a) Пересечения нулевого уровня эпизода баскетбольного матча (б) указывают, что левая рука игрока под номером 7 перемещается влево и вниз, а игрок, находящийся справа от него, движется вправо


представлены некоторые результаты, полученные при реализации на ЭВМ алгоритма, предложенного Д. Батейли. Рисунок 3.38 иллюстрирует обнаружение некоторой перемещающейся конфигурации, имеющейся в паре изображений, образованных случайными конфигурациями точек. Центральный квадрат (рис. 3.38,а) смещен на рис. 3.38, б вправо, в то время как фон перемещается в противоположном направлении. На рис. 338, в представлены контуры пересечений нулевого уровня, полученные в результате применения к изображению на рис. 3.38, а ?2 G-фильтрации. На рис. 3.38, г представлены значения, воспроизводимые в фазном канале при условии, что кадры, которые приведены на рис. 3.38, а и б, быстро сменяют друг друга в процессе предъявления испытуемому. На рис. 3.40, а представлены результаты применения ХYХ-операцииобнаружения движения к пересечениям нулевого уровня, изображенным на рис. 3.38, в. Кодирование направлений движения указывается звездочкой, показанной на рисунке: движение вправо обозначено черным, влево — белым. Положение центрального квадрата четко определяется нарушениями непрерывности по направлению движения.

Точно таким же образом проанализированы изображения реальных сцен, приведенные на рис. 3.39 (два последовательных кадра 16-мм фильма о баскетбольном матче). Результаты этого анализа приведены на рис. 3.40, б. Так, в частности, левая рука игрока под номером 7 перемещается вниз и влево, а крайний справа игрок перемещается вправо. Небольшие ошибки, более или менее неизбежные из-за способа выполнения дискретизации этих изображений, иногда порождают ложное движение фона

С психофизической точки зрения XYX-схема обнаружения движения хорошо согласуется с первым типом процессов по Браддику. Это явление, в частности, должно сказываться лишь в малых зонах (порядка w/?2 или 15' при эксцентриситете 5°) и при малых межкадровых интервалах (не превышающих продолжительности временной компоненты фазного канала, т. е. приблизительно 120 мс), что следует из данных, полученных для такого канала Уилсоном. Если единственным доступным различительным признаком является не направление, а скорость, то разделение оказывается невозможным, что подтверждается данными психофизического эксперимента (рис. 3.32).

Отметим к тому же, что объем информации, который избирательность по направлению может обеспечить, зависит от направления движения и ориентации движущихся элементов. Таким образом, одно и то же поле скоростей может восприниматься и когерентным, и некогерентным, в зависимости от ориентации движущихся элементов. Дело в том, что два соседних вектора скорости для элемента, ориентированного приблизительно перпендикулярно относительно них, определят направления движения с одним и тем же знаком, однако для элемента, ориентация которого совпадает с биссектрисой угла между ними, эти знаки будут противоположны. Мы убедились также и в том, что это верно с психофизической точки зрения. Более того, если образование когерентных групп происходит приблизительно так, как это представлено на рис. 3.37, то можно предполагать, что кластеры локально-когерентных движений будут восприниматься даже при предъявлении абсолютно случайных последовательностей кадров — так в действительности и происходит. Этот же механизм порождает и обращенный фи-феномен Анстиса , состоящий в том, что при одновременном реверсировании движения и контраста может возникнуть иллюзия движения в противоположном истинному направлению.

И наконец, использование цветовых, а не световых границ или предъявление белого поля во время межкадровых интервалов может нарушить действие этого механизма, как утверждает Браддик, из-за вмешательства в работу механизмов сетчатки, обеспечивающих измерение значений производных по времени, которые воспроизводятся с помощью Y-каналов.

Луминг



Выходные сигналы одиночных нервных клеток, обладающих избирательностью по направлению, могут оказаться интересными еще в одном отношении, поскольку объединение таких клеток, относящихся к обоим глазам, позволяет получить информацию иного типа. Допустим, что идентифицировано некоторое пересечение нулевого уровня и на двух изображениях ему поставлены в соответствие несовместные движения. В таком случае это пересечение нулевого уровня перемещается по глубине либо к наблюдателю, если на сетчатках обоих глаз оно удаляется от носа, либо от наблюдателя, если движение происходит в сторону носа. Если на обеих сетчатках перемещение происходит вправо, объект благополучно передвинется влево от наблюдателя, и наоборот.

Для того чтобы провести такой анализ, нет необходимости объединять ограничения таким образом, как показано на рис. 3.37, — можно использовать необработанные значения выходных сигналов одиночных нервных клеток, обладающих избирательностью по направлению. В данном случае, и в этом состоит сложность, необходимо обеспечить, чтобы как левые, так и правые детекторы ’’смотрели” на одно и то же пересечение нулевого уровня. Это достигается с помощью решения задачи установления соответствия между изображениями стереопары. Если, однако, время от времени допустимо возникновение неточностей, то может быть сформирован быстрый детектор луминга, который не должен дожидаться результатов процесса установления соответствия между изображениями стереопары В частности, основой для простой системы обнаружения луминга может служить сравнение знаков направлений движения в соответственных точках сетчатки. Такие точки часто, но отнюдь не всегда соответствуют соседним точкам одного и того же перемещающегося объекта.

Подобная система в определенной мере может базироваться на нервной клетке, располагающей бинокулярными рецептивными полями, находящимися в поле зрения рядом, но не являющейся чувствительной к диспаратности в полном смысле слова, причем приоритетные направления для обоих глаз противоположны. Имеются данные, подтверждающие существование таких нервных клеток.


----

Статья из книги: Зрение | Д. Марр

Добавить комментарий

Автору будет очень приятно узнать обратную связь о своей новости.

Комментариев 0