Модели стереозрения

Ссылки на ресурсы интернета по ИИ и близким к нему темам.
Sevolod
Posts: 56
Joined: Mon Jun 13, 2005 12:39 pm
Location: Санкт-Петербург
Contact:

Post by Sevolod » Thu Jun 16, 2005 6:50 pm

Inex, combinator
Кажется, отправил (чертов модем). Ловите.

Inex
Может Вы и правы в целом. Я пока не готов обсуждать проблему стереопсиса в таком общем виде (во всяком случае в форуме). Я - существо конкретное. Скажу только, что стереопсис идет очень быстро - и поэтому м.б. начинается с пикселей. Возможно, действительно есть несколько уровней стереопсиса. И мне тоже не нравится поветрие отдельно рассматривать канал восприятия формы, цвета, стерео и пр.

Вспомнил еще 2 недостатка модели Марра.
1. Он считал, что низкочастотный стереоканал предназначен только для обработки больших диспаратностей.
2. Диспаратные слои его моделей были независимы (не учитывал феномены "притяжения" и "отталкивания" диспаратных поверхностей).

Комбинатор
Posts: 858
Joined: Fri Jan 16, 2004 4:47 pm
Location: Санкт-Перербург <=> Париж

Post by Комбинатор » Fri Jun 17, 2005 9:34 am

Sevolod wrote:Inex, combinator
Кажется, отправил (чертов модем). Ловите.
Спасибо, кажется, получил. :)
По поводу дилемы пикселы - контура, ИМХО, тут многое зависит от аппаратной базы. В мозгу всё работает параллельно, поэтому, нет особых проблем с работой на уровне пикселей (ну или там локальных областей постоянной яркости). В современых компьютерах, наоборот, большинство операций выполняются сугубо параллельно, поэтому, с чисто функциональной точки зрения делать обработку на пиксельном уровне невыгодно из-за низкой скорости обработки. В идеале, конечно, оба метода должны отработывать параллельно, а потом результаты интегрироваться где-то выше, скажем, в блоке интерпретации фрагметов сцены.

Sevolod
Posts: 56
Joined: Mon Jun 13, 2005 12:39 pm
Location: Санкт-Петербург
Contact:

Post by Sevolod » Fri Jun 17, 2005 12:24 pm

Combinator
Хочу еще отметить, что бывают "бинокулярные" контура у поверхностей, которые видны только бинокулярно. В этом случае только они будут представлять интерес для дальнейшей обработки. То есть, этот тот случай, когда процесс выделения контуров надо осуществлять дважды - не только до, но и после выделения диспаратных поверхностей. В мозгу, кажется, так и есть.

Inex
Posts: 1897
Joined: Mon Jan 05, 2004 10:33 am
Location: Санкт-Петербург

Post by Inex » Fri Jun 17, 2005 1:34 pm

Sevolod wrote:Скажу только, что стереопсис идет очень быстро - и поэтому м.б. начинается с пикселей.
Вероятно, он начинается с пикселей, однако скорость тут ни при чем (ИМХО). Чтобы восстановить диспаратности без шумов, на пиксельном уровне нужны кооперативные алгоритмы, а они медленные, так как требуют итеративности, поэтому только такой механизм стереопсиса не подходит. С пиксельного уровня наверх могут подаваться быстро построенные сильно зашумленные карты диспаратностей, но которые все же содержат дополнительную полезную информацию о сцене. Используя эту информацию можно, в частности, более надежно выделять контуры (и вы привели правильный пример насчет "бинокулярных" контуров). То есть данные от "модуля" стереопсиса, выполненного на нижнем уровне могут использоваться для более надежного построения контурных и структурных описаний. Тогда обобщение с фильтрацией шумов на карте диспаратности будет проходить одновременно с построением самих структурных описаний и не нужно будет никаких кооперативных алгоритмов, чтобы фильтровать шумы на нижних уровнях!
Но можно пойти и другим путем (как уже говорилось): сначала построить структурных описания каждого из изображений стереопары, а затем без шумов восстановить диспаратности.
Иными словами, есть два процесса, которые выигрывают от взаимодействия друг с другом - это стереопсис и построение структурных описаний. В природе в таких случаях вместо того, чтобы решать сначала одну задачу, а потом решать вторую задачу с использованием решения первой, решаются обе задачи одновременно со взаимным обменом промежуточных результатов (в стиле адаптивного резонанса Гроссберга).
Так что не нужно спорить, что делается сначала: строятся ли контуры или карта диспаратностей. И то и другое делается одновременно (либо два модуля можно представить как последовательные, но с обратыми связями).

Тогда возникает потребность модифицировать алгоритмы построения контуров и стереопсиса на пиксельном уровне, таким образом, чтобы они могли принимать в качестве подсказок (этих подсказок может и не быть - но это должно влиять лишь на робастность алгоритмов, а не делать их невозможными) данные, полученные от другого модуля.

На первом шаге алгоритм стереозрения создает зашумленную карту диспаратностей, на втором - принимает информацию о контурах (ее может и не возникнуть, если картинки не содержат контуров) и использует эту информацию для более надежного отождествления точек на стереопаре, т.е. для уменьшения шумов.
Может ли ваш алгоритм быть модифицирован таким образом, чтобы принимать контурную информацию в качестве подсказок? И насколько это нейрофизиологически обосновано?


ЗЫ спасибо за присланную инфу
"Кто знает, тот делает, кто не знает, тот учит"

Комбинатор
Posts: 858
Joined: Fri Jan 16, 2004 4:47 pm
Location: Санкт-Перербург <=> Париж

Post by Комбинатор » Fri Jun 17, 2005 6:09 pm

Inex wrote:Чтобы восстановить диспаратности без шумов, на пиксельном уровне нужны кооперативные алгоритмы, а они медленные, так как требуют итеративности, поэтому только такой механизм стереопсиса не подходит.
Под кооперативными алгоритмами имеются в виду релаксационные методы, или что-то другое?

Sevolod
Posts: 56
Joined: Mon Jun 13, 2005 12:39 pm
Location: Санкт-Петербург
Contact:

Post by Sevolod » Fri Jun 17, 2005 8:32 pm

Inex
Скорость здесь не причем.
Имелось в виду, что скорость фузии частей стереограммы очень высока. Фузия проходит за время порядка 100мс. Это означает, что в фузии играют важную роль низкоуровневые (т.е. близкие к сетчатке процессы), а не высокоуровневые процессы. На низком уровне описание сцены ретинотопично, т.е. скорее попиксельно, чем не попиксельно (нет никакого структурного описания). В 50-х годах прошлого века до изобретения случайно-точечных стереограмм не знали о высокой скорости фузии и полагали ее как раз сложным высокоуровневым структурным медленным процессом.

Сильно ли зашумлена карта диспаратностей для реальных сцен – это, на мой взгляд, дискуссионный вопрос. Минимально воспринимаемый градиент диспаратности не так уж и мал (сорри, не помню наизусть цифры). Это означает, что карта диспаратностей достаточно сглажена. Встречный вопрос к вам – есть ли тестовая база стереоизображений для сравнения работы различных моделей, чтобы можно было оценить эту зашумленность количественно.
Давайте действительно не будем спорить про то, что первично - стереопсис или выделение контуров (структур). Проблема в том, что взаимодействие между блоками (в вашей терминологии) выделения стерео и выделения структуры можно представить бесконечным числом способов. В мозгу огромное количество обратных связей между различными зонами, поэтому нейрофизиология пока затрудняется говорить о таких тонких материях.
В принципе меня интересует вопрос именно динамики стереопсиса – то есть как перед человеком постепенно (в рез-те взаимодействия между различными блоками) проявляется стереосцена. Но дело в том, что хороших примеров таких медленно возникающих сцен – нет (ну или я их не знаю). Мозг работает быстро (:. Ясно, что чем больше мы исказим части стереопары друг относительно друга, тем сложнее (медленнее) фузия. Но я почти не знаю «хороших» «плохо видимых» стереопар, чтобы количественно построить зависимость времени фузии человека от «хорошести» сцены. И из результата опыта вывести некоторые правила взаимодействия блоков.
Если говорить сугубо о технических системах. Мой алгоритм просто говорит о том, поверхности какой диспаратности содержатся в сцене и насколько хорошо они будут видны человеком. Да. Можно на выход модели навесить какие-то подсистемы для выделения поверхностей с использованием сведений о контурах для робастности. Если для вас этот вопрос носит практический интерес – можем обсудить его подробнее.

Inex
Posts: 1897
Joined: Mon Jan 05, 2004 10:33 am
Location: Санкт-Петербург

Post by Inex » Mon Jun 20, 2005 11:51 am

Комбинатор wrote:Под кооперативными алгоритмами имеются в виду релаксационные методы, или что-то другое?
Скорее всего, да.
Sevolod wrote: Фузия проходит за время порядка 100мс
Извиняюсь за глупый вопрос, а как это определяется? Ведь чтобы зафиксировать, что фузия произошла, информация должна пройти по большей части зрительного тракта или нет? Да и скорость выделения контуров ведь тоже очень большая. Или тоже нет?
Sevolod wrote: есть ли тестовая база стереоизображений для сравнения работы различных моделей, чтобы можно было оценить эту зашумленность количественно
Большой тестовой выборки, к сожалению, нет, но несколько стереопар могу выслать, если нужно.
Sevolod wrote: В мозгу огромное количество обратных связей между различными зонами, поэтому нейрофизиология пока затрудняется говорить о таких тонких материях.
Хорошо. Хотя было бы интересно, если бы вы привели хоть какие-то нейрофизиологические данные на этот счет. Тогда можно было бы обсудить не то, как реально осуществляется взаимодействие между зонами, но как оно должно/могло бы осуществляться с учетом ограничений, накладываемых известными данными.
Sevolod wrote: Но я почти не знаю «хороших» «плохо видимых» стереопар, чтобы количественно построить зависимость времени фузии человека от «хорошести» сцены. И из результата опыта вывести некоторые правила взаимодействия блоков.
А это интересная задача! Можно попытаться предположить, какой механизм используется, и на основе этого попытаться разработать такие стереопары, которые для этого механизма были бы наиболее трудными. Как вам такое предложение?
Sevolod wrote:Мой алгоритм просто говорит о том, поверхности какой диспаратности содержатся в сцене и насколько хорошо они будут видны человеком. Да. Можно на выход модели навесить какие-то подсистемы для выделения поверхностей с использованием сведений о контурах для робастности. Если для вас этот вопрос носит практический интерес – можем обсудить его подробнее.
Да нет, непосредственный практический интерес сейчас отсутствует :(
"Кто знает, тот делает, кто не знает, тот учит"

Sevolod
Posts: 56
Joined: Mon Jun 13, 2005 12:39 pm
Location: Санкт-Петербург
Contact:

Post by Sevolod » Tue Jun 21, 2005 2:31 pm

Inex
Время фузии определяют маскированием. После стереограммы показывают маску - чтобы стереть ее следы из всяких зритеьных образований.
Скорость выделения контуров, наверное, тоже большая. А вот "структурных образований" - вряд ли.
Хороших данных про обратные связи я не знаю.
Задача разработать новые типы стереограмм специально для исследования механизмов и "под них" - интересная. Сейчас мои тезисы немного "про это" приняли в Испании - чуть позже их выложу.

Жаль, что нет практического интереса. Одному мне одиноко ковыряться.

Sevolod
Posts: 56
Joined: Mon Jun 13, 2005 12:39 pm
Location: Санкт-Петербург
Contact:

Post by Sevolod » Fri Jul 01, 2005 6:57 am

Комбинатор
Прочел я Моравека.
Интересно, но большого впечатления на меня не произвело. Алгоритмически все достаточно примитивно. Любопытно, как идеи “сталкиваются” с техническими ограничениями.
1. использовали 3 камеры, а не 2 (идея Розенфельда) для повышения достоверности выделения стерео. Зато пришлось размывать изображения, чтобы устранить погрешности не идеального расположения камер.
2. Хотели бы находить поточечную корреляцию (или сумму квадратов разностей), но ограничились “интересными” точками для быстродействия. Причем оператор выделения интересных точек взяли простенький.
3. Хотели бы использовать релаксационные модели, но для быстродействия просто учитывают диспаратность соседних фрагментов для определения диспаратности текущего.
Их демка с коридором выглядела бы занимательней, если бы в коридоре были: зеркала, окна, аквариумы, да еще бы и кошка бегала перед роботом :)
А еще каких-нибудь ссылок на техническое стерео у Вас нет? Их сложно искать.

Комбинатор
Posts: 858
Joined: Fri Jan 16, 2004 4:47 pm
Location: Санкт-Перербург <=> Париж

Post by Комбинатор » Sat Jul 09, 2005 10:48 am

Sevolod wrote:Комбинатор
Прочел я Моравека.
Интересно, но большого впечатления на меня не произвело. Алгоритмически все достаточно примитивно. Любопытно, как идеи “сталкиваются” с техническими ограничениями.
1. использовали 3 камеры, а не 2 (идея Розенфельда) для повышения достоверности выделения стерео. Зато пришлось размывать изображения, чтобы устранить погрешности не идеального расположения камер.
2. Хотели бы находить поточечную корреляцию (или сумму квадратов разностей), но ограничились “интересными” точками для быстродействия. Причем оператор выделения интересных точек взяли простенький.
3. Хотели бы использовать релаксационные модели, но для быстродействия просто учитывают диспаратность соседних фрагментов для определения диспаратности текущего.
Их демка с коридором выглядела бы занимательней, если бы в коридоре были: зеркала, окна, аквариумы, да еще бы и кошка бегала перед роботом :)
А еще каких-нибудь ссылок на техническое стерео у Вас нет? Их сложно искать.
Понятно.
По поводу неизбежных упрощений, связанных с недостаточным быстродействием, на мой взгляд, это ещё один аргумент против тем, кто считает, что вычислительная мощность сегодняшних компьютеров уже вполне достаточна для реализации полноценного ИИ.
Судя по всему, то, что на данный момент реализовано, лишь ненамного превосходит зрительную систему лягушки (разумеется, по качеству работы, а не по используемым алгоритмам), но и этого хавтило, что бы начать производство роботов-погрузчиков, способных самостоятельно, в полностью автономном режиме, доставлять товар на складе в указанное оператором место.

Если случайно встречу ещё статью про стереозрение, кину сюда ссылку.

Inex
Posts: 1897
Joined: Mon Jan 05, 2004 10:33 am
Location: Санкт-Петербург

Post by Inex » Thu Jul 14, 2005 1:48 pm

http://robonaut.jsc.nasa.gov/Vision.htm

- тоже, вроде, используется очень простой алгоритм стереозрения...
"Кто знает, тот делает, кто не знает, тот учит"

Sevolod
Posts: 56
Joined: Mon Jun 13, 2005 12:39 pm
Location: Санкт-Петербург
Contact:

Post by Sevolod » Fri Jul 15, 2005 7:40 am

Да, простой. Но и задача проще - отслеживать движения ближайшего объекта (у Моравека - позиционирование по 3D карте). Создается впечатление, что разработчики не мудрствовали лукаво. Может, так и надо.

Sevolod
Posts: 56
Joined: Mon Jun 13, 2005 12:39 pm
Location: Санкт-Петербург
Contact:

ECVP

Post by Sevolod » Mon Aug 08, 2005 11:17 am

Вот мои тезисы на ECVP про модель стереозрения и ее связь с психофизиологией. В принципе на этй конференциие есть еще много интересного...
http://www.conferencesoft.com/ecvp/prog ... aspx?did=4

Sevolod
Posts: 56
Joined: Mon Jun 13, 2005 12:39 pm
Location: Санкт-Петербург
Contact:

ECVP

Post by Sevolod » Mon Aug 08, 2005 11:17 am

Вот мои тезисы на ECVP про модель стереозрения и ее связь с психофизиологией. В принципе на этой конференции есть еще много интересного...
http://www.conferencesoft.com/ecvp/prog ... ddf4841415

Inex
Posts: 1897
Joined: Mon Jan 05, 2004 10:33 am
Location: Санкт-Петербург

Post by Inex » Wed Jun 21, 2006 8:52 am

Sevolod wrote:Т.о. к моделям поконтурного стереопсиса я отношусь скорее негативно. Моделей структурного стереопсиса я не встречал.
хотелось бы вернуться к этому вопросу...
к примеру, Хьюбел говорит примерно следующее:

1) перерез хиазмы не затрагивает стереопсиса, а лишь связан с полями зрения для каждого из глаз

2) в наружное коленчатое тело приходит информация от обоих глаз, но все нейроны там монокулярны - информация от разных глаз чередуется по слоям

3) Стереопсис нарушается при перерезании мозолистого тела

4) половина клеток стриарной коры - бинокулярные; стриарная кора - это первое место, где есть бинокулярные клетки

5) все клетки стриарной коры, участвующие в стереопсисе, обладают оринтационной избирательностью.

В связи с этим вопрос к нашим естественникам: верно ли все это или эти данные устарели?
"Кто знает, тот делает, кто не знает, тот учит"

Locked

Who is online

Users browsing this forum: No registered users and 1 guest