Введение

Проблема совмещения изображений заключается в установлении соответствия между точками двух или более изображений. Данная проблема является фундаментальной проблемой компьютерного видения, поскольку необходимость совмещения изображений возникает при решении таких задач, как выявление изменений в серии изображений, анализ движения, объединение информации от различных сенсоров, стереозрение и текстурный анализ. Подобные проблемы, в свою очередь, возникают в биомедицинских приложениях, при решении задач фотограмметрии и в зрении роботов, при дистанционном сборе данных, поэтому практическая полезность автоматического совмещения изображений несомненна.

Задача совмещения изображений также имеет глубокую связь с задачей распознавания объекта по его изображению, что позволяет переносить общие решения, найденные для одной задачи, на другую. Различные методы совмещения включают в качестве составных элементов выполнение таких операций, как выделение контуров, сегментация и построение структурного описания изображения. Все эти вопросы являются ключевыми в науке об интерпретации и понимании изображений - иконике, поэтому несомненна ценность изучения проблемы совмещения изображений и для теории.

Несмотря на постоянно возникающую необходимость совмещения изображений, эта проблема решена только для некоторых частных случаев и до сих пор остается актуальной. С одной стороны, основные усилия исследователей направлены на построение устойчивых полностью автоматических систем, не требующих вмешательства человека. Эти системы представляют огромный практический интерес. На данный момент такие системы разработаны лишь для узкого класса задач. С другой стороны, производятся попытки построения общих, проблемно-независимых систем, предназначенных для проверки гипотез, принадлежащих области интерпретации изображений, а также попытки моделирования систем зрительного восприятия, встречающегося в живой природе.

В настоящее время существует большое число методов совмещения изображений, которые были разработаны для различных ограничений на исходные данные. Такие ограничения естественным образом возникают при рассмотрении конкретных практических задач и меняются от задачи к задаче. Однако даже при одинаковых ограничениях методы могут существенно отличаться, поэтому с целью сравнения методов совмещения и выделения их общих свойств, не зависящих от конкретной проблемы, целесообразно произвести их классификацию по некоторым признакам.

Наиболее популярной классификационной схемой, единообразно описывающей все многообразие существующих методов совмещения, является схема, включающая в себя три характеристики: пространство поиска или допустимое пространственное преобразование и преобразование яркости между изображениями, тип применяемых характерных элементов изображения и стратегия поиска оптимального решения. Эти три характеристики не являются независимыми. Так, выбор конкретных характерных элементов изображения заметно сужает возможное пространство поиска, а эти две характеристики совместно во многом определяют стратегию поиска.

Прежде чем перейти к описанию существующих методов в рамках данной классификационной схемы рассмотрим классическую постановку задачи совмещения и сделаем некоторые предварительные замечания.

Постановка задачи

В задаче совмещения дано два изображения:

и , (1)

где - размерность изображений, для большинства случаев равная двум, однако, в некоторых приложениях (например, биомедицинских) используются объемные изображения.

Задача совмещения изображений заключается в нахождении такого пространственного преобразования и преобразования яркости , которые позволяют преобразовать одно изображение по отношению ко второму изображению таким образом, чтобы соответствующие между собой точки на двух изображениях совпадали:

и . (2)

Системы координат двух изображений могут различаться из-за смены ракурса съемки, вращения камеры и движения самого фотографируемого объекта. Поэтому основной задачей совмещения является приведение изображений в общую систему координат. Необходимость учета преобразования яркости возникает из-за возможного изменения освещения, сезонных и суточных изменений. Как пространственное преобразование, так и преобразование яркости может быть обусловлено также и тем, что совмещаемые изображения получены при помощи различного вида сенсоров. Поскольку равенство 2 на практике может выполняться лишь приближенно, следующая величина может служить критерием качества для данных преобразований координат и яркости:

. (3)

Введем следующее определение. Назовем опорными точками такие точки, для которых соответствующие позиции были идентифицированы на обоих изображениях. Поскольку опорные точки должны точно отображаться пространственным преобразованием, они играют роль ограничений, которым пространственное преобразование должно удовлетворять:

, (4)

где и - соответствующие опорные точки на первом и втором изображениях, а - число пар опорных точек. Ошибки в отображении опорных точек могут быть использованы для оценки точности данного пространственного преобразования:

(5)

Еще не так давно, пятнадцать-двадцать лет назад, выбор и отождествление опорных точек осуществлялось человеком-оператором. В более поздних, полуавтоматических методах оператору требовалось лишь производить отождествление, а отбор и точное определение координат опорных точек производилось компьютерными программами. Сейчас ведется разработка полностью автоматических методов, не требующих вмешательства человека.

Таким образом, задача совмещения изображений сводится к нахождению пространственного преобразования и преобразования яркости , которые дают минимум целевой функции, задающейся уравнением 3 или уравнением 5. Также могут использоваться и другие оценки качества, задающие специфические для конкретной задачи стратегии поиска. Теперь перейдем к рассмотрению отдельных составляющих методов совмещения.

Пространство поиска

Из общей постановки задачи совмещения следует, что необходимо искать такие пространственное преобразование и преобразование яркости , которые дают минимум некоторой целевой функции. Естественно, что искать подобный минимум для произвольных функций и не представляется возможным, поэтому возникает необходимость задавать класс возможных преобразований, то есть задавать пространство поиска. В большинстве работ, посвященных совмещению изображений, поиск преобразования яркости не производится. Это связано с одной из двух причин: либо априорно известно, что преобразование яркости является тождественным, либо разрабатываемые методы инвариантны к произвольному преобразованию яркости. Такие методы необходимы, поскольку преобразование яркости может и не являться однородным, то есть разные области изображения могут подвергаться различному преобразованию яркости. Само преобразование яркости, если оно необходимо для решения последующей задачи, может быть найдено уже после совмещения изображений.

Основной задачей при совмещении изображений является нахождение пространственного преобразования, которое описывается одним из следующих способов: глобальное преобразование, локальное преобразование и поле смещений.

В качестве глобального преобразования, задающего общее отображение всей площади одного изображения на второе, может выступать преобразование из группы движения, преобразование подобия, аффинное или проективное преобразования. Некоторые авторы также используют и полиномиальное преобразование. Проективное преобразование задается уравнениями:

, (6)

и является единственным из перечисленных преобразований, которое не линейно по своим параметрам. Аффинное преобразование задается этими же уравнениями с коэффициентами и , приравненными нулю. Для объемных изображений аффинное преобразование записывается в матричной форме следующим образом:

. (7)

Таким образом, аффинное преобразование может выступать как частный случай проективного преобразования или как полиномиальное преобразование первого порядка. Частным же случаем аффинного преобразования является преобразование подобия, образующее группу. Группа подобия включает в качестве подгруппы группу движения, отличаясь от нее возможным однородным преобразованием масштаба. Группа движения состоит из вращения и параллельного переноса. Совокупность всех преобразований параллельного переноса также образует группу. Если пространственное преобразование между изображениями не описывается единым глобальным преобразованием или модель глобального преобразования не известна, возникает необходимость использования других методов описания преобразования.

Локальное преобразование, иногда называемое эластичным отображением, задается так же, как и глобальное преобразование, параметры которого зависят от пространственных координат. Эти параметры часто определяются только на конкретных ключевых точках и интерполируются на всю область. Кроме непрерывной зависимости параметров преобразования от пространственных координат может использоваться и дискретная зависимость, при которой параметры остаются неизменными в определенных областях изображения, но могут меняться от одной области к другой. Такая ситуация наиболее характерна для объемных сцен, в которых каждая плоская поверхность дает свое проективное преобразование, описываемое уравнением 6.

Поле смещений, также иногда называемое оптическим потоком, задает независимо для каждой точки вектор смещения. Оптический поток рассматривают как некоторую функцию (часто непрерывную), подлежащую оптимизации, на которую накладываются ограничения, возникающие из априорных соображений. Поле смещений используется в тех случаях, когда глобальное преобразование отсутствует (является тождественным), а сами смещения не слишком велики, тогда общее преобразование выражается через поле смещений следующим образом:

, . (8)

Оптический поток может использоваться, как в явном виде (в виде зависимости ), так и в некоторой параметризации. Такой параметризацией могут служить, например, ряды Фурье:

, (9)

где - номера пространственных гармоник, - комплексный двухкомпонентный вектор коэффициентов Фурье ряда, - вектор пространственной гармоники, а - ширина и высота изображения в пикселях.

Проблема, в рамках которой решается задача совмещения, накладывает существенные ограничения на геометрическое преобразование. Например, в медицинских приложениях обычно используются либо трехмерные аффинные преобразования (или более частные случаи), либо непрерывные поля смещений, а в задачах стереовидения применяется поле смещений с единственной компонентой, направленной вдоль эпиполярных линий, но которое может иметь разрывы.

Однако ограничения на пространственное преобразование усиливаются из-за введения некоторых упрощающих предположений. Например, при совмещении аэрокосмических изображений часто ограничиваются глобальным аффинным преобразованием, пренебрегая проективной составляющей и возможными локальными отклонениями от глобального преобразования, которые в общем случае будут присутствовать. В задачах стереовидения предполагается, что глобальное преобразование отсутствует, а уравнения для эпиполярных линий известны. Из-за таких упрощающих предположений задача совмещения решается лишь приближенно или накладывает определенные требования на устройства, с помощью которых строятся изображения.

Гораздо чаще, чем на вид пространственного преобразования, вводятся ограничения на возможные значения его коэффициентов, то есть рассматривается не все пространство поиска, а лишь некоторый объем в нем. Самым распространенным ограничением такого типа является ограничение на возможное различие масштабов двух изображений. Поскольку масштабный множитель может существенно отличаться от единицы (особенно для изображений, полученных с помощью различных сенсоров), методы совмещения требуют указание его приближенного значения. Поэтому создание более универсальных методов остается актуальной проблемой.

Характерные признаки изображения

Следующим важным элементом метода совмещения является тип используемых характерных признаков изображения. По этому критерию выделяют два существенно отличающихся подхода: методы, основанные на площадях, и методы, основанные на деталях изображения. В первом случае характерными признаками изображения являются сами пиксели с соответствующими им значениями интенсивностей. Во втором случае в качестве характерных признаков могут выступать точки контуров, структурные или геометрические элементы, пятна текстур и даже конкретные объекты физического мира (т.н. совмещение изображений, основанное на знаниях). При этом каждая деталь на изображении задает опорную точку с соответствующими координатами. В методах, основанных на площадях, основной информацией являются интенсивности пикселей, поэтому задача сводится к минимизации целевой функции, задаваемой уравнением 3 или аналогичным уравнением. В случае методов, основанных на деталях изображений, целью является нахождение соответствия между опорными точками, то есть необходимо минимизировать целевую функцию, задаваемую уравнением 5.

Существуют различные точки зрения на вопрос о том, какой из двух подходов является более перспективным. Разные авторы, называют различные преимущества и недостатки, свойственные каждому из подходов.

Так, методы, основанные на площадях, признаются наиболее общими, поскольку не накладывают ограничений на контекст изображений. Также с их помощью можно получать наиболее точные совмещения, так как при этом может эффективно использоваться вся информация с изображения. При необходимости для подчеркивания характерных деталей может быть введено бинарное маскирование или другие процедуры взвешивания, что приводит к большей робастности этих методов. Однако в методах, основанных на площадях, не производится разделение инвариантной информации и информации, меняющейся от изображения к изображению, поэтому их применение затруднительно в ряде приложениях. Из-за использования всего объема исходных данных они трудоемки с вычислительной точки зрения, и с их помощью зачастую бывает затруднительно вести поиск глобального преобразования с большим числом параметров.

Совмещение изображений с использованием различного рода структурных элементов признается менее трудоемким с вычислительной точки зрения, так как размерность входных данных в этом подходе сильно снижена. Поскольку структурные элементы не используют напрямую значения интенсивностей, они гораздо более устойчивы к таким отличиям совмещаемых изображений, как изменение освещения, сезонные изменения, изменение типа сенсора и другие, что делает их гораздо более робастными в ряде приложений. Однако само выделение подобных признаков на изображении является трудной задачей. Для многих классов изображений это является серьезным недостатком, поскольку точность регистрации может оказаться не лучше, чем точность, достигаемая при первоначальном выборе опорных точек. Число структурных элементов и точность положения соответствующих им опорных точек обычно ограничены. Поэтому структурные элементы не несут информации о локальных смещениях, а глобальное преобразование с их помощью может определяться достаточно грубо.

В методах, основанных на деталях изображений, важным аспектом является построение адекватного описания изображения. В процессе построения описания должна выявляться релевантная информация о содержимом изображения, то есть та информация, которая не зависит от условий съемки, а отражает пространственные взаимосвязи между физическими объектами сцены. Поэтому методы, основанные на деталях изображений, представляют несомненную ценность в вопросах интерпретации и понимания изображений, а эффективность работы этих методов, основанных на той или иной модели изображения, может служить критерием адекватности данной модели.

Некоторые авторы пытаются использовать преимущества каждого из двух подходов, сначала производя неточное, но робастное, совмещение методом, основанным на деталях изображений, а затем уточняя глобальное преобразование и определяя поле сдвигов методом, основанным на площадях. Производятся попытки построить многоуровневую систему совмещения изображений, использующую различные представления изображения с постепенно возрастающей степенью абстракции. Однако и в таких системах существует свобода выбора характерных признаков изображения для каждого уровня. Например, в методах, основанных на площадях, отдельные пиксели можно объединять в единые области, которые используются в качестве шаблонов для совмещения. Для получения непрерывных полей деформации используются теоретические модели, в которых каждый пиксель может обладать собственным смещением. В методах, основанных на деталях изображений, выбор еще более широк. В качестве контурного представления изображения применяются совокупности точек, находящихся на перепадах яркости, границы областей с однородной текстурой или их остов. Соответственно, и структурные элементы, построенные на столь различной контурной информации, будут разными. К сожалению, обоснование использования тех или иных алгоритмов построения описания изображений (выбор конкретных структурных элементов) на данный момент остается на уровне эвристических соображений.

Стратегия поиска

Последней характеристикой метода совмещения изображений является стратегия поиска, которая состоит из критерия оценки качества отображения (критерия оптимальности) и оптимизационного алгоритма, описывающего порядок просмотра выбранного пространства поиска.

Критерий качества отображения

Критерий качества отображения зависит от выбора характерных признаков изображения. Поскольку основными характеристиками структурных элементов являются пространственные координаты, то совместно с ними весьма популярно использование метода наименьших квадратов (см. уравнение 5). В данное уравнение могут добавляться дополнительные слагаемые, если помимо пространственных координат структурные элементы обладают дополнительными характеристиками. В качестве таких характеристик могут выступать углы ориентации и геометрические размеры, которые должны совпадать для соответствующих структурных элементов после применения верного отображения. Так как далеко не все структурные элементы удается отождествить между собой на паре изображений, то критерий 5 применяется только к тем из них, для которых соответствие было найдено. Чтобы сравнивать между собой решения с разным числом соответствий, в критерий качества необходимо включать слагаемое, учитывающее их число.

В том случае, если в качестве характерных признаков изображения используются точки контуров, критерий оптимальности обычно строится на основе карты расстояний. Карта расстояний представляет собой следующее отображение множества контурных точек в пространство изображения. Пусть - область задания второго изображения (см. уравнение 1) и пусть - множество контурных точек на этом изображении. Тогда карта расстояний будет:

. (10)

Критерий качества преобразования будет выражаться через карту расстояний следующим образом:

, (11)

где , а - множество контурных точек на первом изображении. Уравнение 11 отличается от уравнения 5 лишь тем, что при его вычислении не требуется знать соответствия между характерными признаками изображения, такое соответствие устанавливается автоматически для данного пространственного преобразования. Уравнение 11 может быть обобщено на случай использования ориентированных точек контуров. При этом в качестве угла ориентации используется направление вектора градиента в данной точке. Использование ориентированных точек контуров позволяет гораздо надежнее выделять глобальный максимум, соответствующий истинному пространственному преобразованию.

Критерий наименьших квадратов также широко используется и для методов, основанных на площадях. Однако в этом случае минимизируется среднеквадратичное отклонение соответствующих значений интенсивностей (см. уравнение 3). При наличии некоторых априорных ограничений на пространственное преобразование в функцию, описывающую критерий качества, могут добавляться соответствующие слагаемые. Одним из наиболее широко используемых ограничений в биомедицинских приложениях является ограничение линейной эластичности, изменяющее критерий оптимальности следующим образом:

, (12)

где оператор имеет вид: . Данное ограничение служит для установления предпочтения плавным пространственным преобразованиям, не обладающим разрывами.

Некоторые авторы в методах, основанных на площадях, предпочитают использовать коэффициент корреляции вместо критерия наименьших квадратов. Положение корреляционного максимума определяет оптимальное смещение между шаблоном (фрагментом первого изображения) и вторым изображением, что дает пару опорных точек для выполнения совмещения. При этом вычисление кросскорреляционного поля через быстрое преобразование Фурье позволяет добиться хорошей производительности.

Для построения более робастных алгоритмов, основанных на площадях, привлекаются критерии качества, инвариантные к преобразованию яркости. Один из таких методов, признанный наиболее перспективным, является теоретико-информационный подход к совмещению изображений путем максимизации взаимной информации. Взаимная информация для двух изображений при данном пространственном преобразовании вычисляется следующим образом:

, (13)

где - энтропия случайной величины с распределением плотности вероятности . Поскольку в уравнении 11 важно не совпадение значений интенсивностей соответствующих пикселей изображений после применения пространственного преобразования, а увеличение вероятности совместного появления произвольных пар интенсивностей, взаимная информация оказывается инвариантной по отношению к произвольному преобразованию яркости. Методы совмещения путем максимизации взаимной информации отличаются способами оценки плотностей вероятности и и энтропии . При подсчете локальной энтропии изображения в некотором окне в ряде работ предлагается использовать число различных уровней интенсивности в качестве быстро вычислимой оценки. Некоторыми авторами критерий максимума взаимной информации также вводится и в методах, основанных на деталях изображений.

Одним из важных способов улучшения надежности совмещения является использование симметричной функции качества. В уравнениях 3, 5, 11, 12 и 13 функция качества не является симметричной в том смысле, что ее минимумы в общем случае не совпадает с минимумами функции , где , а . То есть результат совмещения двух изображений зависит от порядка этих изображений. Это связано с неоднозначностями, вызванными большим числом локальных минимумов, количество которых растет при увеличении размерности глобального преобразования. Как показано в ряде работ, использование симметричной функции качества приводит к уменьшению числа локальных минимумов, а значит, к улучшению надежности совмещения. Одним из способов построения симметричной функции является совместное решение прямой и обратной задачи, то есть нахождение такой пары преобразований и , которые дают минимум следующей целевой функции:

(14)

Выбор целевой функции определяет, будет ли глобальный экстремум всегда отвечать верному пространственному преобразованию для данного класса изображений, то есть определяет корректность метода совмещения. Сложность вычисления целевой функции непосредственно влияет на скорость работы алгоритма совмещения. От выбора целевой функции (критерия качества) также зависит и количество локальных экстремумов, соответствующих ошибочным решениям, что определяет сложность оптимизационного алгоритма и вероятность выбора ошибочного решения.

Оптимизационный алгоритм

Поскольку функция качества пространственного преобразования имеет множество локальных экстремумов, необходим оптимизационный алгоритм для эффективного поиска глобального экстремума этой функции. Лишь в случае установления соответствия между опорными точками человеком-оператором существует возможность определения пространственного преобразования без поиска в пространстве параметров. Для этого следует продифференцировать уравнение 5 по параметрам преобразования и приравнять эти выражения нулю, а затем решить полученную систему уравнений:

. (15)

Здесь - вектор параметров преобразования, состоящий из компонентов, . В случае линейности преобразования по своим параметрам система уравнений получается линейной, которая может быть решена, например, методом Гаусса за время, пропорциональное .

Если функция качества имеет корреляционную природу, то в качестве алгоритма оптимизации могут быть использованы методы градиентного подъема (спуска). Суть таких методов заключается в вычислении частных производных функции качества в текущей точке, определении направления ее наискорейшего роста и переходе к следующей точке, расположенной в найденном направлении на некотором расстоянии. Такой подход позволяет просматривать лишь небольшое количество точек во всем пространстве поиска, однако, для его применения необходима дифференцируемость функции качества и возможность вычисления ее градиента, а также начальная точка, располагающаяся достаточно близко к глобальному экстремуму. Последнее условие необходимо для достижения именно глобального экстремума, так как в противном случае может быть найден локальный экстремум.

При нахождении поля смещений для регулярно распределенных в пространстве точек могут быть применены подходы, в которых последовательно определяются все более высокие гармоники преобразовании Фурье для поля смещений (см. уравнение 9). С помощью этого приема пространство параметров разделяется на подпространства, и задача решается по отдельности для каждого из них, что позволяет свести многомерную задачу к нескольким задачам меньшей размерности. При переходе к более высоким гармоникам коэффициенты при более низких гармониках лишь слегка уточняются.

В случае привлечения различного рода структурных элементов для оценки качества отображения по формуле 5 возникает необходимость в установлении соответствия между структурными элементами на паре изображений. Здесь возможно два подхода. Первый подход заключается в просмотре точек в пространстве параметров преобразования. Для каждого рассматриваемого преобразования производится отождествление структурных элементов и оценка функции качества. Здесь могут быть использованы такие же алгоритмы оптимизации, как и в случае методов, основанных на площадях. Предпочтение отдается второму подходу, при котором рассматриваемой гипотезой является соответствие между структурными элементами. Для каждого такого набора соответствий можно найти пространственное преобразование, воспользовавшись системой уравнений 15, и оценить качество найденного преобразования по уравнению 5.

Множество всех возможных комбинаций различных соответствий, образующих дерево перебора, экспоненциально зависит от числа структурных элементов, поэтому исчерпывающий поиск допустим лишь в ограниченном числе случаев. Более популярными являются стохастические методам или методы конечного поиска, такие как динамическое программирование, методы моделируемого отжига и генетические алгоритмы. Во всех этих методах производится то или иное отсечение неперспективных ветвей в дереве перебора, что существенно повышает быстродействие, но может привести к выбору неоптимального преобразования. Сокращение перебора также осуществляется с помощью привлечения дополнительных признаков структурных элементов помимо их пространственных координат (например, для отрезков прямых линий такими признаками могут быть угол ориентации и длина отрезка). Это позволяет накладывать дополнительные ограничения на возможные сопоставления.

При выборе алгоритма оптимизации стремятся достичь компромисса между временем работы метода совмещения и вероятностью нахождения глобального экстремума. Одним из способов улучшения обоих параметров является применение техник с переменной разрешающей способностью.

Суть таких техник заключается в последовательном применении метода совмещения для изображений с постепенным изменением разрешения от грубого к точному. На каждой последующей итерации используются результаты, полученные на предыдущей итерации. Поскольку на грубом разрешении число точек изображений существенно уменьшено, можно более подробно просматривать пространство поиска с целью нахождения глобального экстремума, что требует гораздо меньше времени, чем при таком же просмотре для первоначальных изображений. На более точных разрешениях пространство поиска просматривается только вблизи точки, найденной на предыдущем шаге. Более того, поскольку шумы в основном имеют высокочастотный пространственный спектр, при уменьшении разрешения они сильно подавляются (а также исчезают мелкомасштабные детали, существенно меняющиеся от изображения к изображению), что вызывает уменьшение числа и глубины локальных максимумов функции качества. Это приводит к увеличению надежности совмещения при использовании подобной техники.

Одним из главных требований к методам совмещения является точность совмещения, то есть среднее (или максимальное) расстояние между соответствующими друг другу точками. Зачастую совмещение требуется выполнять с субпиксельной точностью. Это требование является актуальным для многих задач: выявление изменений, объединение данных, вычисление дальности и фотограмметрические приложения.

В различных методах используются разные подходы для повышения точности, но все они основываются на интерполяции. Самым общим приемом является интерполяция изображений, которая естественным образом расширяет техники с переменной разрешающей способностью. Интерполяция изображений может также использоваться для нахождения более точного положения максимумов на градиентном поле, то есть для получения контурных точек с вещественными координатами и построении на их основе геометрических элементов, обладающих более точными параметрами.

Классическими методами интерполяции являются билинейная и бикубическая интерполяции, интерполяция с помощью гармонических функций и бикубические сплайны. Бикубической интерполяции отдается предпочтение, поскольку она представляет собой компромисс качества и скорости вычисления. В некоторых случаях можно получить оптимальную интерполяцию, основываясь на функции рассеянья точки оптической системой.

При совмещении изображений индустриальных сцен точность методов часто повышают с помощью использования в качестве деталей изображений специальных маркеров, координаты которых можно измерить с высокой точностью благодаря их правильной форме. Обычно маркеры имеют круглую форму, которая в проекции на изображение становится эллиптической.

Классификация по типу задачи

Альтернативным путем классификации методов совмещения изображений является рассмотрение проблемы, в рамках которой решается задача совмещения. Обычно выделяют три вида адресуемых задач: объединение данных, оценка движения и выявление существенных изменений.

В первом типе задач основной целью является уменьшение шума путем усреднения (или некоторого более рафинированного процесса) по серии совмещенных изображений. Если изображения получены при использовании одного и того же сенсора, то методы совмещения разрабатываются в предположении идентичности данных, что существенно упрощает процедуру совмещения. Объединение данных также появляется, когда нужно найти соответствие между парой изображений, полученных при использовании различных сенсоров, что характерно для задач дистанционного сбора данных и биомедицинских приложений.

В случае задач дистанционного сбора данных часто требуется совмещать оптические и инфракрасные изображения, а также изображения, полученные с помощью интерферометров с синтезированной апертурой (SAR-изображения), а в случае биомедицинских приложений - изображения, полученные с помощью магнитного резонанса, и компьютерные томографические изображения. При объединении данных вместо одного из изображений может использоваться не визуальная информация, а, например, векторная информация (карта местности или схема какого-либо устройства) или цифровая карта высот. Таким образом, при совмещении изображений различной природы возникают существенные сложности, которые решаются по-своему в каждом конкретном случае.

Основной трудностью для методов, основанных на площадях, является то, что различные типы поверхностей по-разному меняют яркости при смене сенсора. Таким образом, изменение интенсивностей пикселей не описывается единым преобразованием яркости. Еще более сильным изменениям может подвергаться текстура. Более того, изображения могут обладать различной микроструктурой. Например, SAR-изображения подвержены спекл-шуму, из-за которого даже пиксели поверхности постоянной яркости имеют значения интенсивностей в очень широком диапазоне. Подобные особенности либо должны учитываться при совмещении, либо требуют специальной предобработки изображений.

При построении методов, основанных на деталях изображений, также возникают определенные сложности. Эти сложности связаны с необходимостью разработки различных методов для выделения одних и тех же деталей на изображениях разной природы. Сами детали, выделенные различными методами, могут иметь сильные отличия, что приводит к уменьшению точности совмещения. Различная природа изображений приводит к тому, что детали, присутствующие на изображении, полученном с помощью одного сенсора, могут отсутствовать на изображении, полученном с помощью другого сенсора, что приводит к сужению типов характерных признаков, которые можно использовать для совмещения.

В задачах определения движения (вторая категория) целью является оценить смещения твердых тел, накладывающихся на некоторый фон. В зависимости от конкретной задачи, сами тела могут быть как неподвижными (например, в задачах стереозрения), так и изменять свое положение от изображения к изображению. Поскольку в последнем случае типичными приложениями для таких методов совмещения является кодирование видеоинформации, сопровождение цели и создание автономных транспортных средств, важным аспектом методов совмещения является вычислительная эффективность. В связи с этим часто накладывают существенные ограничения на исходные данные: получение изображений при использовании одинаковых камер, сравнительно небольшое смещение камер и малый интервал времени между моментами получения изображений. С точки зрения задачи совмещения эти ограничения выражаются в том, что преобразование яркости близко к тождественному, изображения имеют одинаковое разрешение, глобальное пространственное преобразование ограничивается небольшими смещениями и поворотом, и отсутствуют существенные изменения. В задачах вычисления стереодиспаратности используется информация об эпиполярной геометрии камер, что также сильно облегчает процедуру совмещения. Основными сложностями здесь является существенная трехмерность сцен и наличие разрывов в полях смещения. Несмотря на то, что пространство поиска в этом классе задач определено практически однозначно, различными авторами используется весь спектр характерных признаков изображения и оценок качества преобразования.

Третья (последняя) категория включает обнаружение существенных различий, где основная сложность возникает из-за того, что сами объекты изображения могут существенно меняться вместе с изменениями в направлении съемки и освещения. Эта категория является наиболее общей и может включать все сложности, свойственные первым двум категориям. Дополнительная проблема здесь появляется из-за того, что в процессе совмещения производится попытка сопоставить данные, которые могут содержать сильные отличия. Учет таких отличий приводит к построению робастных методов совмещения, использующих внутреннюю оценку качества, инвариантную к выбросам.

Поскольку изменения носят структурный характер, и для их выявления необходимо построение и последующее сопоставление геометрических элементов, многие авторы предпочитают использовать методы совмещений, основанные на деталях изображений. Выбор конкретных деталей зависит от контекста совмещаемых изображений. Например, в производственных сценах наиболее популярными являются круглые метки (на изображениях принимающие форму эллипса), а при исследовании аэрокосмических изображений - отрезки прямых линий, углы, пересечения и многоугольники.

Однако в ряде приложений достаточным является указание областей, в которых произошли изменения. В этих случаях принятие решения о наличии или отсутствии изменений производится на основании статистических критериев в локальной области (например, коэффициент корреляции или количество взаимной информации), а совмещение часто производится методами, основанными на площадях, с применением критерия качества, аналогичного тому, который используется для принятия решения о присутствии изменений.

Заключение

Благодаря развитию компьютерной техники стало возможным создание и практическое применение автоматизированных методов совмещения, работающих с изображениями естественных и производственных сцен. Еще десять лет назад такие методы представляли лишь теоретический интерес. Совмещение изображений требуется во многих сферах человеческой деятельности: это и фотограмметрия, и проблемы зрения роботов, и задачи построения систем навигации автономных транспортных средств, и биомедицинские приложения. Благодаря обилию практических задач различными авторами было предложено большое число решений задачи совмещения, характерных для конкретной области применения.

Основные усилия разработчиков сейчас направлены по двум направлениям: усовершенствование существующих методов с целью получения полностью автоматических средств, предназначенных для совмещения конкретного типа изображений в конкретных приложениях, и обобщение накопленного опыта с целью построения универсальных систем совмещения, аналогичных зрительной системе человека. Последние, по-видимому, будут представлять иерархические системы, которые будут выполнять совмещение, используя несколько представлений различного уровня абстракции для каждого из изображений. В качестве таких представлений могут использоваться описания изображения отдельными пикселями, точками контуров, структурными элементами и символьное описание, требующее привлечения семантической информации.

Совместное использование различных описаний изображения требует единого подхода, в рамках которого эти описания строятся. В противном случае, иерархические системы будут представлять собой совокупность эвристик. По сути, создание подобного единого подхода - это решение проблемы интерпретации изображения, что и вызывает существенный интерес к задаче совмещения изображений как тестовой задаче в науке иконике. Некоторые авторы связывают надежды на решение этих вопросов с теоретико-информационным подходом, в котором, однако, на данный момент не учитываются физические аспекты формирования изображений, что пока делает их недостаточными для решения задачи интерпретации.

Важной техникой, позволяющей добиться большей производительности и надежности методов совмещения, является техника использования пирамиды изображения с постепенно улучшающимся разрешением. Однако конкретное применение этой техники во многом зависит от интуиции исследователя. Использование симметричной весовой функции, как показано в ряде работ, также приводит к более надежным методам совмещения за счет уменьшения числа локальных экстремумов.

Таким образом, в проблеме совмещения изображений наработан огромный эмпирический материал, однако, отсутствует общая теоретическая база, которую необходимо строить совместно с решением других задач интерпретации изобаржений.

Литература

G.Christensen, “Consistent linear-elastic transformation for image matching”. In 16^{th Conference on Information Processing in
Medical Imaging, pages 224-247, June 1999}

I.J.Dowman, “Automating image registration and absolute orientation: solutions and problems”, Photogrammetric Record, 16(91): pp. 5-18, 1998.

M.Gabrani and O.J.Tretiak, “Surface-based matching using elastic transformation”. Pattern Recognition, 32:87-97, 1999.

D.Lagunovsky and S.Ablameyko, “Straight-line-primitive extraction in grey-scale object recognition”, Pattern Recognition Letters 20, pp. 1005-1014, 1999.

A.A.Mustafa, “Optimum template selection for image registration using ICMM”, 9th British Machine Vision Conference, 1998.

C.V.Stewart, “Robust parameter estimation in computer vision”, SIAM Reviews, September 1999.

P.Thevenaz, U.E.Ruttimann, and M.Unser, “A pyramid approach to subpixel registration based on intensity”, IEEE Transactions on image processing, vol. 7, no. 1, 1998.

^{Иллюстрации}

Рис. 1. Пример вычисления стереодиспаратности для контурных точек пары ректифицированных изображений.

Рис. 2. Разделение существенно трехмерной сцены на поверхности, для каждой из которых необходимо определять собственное проективное преобразование.

Рис. 3. Совмещение инфракрасного и радиолокационного (SAR) изображений. Из-за отсутствия однородного преобразования яркости для изображений, полученных с разных сенсоров, и наличия спекл-шума на SAR-изображении, методы, основанные на первоначальных значениях интенсивностей неприменимы, совмещение производится на основе структурных описаний.

Рис. 4. Пример совмещения оптического изображения с векторными данными (CAD-моделью карты местности).