«В.Т. Фисенко, Т.Ю. Фисенко КОМПЬЮТЕРНАЯ ОБРАБОТКА И РАСПОЗНАВАНИЕ ИЗОБРАЖЕНИЙ учебное пособие Санкт-Петербург 2008 В.Т. Фисенко, Т.Ю. Фисенко, Компьютерная обработка и распознавание изображений: учеб. пособие. - СПб: ...»
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ
САНКТ - ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ, МЕХАНИКИ И ОПТИКИ
В.Т. Фисенко, Т.Ю. Фисенко
КОМПЬЮТЕРНАЯ ОБРАБОТКА
И РАСПОЗНАВАНИЕ ИЗОБРАЖЕНИЙ
учебное пособие Санкт-Петербург 2008 В.Т. Фисенко, Т.Ю. Фисенко, Компьютерная обработка и распознавание изображений: учеб. пособие. - СПб: СПбГУ ИТМО, 2008. – 192 с.
В пособии приведены методы компьютерной обработки и распознавания изображений. Рассмотрены математические модели изображений, критерии качества изображений. Описываются основные алгоритмы цифровой обработки и распознавания изображений, в том числе основы яркостных преобразований, преобразования цветовых координатных пространств, пространственной и частотной фильтрации, морфологических операций, кодирования, сегментации и классификации, а также анализа изображений.
Предназначено для студентов, обучающихся по направлению подготовки 200600 – «Фотоника и оптоинформатика».
Рекомендовано к печати УМО по образованию в области приборостроения и оптотехники в качестве учебного пособия для студентов высших учебных заведений, обучающихся по направлению подготовки 200600 – «Фотоника и оптоинформатика».
В 2007 году СПбГУ ИТМО стал победителем конкурса инновационных образовательных программ вузов России на 2007– годы. Реализация инновационной образовательной программы «Инновационная система подготовки специалистов нового поколения в области информационных и оптических технологий» позволит выйти на качественно новый уровень подготовки выпускников и удовлетворить возрастающий спрос на специалистов в информационной, оптической и других высокотехнологичных отраслях экономики.
©Санкт-Петербургский государственный университет информационных технологий, механики и оптики, ©Фисенко В.Т., Фисенко Т.Ю.,
СПИСОК ИСПОЛЬЗОВАННЫХ СОКРАЩЕНИЙ
АЦП - аналого- цифровой преобразователь, АФМ - адаптивная медианная фильтрация, ВО - видеообъект, ВП - вейвлетное преобразование, ВЧ - высокочастотный, ДИКМ - дифференциальная импульсно-кодовая модуляция, ДВП - прямое дискретное вейвлетное преобразование, ДКП - прямое дискретное косинусное преобразование, ДПФ - прямое дискретное преобразование Фурье, ЗС - зрительная система, ИК - инфракрасный, КИХ - конечная импульсная характеристика, МККР - Международный консультативный комитет по радиосвязи (CCIR) МКО - Международная комиссия по освещению (CIE), МСП - марковские случайные поля, МСЭ - Международный союз электросвязи, МСЭ-Р - комиссия по телевидению и радиовещанию МСЭ, МФ - медианный фильтр, НЧ - низкочастотный, ОДВП - обратное дискретное вейвлетное преобразование, ОДКП - обратное дискретное косинусное преобразование, ОДПФ - обратное дискретное преобразование Фурье, ПЗС - приборы с зарядовой связью, ПК - персональный компьютер, ПСШ - пиковое отношение сигнал/шум, СКО - среднеквадратическое отклонение, ТВ - телевидение, ТВЧ - телевидение высокой четкости, ЦАП - цифро - аналоговый преобразователь, ЦТВ - цифровое телевидение, ЭДС - электродвижущая сила, ЭЛТ - электронно-лучевая трубка, ЭОП - электронно-оптический преобразователь, B кадр - кадр, кодируемый с предсказанием в двух направлениях (Bidirectionally predictive coded picture), CCIR - МККР (International Radiocommunication Consultative МКО (Comission Internationale de l’Eclairage), CIE FIFO - первым вошел, первым вышел, HDTV - телевидение высокой четкости, HIS - цветовое координатное пространство (hue - тон, saturation - насыщенность, intencity - яркость), I кадр - независимо кодируемый кадр (Intra coded picture), IEC - Международный электротехнический комитет, ISO - Международная организация по стандартизации (International Organization for Standartization), Международный союз телекоммуникаций (International ITU-R Telecommunication Union - Radio) порог "минимальной заметной разницы", JND объединенная группа экспертов по фотографии (Joint JPEG Photographic Experts Group), просмотровая таблица (Look up Table), LUT метод кодирования Лемпеля, Зива и Вельча (Lempel, LZW Ziv, Welch), стандарт внутрикадрового кодирования M-JPEG видеопоследовательностей (Motion JPEG), Международная экспертная группа по обработке MPEG последовательностей изображений (Moving Picture Expert Group), набор инструментов для сжатия видео аналоговая система телевизионного вещания (США, NTSC Канада, Япония и др.), P -кадр - кадр, кодируемый с предсказанием (Predictive coded PDL аналоговая система телевизионного вещания, PAL красный (R), зеленый (G) и синий (B), RGB кодирование длин серий (Run-Length Encoding), RLE аналоговая система телевизионного вещания (СНГ, SECAM Франция и др.), 2D трехмерный.
3D ПРЕДИСЛОВИЕ
Цифровая обработка и распознавание изображений - одно из интенсивно развиваемых направлений исследования. Главная цель этого пособия - раскрыть предмет, не усложняя его сложными математическими преобразованиями. Имея большой опыт работы в области цифровой обработки изображений (более 34 лет), мы снабдили пособие большим числом иллюстраций, позволяющих продемонстрировать особенности реализации компьютерных методов обработки изображений и их анализа и синтеза. Считаем, что это позволит сделать изложение материала понятным и доступным как студентам, так и практикующим инженерам.Большое внимание уделено проблемам дискретизации и квантования сигналов изображений, поскольку эти вопросы важны при построении систем оптико - электронного преобразования сигналов. Все алгоритмы обработки описаны так, что они могут быть реализованы на компьютере. В пособии отсутствует описание конкретных пакетов программ, в которых можно выполнить эти алгоритмы. Выполнение может осуществляться, например, в системе MatLab, доступной студентам и специалистампрактикам. Это сделано, чтобы не загромождать представление особенностями, связанными с реализацией алгоритмов.
В первом разделе представлены предмет и задачи курса, а также описаны основные устройства формирования изображений.
Построение системы оптико - электронного преобразования базируется на модели сигнала; математические модели изображений описаны во втором разделе.
Наряду с широким применением датчиков черно-белого изображения, сегодня широко применяются цветные датчики изображения. Оценке цветовых характеристик изображений и неразрывно связанных с ними преобразованиям цветовых координатных пространств посвящен третий раздел.
Дискретизация и квантование сигналов позволяют представить изображение в цифровой форме в виде матрицы целых чисел. Процесс восстановления непрерывной двумерной функции по дискретным значениям яркости элементов изображения осуществляется интерполяционными методами. Этим важным проблемам преобразования сигналов посвящен четвертый раздел.
В компьютерных системах, когда получателем информации является человек, большое значение имеют методы улучшения изображений, позволяющие повысить заметность интересующих деталей на изображении. Кроме того, при предварительной обработке изображений, выполняемой в автоматических компьютерных системах, также важную роль играет предварительная обработка изображений, позволяющая сформировать пространство признаков объектов. Эти методы описаны в разделе.
Изображения, полученные на выходе оптико - электронных преобразователей, искажены помехами. При анализе объектов на сложном фоне, фон тоже является помехой. Ослабление действия помех достигается фильтрацией. В зависимости от приложения фильтрация производится в пространственной или частотной области. Основам фильтрации посвящен 6 раздел.
Формированию и обработке бинарных изображений посвящен раздел. При этом особое место отводится морфологии бинарных изображений, предназначенной для представления и описания свойств формы и структуры объектов. Введены основные признаки объектов:
геометрические признаки, яркостные характеристики, характеристики цветности, текстурные свойства и признаки движения.
Эффективность хранения, передачи и защиты цифровой информации в большой степени зависят от методов кодирования цифровых изображений. Методам кодирования и сжатия цифровых изображений посвящен 8 раздел.
Текстура является важной характеристикой изображения. Проблемы описания цветных текстур, их синтеза и анализа представлены в материале 9 раздела, посвященного анализу текстурных изображений.
Мы стремились к тому, чтобы материал пособия позволил читателям ознакомиться с основными современными методами и алгоритмами компьютерной обработки и распознавания изображений и помог ориентироваться в большом мире книг по цифровым методам обработки информации.
1 ПРЕДМЕТ И ЗАДАЧИ КОМПЬЮТЕРНОЙ ОБРАБОТКИ
И РАСПОЗНАВАНИЯ ИЗОБРАЖЕНИЙ
1.1 Определение компьютерной обработки изображений Компьютерная обработка и распознавание изображений представляет собой быстро развивающуюся самостоятельную дисциплину.Компьютерная обработка изображений предполагает обработку цифровых изображений с помощью компьютеров или специализированных устройств, построенных на цифровых сигнальных процессорах.
При этом под обработкой изображений понимается не только улучшение зрительного восприятия изображений, но и классификация объектов, выполняемая при анализе изображений.
В 60-е годы прошлого века получила развитие особая наука об изображениях – «иконика», которая посвящена исследованиям общих свойств изображений, целей и задач их преобразования, обработки и воспроизведения, распознавания графических образов [1]. Термин «иконика» происходит от греческого «eikon», что означает изображение, образ. Сегодня под ним понимают «создание и обработку изображений с помощью ЭВМ, что совпадает с понятием компьютерной обработки изображений.
Области применения цифровой обработки в настоящее время значительно расширяются, вытесняя аналоговые методы обработки сигналов изображений. Методы цифровой обработки широко применяются в промышленности, искусстве, медицине, космосе. Они применяются при управлении процессами, автоматизации обнаружения и сопровождения объектов, распознавании образов и во многих других приложениях.
Цифровая передача изображений с космических аппаратов, цифровые каналы передачи сигналов изображений требуют обеспечения передачи все больших потоков информации. Если при передаче цифрового сигнала цветного телевидения необходимо передавать потоки порядка 216 Мбит/с, то для передачи телевидения высокой четкости скорость передачи должна составлять порядка 1 Гбит/c. Формирование изображений, улучшение качества и автоматизация обработки медицинских изображений, включая изображения, создаваемые электронными микроскопами, рентгеновскими аппаратами, томографами и т.д., являются предметом исследования и разработки. Сегодня в медицинской технике широко применяются системы формирования изображения, его преобразования в цифровую форму, визуализация и документирование путем введения в компьютер изображений с помощью специализированных устройств захвата видео.
Автоматический анализ в системах дистанционного наблюдения широко применяется при анализе местности, в лесном хозяйстве, например, для автоматического подсчета площади вырубок, в сельском хозяйстве для наблюдения за созреванием урожая, при разведке, в системах противопожарной безопасности. Контроль качества производимой продукции выполняется благодаря автоматическим методам анализа сцен.
Компьютерная обработка изображений применяется в задачах экспертизы живописи неразрушающими методами [2]. Для восстановления старых фильмов применяются методы автоматической компенсации дефектов видеоматериала, полученного после преобразования киноизображения в видео.
Сегодня трудно представить область деятельности, в которой можно обойтись без компьютерной обработки изображений. Интернет, сотовый телефон, видеокамера, фотоаппарат, сканер, принтер, так прочно вошедшие в наш быт, - немыслимы без компьютерной обработки изображений.
При компьютерной обработке изображений решается широкий круг задач, таких как улучшение качества изображений; измерение параметров; спектральный анализ многомерных сигналов; распознавание изображений; сжатие изображений.
Устройства формирования изображений получили широкое распространение и применение в самых различных областях науки, техники, промышленности, медицине, биологии и др. [3-6]. Они являются неотъемлемыми компонентами систем и устройств, применяемых в фотокинотехнике, телевидении, системах технического зрения: дневного, ночного и теплового видения, при дистанционном зондировании Земли.
Назначение этих систем предполагает решение комплекса технических и научных задач, требующих синтеза и анализа методов обработки, бинаризации, классификации изображений. Развитие микроэлектроники, переход от аналоговой формы сигналов к цифровой позволяют расширить палитру и повысить сложность применяемых алгоритмов для решения поставленных задач [7,8]. Рассмотрим некоторые из устройств формирования изображений.
1.2 Устройства формирования изображений Устройства формирования изображений позволяют создавать изображения, порождаемые электромагнитным излучением в спектре от гамма излучения до инфракрасного (ИК). Рассмотрим некоторые из устройств формирования, которые включают электровакуумные и твердотельные фоточувствительные приборы.
Электровакуумные фоточувствительные приборы имеют фотокатод, эмитирующий электроны, и анод, на который подается положительный потенциал. Большинство передающих электровакуумных трубок и систем на их основе работают в видимом диапазоне. Отдельную группу оптикоэлектронных систем составляют приборы ночного видения, работающие в ближнем ИК диапазоне. Приемником и преобразователем ИК излучения в видимый диапазон в них является электронно - оптический преобразователь (ЭОП) [9]. В ЭОП анодом является люминисцентный экран, создающий видимое изображение при бомбардировке его электронами. Таким образом, он преобразует оптическое излучение в оптическое излучение, а не в электрический сигнал.
Передающие электронно - лучевые трубки (телевизионные) преобразуют оптическое излучение в электрический сигнал. В электровакуумных фотоприборах возможна регистрация предельно малых оптических сигналов на уровне единичных фотоэлектронов, высокое разрешение. Основные недостатки – это сложные вакуумные стеклянные и металлоконструкции, ограниченный срок службы катодов, мишеней и анодов, высокие напряжения питания; ослепление, ограничение спектральной чувствительности близким ИК диапазоном, большие массогабаритные характеристики.
Твердотельные фоточувствительные приборы обеспечивают преобразование оптических сигналов в электрические в твердом теле.
Существует два класса твердотельных фоточувствительных приборов:
квантовые и тепловые приемники излучения.
Квантовые фотоприемники основаны на изменении электрических свойств полупроводника при поглощении фотона. Фотон передает свою энергию электрону, переводя его на более высокий энергетический уровень. Этот процесс фотогенерации сопровождается формированием пары носителей электрон и дырка. К таким приборам относятся фотодиоды, фоторезисторы, приборы с зарядовой связью (ПЗС). ПЗС обеспечивают высокое разрешение (размеры элементов растра менее мкм), большие форматы (768x576 и больше), возможность управления экспонированием, высокую однородность чувствительности элементов, большее, чем в ЭЛТ, отношение сигнал/шум (С/Ш), малые габариты, вес и потребляемую мощность, имеют сравнительно низкую стоимость и большую номенклатуру изделий.
Тепловые твердотельные приемники излучения используют эффект изменения электрических свойств материала (емкости, сопротивления) при изменении его температуры вследствие нагрева при поглощении теплового излучения (при радиационном нагреве). Болометрическим эффектом называется изменение электрического сопротивления материала R при радиационном нагреве вследствие изменения температуры T этого материала. Болометрический эффект характеризуется температурным сопротивлением материала б =, где R – сопротивление материала (чувствительного слоя болометра) при температуре T. Приемник, построенный на основе этого эффекта, называется болометром. К фотоприемным устройствам резисторного типа относятся микроболометрические матрицы. Термочувствительный слой элементов таких матриц изготавливается из пленок окислов ванадия, кремния и германия. Для устранения влияния температуры окружающей среды, приводящей к нестабильности параметров, микроболометр заключают в вакуумированный корпус с термоэлектрической системой стабилизации рабочей температуры. Оптический модулятор не нужен. Сегодня эти приемники уступают охлаждаемым фотонным матричным приемникам по чувствительности, размерам элементов и быстродействию [10].
Второй тип приборов – это пироэлектрические фотоприемники. Они используют тонкие пленки особых кристаллических диэлектриков, обладающих пироэлектрическим (ферроэлектрическим) эффектом.
Чувствительный элемент в таких приемниках представляет собой ферроэлектрический конденсатор, при изменении температуры которого, изменяется его диэлектрическая постоянная, а, следовательно, и емкость.
Изменение емкости при постоянном приложенном к конденсатору напряжении, приводит к изменению заряда, поступающего от конденсатора на схему считывания сигнала. Поскольку изменение заряда происходит только при изменении температуры, то для наблюдения за объектами с постоянной температурой, необходимо модулировать падающее излучение. Осуществляется это обтюратором, который с частотой кадров перекрывает падающий на приемник поток излучения. В качестве диэлектриков используются ниобат калия тантала (KTN), титанат барий-стронций (BST) и другие виды керамики. Достоинствами пироэлектрических приемников являются почти равномерная спектральная чувствительность в широком диапазоне (от 800 нм до 25 мкм), высокая временная стабильность и низкая стоимость.
Третий тип тепловых приборов построен на использовании термопар (термоэлектрические матрицы). Два слоя разнотипных металлов/ полупроводников образуют термопару. Один слой облучается радиацией и нагревается, второй – экранирован от обучения. Между ними возникает термо ЭДС U. Величина ЭДС пропорциональна производной от этой ЭДС по температуре T = U / T. Термопара является генератором напряжения. При последовательном включении термоэлементов чувствительность возрастает пропорционально числу включенных элементов. Стабилизатор температуры не нужен. Термопары часто образуют пленками алюминия и поликристаллического кремния, расположенными друг под другом. Пленки разделены слоем SiO2 [11].
Термоэлементы имеют линейные рабочие хаарктеристики, не требуют обтюрации (в отличие от пироэлектрических приемников), работают без термостабилизации, не требуют источников питания.
Независимо от типа матричного фотоприемника общей тенденцией остается увеличение формата. При этом снижение размеров чувствительных элементов подошло к теоретическому пределу.
Совершенствование технологии производства приемников направлено, прежде всего, на уменьшение темнового тока с целью повышения пороговой чувствительности, повышение однородности чувствительности элементов, повышение чувствительности элементов, уменьшение перекрестных межэлементных помех.
Неохлаждаемые приемники ИК излучения все еще отстают от традиционных охлаждаемых по температурному разрешению. Однако их основные параметры (чувствительность, пространственное и температурное разрешение) в последние годы улучшаются, что в сочетании с такими преимуществами, как отсутствие холодильника, низкая стоимость, формат кадра порядка 640x480 элементов, обусловливают все более широкое их применение в мобильных тепловизионных системах широкого применения.
2 МАТЕМАТИЧЕСКИЕ МОДЕЛИ ИЗОБРАЖЕНИЙ
2.1 Модели непрерывных изображений Компьютерная обработка изображений возможна после преобразования сигнала изображения из непрерывной формы в цифровую форму.Эффективность обработки зависит от адекватности модели, описывающей изображение, необходимой для разработки алгоритмов обработки. При этом необходимо учитывать влияние передающей и приемной систем и канала связи на сигнал изображения. Модель изображения представляет систему функций, описывающих существенные характеристики изображения: функцию яркости, отражающую изменение яркости в плоскости изображения, пространственные спектры и спектральные изображения содержит оптическую систему, оптико - электрический преобразователь, устройство аналого - цифрового преобразования (АЦП) и цифровой обработки сигналов изображения. В общем случае непрерывное изображение может быть представлено функцией пяти аргументов: трех пространственных координат, времени и длины волны электромагнитного излучения. Упрощения модели пространственно - временных сигналов в некотором диапазоне волн пространственно - временного сигнала f ( x, y, z,t ), пространственного пространственные электромагнитного излучения.
2.2 Пространственные спектры изображений При обработке изображений широко используется анализ спектров изображений. Спектр изображения получают прямым двумерным преобразованием Фурье функции, описывающей изображение [12]:
где x, y - пространственные частоты; i = 1, мнимая единица.
Функция exp( i ( x x + y y )) при фиксированных значениях пространственных частот описывает плоскую волну в плоскости изображения ( x, y ) (в соответствии с рисунком 2.1).
Формула (2.1) связывает вещественную функцию, описывающую яркость изображения f ( x, y ) с комплексной функцией частоты – спектром изображения F ( x, y ) :
спектра.
Рисунок 2.1 Определение пространственных частот изображения.
Амплитуда и фаза спектра определяются по формулам (2.3) и (2.4) соответственно:
(щx,щy ) = arctg( Im(щx,щy ) / Re(щx,щy )).
Из (2.3) Обратное преобразование Фурье позволяет восстановить изображение по его спектру:
2.3 Спектральные интенсивности изображений Спектральная интенсивность изображения характеризует распределение энергии по пространственным частотам. Она определяется как квадрат модуля спектра изображения:
Для ее названия используются термины спектральная плотность и энергетический спектр.
Энергия изображения определяется как интеграл энергетического спектра по пространственным частотам. В соответствии с теоремой Парсеваля энергия изображения может быть вычислена в соответствии с (2.7):
2.4 Вероятностные модели изображений и функции Вероятностные модели изображений широко используются для описания изображений. Изображение в этом случае рассматривается как случайная функция пространственных координат (x,y) и времени t.
Случайный процесс называется стационарным в широком смысле, если он имеет постоянные значения математического ожидания и дисперсии, а его автокорреляционная функция зависит не от координат, а от их разностей (сдвига). Случайный процесс называется стационарным в узком смысле, если его n-мерная плотность распределения вероятностей инвариантна к сдвигу. В этом случае не зависят от времени и моменты более высокого порядка, в частности, асимметрия и эксцесс. Случайный процесс описывается плотностью вероятности распределения яркости в изображении по пространственным координатам для некоторого фиксированного момента времени t p( x, y ).
В соответствии с определением математическое ожидание (среднее значение) стационарного процесса в широком смысле Дисперсия Функция автокорреляции вычисляется в соответствии с (2.10):
где x, y задают сдвиги изображения по соответствующим осям координат.
Для действительной функции f автокорреляционная функция является действительной и четной.
Спектр двумерной автокорреляционной функции изображения (прямое преобразование Фурье автокорреляционной функции) равен энергетическому спектру изображения (спектральной плотности мощности) по определению:
Стационарный случайный процесс называется эргодическим, если любая его вероятностная характеристика может быть получена из одной реализации путем усреднения по времени. При этом среднее по времени равно среднему по ансамблю реализаций. Свойство эргодичности используется при оценке вероятностных характеристик изображений.
2.5 Критерии качества изображений Качество изображения может определяться статистическими, спектральными, яркостными характеристиками изображения. В большинстве практических применений качество рассматривается как мера близости двух изображений: реального и идеального или преобразованного и исходного. При таком подходе можно оценивать как субъективную степень похожести изображений, так и получать объективные оценки параметров сигналов изображения: моменты первого и второго порядка разностного сигнала сравниваемых изображений, такие параметры преобразования как отношение С/Ш, коэффициенты сжатия информации и другие.
Субъективные критерии - это критерии визуального восприятия, оцениваемые в процессе экспертизы некоторой группой наблюдателей (экспертов). Наибольшее распространение получил метод оценок, при котором наблюдатель оценивает качество изображения в баллах по определенной шкале, считая, что идеальное изображение имеет максимальный балл. Этот метод позволяет оценить такие характеристики изображения как правильность цветопередачи, координатные искажения, чистоту переходов и др. Основные шкалы оценок при использовании метода сравнения приведены в таблице 2.1 [13].
Для интерпретации полученных экспертных оценок разработаны методы их представления, например построение кумулятивных кривых распределения оценок как функции от искажений. Средняя оценка определяется по формуле где N-общее число оценок, ni - число оценок равных i баллам, r количество видов разных оценок.
Нормализованные оценки p выражают относительное качество в диапазоне [0,1]. При пятибалльной системе, когда g [1,5]:
а средняя оценка вычисляется в соответствии с формулой:
pср = (n5 + 0,75n4 + 0,5n3 + 0,25n2 ) / N.
Таблица 2.1 Основные шкалы субъективных оценок качества изображения ная 0,5 3 (удовлетворительно) 3 (заметно, немного 5 (несколько 0 1 (очень плохо) 1 (сильно мешает) 7 (крайне мешает) Единицей ухудшения качества телевизионных (ТВ) изображений является имп (от impairment –ухудшение, повреждение). Эта единица введена Проссером, Аллнаттом и Льюисом в 1964 г. и используется МККР (Международным консультативным комитетом по радиосвязи (CCIR)).
Ухудшение обратно пропорционально нормализованной оценке качества и изменяется от до 0 при изменении p от 0 до 1 в соответствии с формулой:
Достоинство методики оценки ухудшения состоит в том, что результирующая оценка ухудшения получается арифметическим суммированием оценок ухудшения, вызванных различными видами искажений сигналов изображения. Основываясь на психофизических свойствах наблюдателя, субъективные оценки позволяют характеризовать восприятие изображения. Интегральный критерий качества формируется по обобщенной формуле:
где M-число параметров, по которым оценивается качество изображения;
- показатель степени.
Значение показателя степени принимают равным 1, но могут быть использованы, например, такие значения как 0,78 или 2. В настоящее время применяются и другие оценки качества изображений. При разработке аппаратных средств специального назначения большое значение имеет оценка объективных характеристик качества преобразованного изображения.
Объективными критериями, используемыми при оценке качества изображений, являются критерии, позволяющие получить просто вычисляемую характеристику изображения разностного сигнала. К таким критериям относится, прежде всего, среднеквадратический критерий. По нему мерой различия двух изображений f ( x, y ) и f пр ( x, y ) является среднеквадратическое значение разностного сигнала двух изображений.
Для непрерывных изображений, заданных при x [0, N ] и y [0, M ], среднеквадратическое отклонение (СКО) вычисляется по формуле:
В некоторых случаях используется критерий максимальной ошибки, который в отличие от (2.12), позволяет установить значение максимальной ошибки преобразования:
Применяются и другие объективные критерии качества изображений [14].
Существует определенное разногласие в оценках качества, даваемых человеческим глазом (субъективных), и объективных, полученных в виде количественных показателей. Глаз является совершенным изобретением природы, с ним не могут соревноваться достаточно примитивные объективные оценки типа СКО, пикового отношения сигнал/шум (ПСШ) и др. Поэтому некоторые результаты, рассматриваемые с точки зрения объективных оценок как одинаковые, визуально могут восприниматься различно. Однако объективные критерии используются при компьютерной обработке изображений в системах с автоматическим принятием решений.
Функционирование автоматических компьютерных систем полностью подчинено математическим критериям, и качество их работы оценивается только объективными показателями. Понятно, что и качество изображений, используемых в этих системах, также должно оцениваться только по объективным критериям.
3 ЦВЕТ КАК ВАЖНАЯ ХАРАКТЕРИСТИКА
ВОСПРИЯТИЯ ОБЪЕКТА
Цветовые характеристики несут информацию об отражательных свойствах объекта. Различие отражательной способности объекта в разных участках спектрального диапазона обеспечивает возможность извлечения важной биологической информации об объекте. Ведь именно по цвету можно оценить, например, созрел ли плод, поражены ли заболеванием сельскохозяйственные культуры и многое другое.Теория цветового зрения и сегодня находится в незавершенной стадии развития. Проблема состоит в том, что многочисленные модели описывают цветовое зрение, но не являются теорией цветового зрения [15], поскольку ни одной из них не удается строго ответить на все вопросы об установленных фактах, относящихся к психофизическому и физиологическому аспектам цветового зрения. В книге [16] выделен специальный параграф “Некоторые нерешенные проблемы цветового зрения”. Начиная с опытов Ньютона и Максвелла, было предложено множество теорий, описывающих цветовое зрение человека. В классической трехцветной модели цветового зрения, разработанной Томасом Юнгом в 1802 году, предполагается, что существуют три компонента любого цветоощущения, которые являются аддитивными основными цветами: это красный (R), зеленый (G) и синий (B). На самом деле имеется бесконечное множество основных цветов, но чтобы получить максимальный диапазон смешанных цветов, следует пользоваться RGB.
Единственное условие правильного выбора основных цветов состоит в том, что при смешении двух из них мы не должны получать третий цвет.
Юнг постулировал, что поскольку трехкомпонентность цвета не имеет обоснования в теории света, то цвет является свойством самого глаза. Глаз анализирует каждый цвет в отдельности и передает сигналы о нем в мозг по трем типам нервных волокон: один тип передает сигнал о наличии R, второй - G, третий - B. На 50 лет теория Юнга была отвергнута и предана забвению. В 1852 году к ней одновременно обратились немецкий физик и физиолог Герман фон Гельмгольц и шотландский физик Джеймс Клерк Максвелл. Гельмгольц при попытке получить сине-зеленый цвет с длиной волны 500 нм смешением BG, заметил, что его нельзя получить путем аддитивного сложения трех основных цветов. Смесь получается белесая, менее насыщенная по сравнению со спектральным цветом. Через 10 лет Гельмгольц понял, что результаты опытов можно объяснить и на основе трех основных механизмов, исходя из предположения о том, что они обладают спектральной чувствительностью в широком, частично перекрывающемся диапазоне. При таком подходе, даже если раздражитель чистый в оптическом смысле, ответная реакция глаза таковой не является.
Максвелл одним из первых признал теорию Юнга и занялся разработкой точных методов измерения цветов. Он использовал цветовой треугольник Юнга, поместив основные цвета RGB в вершины равностороннего треугольника. Результирующий цвет любой смеси RGB располагается в центре тяжести трех масс. Результирующая аддитивной смеси двух цветов находится в их центре тяжести и поэтому лежит на прямой, соединяющей эти цвета. Этот закон центра тяжести является свойством всех плоских цветовых диаграмм. Теория Юнга - Гельмгольца не соответствовала цветовым ощущениям. Человек в состоянии различать, по меньшей мере, четыре качественно разных цветовых ощущения: красного, желтого, зеленого и синего цветов, - если к ним добавить белый, то получится пять.
В 1870 году немецкий физиолог Эвальд Геринг сформулировал оппонентную теорию цветового зрения. Он опирался на существование пяти психологических ощущений и считал, что они действуют в противоположных парах. В парах: красный и зеленый, желтый и синий цвета являются противоположными и не смешиваются.
Рисунок 3.1 Оси противоположных цветов в соответствии с оппонентной теорией Геринга.
После Геринга был столетний перерыв в развитии теории цветового зрения. В 1953 году Томсон и Райт опубликовали кривые спектральной чувствительности к красному, синему и зеленому диапазонам спектра. В 1964 году две группы американских ученых (Маркс, Добелл, Мак - Никол в опытах на сетчатке серебряного карася, обезьяны и человека, и Браун и Уолд на сетчатке человека) обнаружили три типа колбочек, поглощающих свет в различных частях спектра. Согласно современным данным на рецептурном уровне свет регистрируется тремя различными типами колбочек (как постулировано в теории Юнга - Гельмгольца), и эти рецепторы обладают чувствительностью к R, G, B - частям спектра.
Однако, поступающая от них информация, по - видимому, преобразуется в импульсные разряды и до передачи в мозг кодируется в сетчатке. Эта закодированная информация посылается в виде сигнала о яркости из всех трех типов колбочек, а также в виде разностных сигналов каждых двух цветов. Подключается и второй яркостный сигнал, берущий начало, вероятно, от независимой палочковой системы. Мозг воспринимает закодированную информацию о яркости и разностные цветовые сигналы.
Таков механизм цветного зрения в соответствии с зонной теорией Адамса [17].
Концепция построения систем цветного телевидения основана на принципе постоянной яркости и согласуется с зонной теорией Адамса.
В рамках трехкомпонентной теории цвета набор основных цветов можно выбрать многими способами, этим объясняется большое количество координатных систем, предложенных для количественного описания цвета. Описание этих координатных систем приводится как в фундаментальных исследованиях по цвету, так и в научно-технических статьях при описании различных алгоритмов обработки. Методы анализа цветных изображений зависят от цветового координатного пространства [18], выбор цветового координатного пространства определяет эффективность метода.
Рисунок 3.2 Механизм цветного зрения в соответствии с зонной теорией Адамса.
Рассмотрим некоторые цветовые модели.
В цветовом координатном пространстве RGB любой цвет получается как сумма (смешение) красного, зеленого и синего цветов. Если представить это пространство в виде куба, то на главной диагонали куба, образованного из нормированных компонентов, будут расположены серые цвета (ахроматические). Наряду с тем, что накоплен большой объем информации о реакции и чувствительности глаза к трем стимулам RGB, это цветовое пространство является аппаратно ориентированным. Цветные электронно - лучевые трубки и жидкокристаллические дисплеи отображают цветные изображения, основываясь на аддитивной смеси этих трех компонентов.
В этом пространстве компонент Y включает в себя только информацию о яркости пикселов, а компоненты Сb и Сr содержат только информацию о цвете и насыщенности. Поскольку органы зрения менее чувствительны к цвету предметов, чем к их яркости, такое пространство позволяет передать компонент яркости с большим разрешением, чем компоненты цветности.
Определение компонентного сигнала задается через сигналы основных цветов R, G, B из уравнения, рекомендованного стандартом федеральной комиссии связи (FCC) [19]:
(R– Y)= R– 0,299 R– 0,587G – 0,114B =0,701R– 0,587G– 0,114B.
(B– Y)= B– 0,299 R – 0,587G – 0,114B= – 0,299R– 0,587G + 0,886B.
Здесь R, G, B - исходные сигналы основных цветов, подвергнутых предварительной гамма - коррекции с целью обеспечения оптимального качества изображения на экране кинескопа. Если значения сигналов привести к единице (максимальный уровень сигнала - 1В), то получим значения для белого, черного и насыщенных основных и дополнительных цветов, представленные в таблице 3.1.
Значения сигнала Y находятся в пределах от 0 до 1, значения цветоразностных сигналов изменяются от 0,701 до 0,701 для Сr и от 0,886 до 0,886 для Сb. Приведение диапазонов изменения цветоразностных сигналов к единице достигается введением нормирующих коэффициентов Kr=0,5/0,701=0,713, Kb=0,5/0,866=0,564.
Сигнал яркости и нормированные цветоразностные сигналы связаны с сигналами основных цветов следующим матричным преобразованием:
Переход от цветового координатного пространства RGB к пространству YCrCb (3.1) соответствует рекомендациям Международного телекоммуникационного союза (ITU - International Telecommunication Union) ITU - T с идентификатором BT.601.
Определение компонентного сигнала задается через сигналы основных цветов R, G, B. При 8 - ми разрядном представлении компонентов диапазон значений составляет для Y [0,255], а для Cr и Cb [ 128,127]. После перевода цветоразностных сигналов в диапазон [ 128,127], получим матрицу для основных цветов, определяющую обратное преобразование в соответствии с уравнениями:
Это пространство используется в ТВ системах PAL и SECAM, а также при кодировании неподвижных изображений и видеопоследовательностей.
При формировании сигнала используется сокращение избыточности цветоразностных сигналов. Этот принцип основан на особенности человеческого зрения не различать или плохо различать цвета мелких деталей изображения. Экспериментально было установлено [20], что при расстоянии до экрана цветного телевизора L=4,5h, где h - высота экрана, наблюдатель не ощущает мелкие синие детали как цветные при пространственной частоте этих деталей > 0,5 0,6 МГц, а красные при частоте > 1,3 1,5 МГц.
Рисунок 3.3 Графики зависимости видимой насыщенности от размеров деталей и их цветов.
На этой особенности человеческого зрения основано построение аналоговых и цифровых систем цветного телевидения, в которых частота дискретизации сигнала яркости в 2 раза превышает частоту дискретизации каждого из цветоразностных каналов. В форматах 4:2:2 и 4:2:0 вводится по одному цветоразностному отсчету на 2 отсчета яркости [21].
3.3 Цветовая модель YIQ Эта модель используется в коммерческом цветном ТВ, тесно связана с цветной растровой графикой и представляет собой вариант кодирования цветов RGB, обеспечивающий совместимость с черно белым телевидением. Это пространство используется в ТВ системе NTSC в США.
Координата Y при этом совпадает с координатой Y в колориметрической системе МКО (Международная комиссия по освещению – Comission Internationale de l’Eclairage, CIE). Компонент I представляет тон, а компонент Q – насыщенность. Преобразование модели RGB в модель YIQ выполняется в соответствии с системой уравнений:
Q 0,212 0,523 0,311 B Соответственно обратное преобразование выполняется следующим образом:
3.4 Цветовая модель L*a*b* МКО Эта система координат обеспечивает относительно точное представление цветов в соответствии с системой цветов, разработанной в 1905 году художником Манселлом. Эта система может быть получена после преобразования системы RGB в цветовую координатную систему XYZ МКО 1931 в соответствии с уравнениями:
Сумма коэффициентов при компонентах составляет 5,651. С учетом нормировки преобразование следует выполнять в соответствии с системой:
Затем выполняется преобразование системы XYZ в систему L* a* b* в соответствии с уравнениями (3.7). Координата L* определяет яркость цвета, a* - соотношение красного и зеленого цветов, b* - соотношение синего и зеленого.
L* = 116(Y / Y0 ) X,Y, Z - координаты опорного белого цвета в системе XYZ.
Цилиндрические координаты этого пространства соответствуют как эмпирической системе Манселла, так и согласуются с физиологической моделью цветного зрения. Эти координаты известны как психометрическая яркость, тон и насыщенность и задаются по формуле:
L* = L* H ° = arctg b* a* При таком описании элементом является круговой цилиндрический сегмент, выделенный на рисунке 3.4. Поверхности элементарного объема формируются в соответствии с рисунком при заданных диапазонах изменения яркости и цветности. Горизонтальные срезы формируются при условии постоянной яркости, вертикальные срезы, проходящие через ахроматическую ось OL*, получаются при постоянном тоне, а части цилиндрических поверхностей, концентрических относительно оси OL*, формируются при постоянной насыщенности.
Рисунок 3.4 Элемент в цветовом координатном пространстве L a* b*.
3.6 Цветовая модель HSI Выполним обратное преобразование цветового координатного пространства HSI в пространство RGB и получим:
если H1/3, то если 1/32/3, то 3.7 Цветовая модель HLS Эти цветовые координаты введены Тененбаумом (Стэнфордский исследовательский институт) и широко используются при анализе сцен [22].
Тон и насыщенность определяются через rgb координаты, определяемые как нормированные тристимульные значения:
Локус r+g+b=1 определяет треугольник Максвелла, изображенный на рисунках 3.5 и 3.6. На рисунке 3.5 приняты следующие обозначения: Pцветной элемент; W-серый, r=g=b=1/3; P'-пересечение ОР с плоскостью треугольника. Пересечение вектора OP с плоскостью треугольника Максвелла определяет тон и насыщенность в соответствии с выражениями 3.16:
Рисунок 3.5 Цветовое координатное пространство RGB.
Яркость L пропорциональна длине вектора OP на рисунке 3.4 и определяется в соответствии с уравнением:
Нейтральная точка, или точка серого, W представляет точку с равными компонентами R, G, B. Относительно этой точки определяются координаты H и S (в соответствии с рисунком 3.6).
Выполним прямое преобразование, чтобы затем получить формулы обратного преобразования из пространства HLS в пространство RGB.
Треугольник Максвелла задается тремя точками с координатами (1,0,0), (0,1,0) и (0,0,1) в координатной системе rgb. Уравнение плоскости, проходящей через эти точки, в соответствии с уравнением плоскости в отрезках, имеет вид:
rgb Точка W является центром тяжести треугольника Максвелла и имеет координаты (1 / 3, 1 / 3, 1 / 3). Угол между OW и плоскостью треугольника Максвелла составляет 90°:
Рисунок 3.6 Цветовое координатное пространство HLS.
а модуль вектора OW определяется в соответствии с выражением:
Пусть точка P имеет координаты (r1, g 1, b1 ), тогда уравнение прямой OP можно записать в виде [23]:
Отсюда направляющий вектор прямой OP имеет координаты (r1, g 1, b1 ). Определим угол между прямой OP и плоскостью треугольника Максвелла:
Уравнение прямой gr, где g(0,1,0), r(1,0,0) имеет вид:
пересечения плоскости треугольника Максвелла и прямой OP:
аналогично b = b1, r = r1. То есть координаты точек P и P совпадают.
Уравнение прямой WP (W (1 / 3, 1 / 3, 1 / 3), P ( b1, g 1, r1 )) имеет вид:
Рассмотрим 3 случая: первый, когда точка P находится в секторе I, в треугольнике RWG, 0 =0°; второй, когда точка P находится в секторе II, в треугольнике GWB, 0 =120°; третий, когда точка P находится в секторе III, в треугольнике BWR, 0 =240°.
Рассмотрим сектор I. Координаты точки A определяются как координаты точки пересечения прямых W P и GR. Прямая GR задается системой:
Из (3.29) при b=0 получим:
Из (3.31) координаты точки А задаются следующими значениями:
Насыщенность, задаваемая как отношение модулей WP и WA, вычисляется делением (3.34) на (3.33):
Для определения тона необходимо вычислить угол между прямой WR и прямой WP :
Для сектора II 0 = 120°, производя вычисления, аналогичные выполненным для сектора I, с учетом того, что точка А определяется как точка пересечения прямых WP и GB, а тон задается углом между прямыми WP и GB плюс начальное смещение 0 = 120°, получим следующие выражения:
Для сектора III 0 = 240°, производя вычисления, аналогичные выполненным для сектора I, с учетом того, что точка А определяется как точка пересечения прямых WP и BR, а тон задается углом между прямыми WP и BR плюс начальное смещение 0 = 240°, получим следующие выражения:
Обобщая (3.35)(3.40), можно записать где N=2r-g-b, 2g-b-r, 2b-r-g и 0 = 0°, 120°, 240° в секторах I, II, III соответственно.
Обратное преобразование, так же как и прямое, будем выполнять для каждого сектора отдельно.
В секторе I при 0 = 0° исходные данные представлены системой (3.43).
Обозначим b= +, Возведя правую и левую части уравнения (3.46) в квадрат, получим:
Корни уравнения (3.47):
При 0, из (3.48) получим:
Такую же пару значений x мы получим при раскрытии модуля в случае отрицательных значений косинуса при,, только x1 и x при этом поменяются местами. Поскольку область изменения функции, задаваемой уравнением (3.49 б), не удовлетворяет геометрическому смыслу задачи, то следует этот корень считать посторонним. Решением является корень x1.
В соответствии с (3.49 a) из (3.44) выражение для r имеет вид:
В соответствии с (3.49 a) из (3.45) выражение для g имеет вид:
Выполнив аналогичные вычисления для секторов II, в котором 0 = 120°, и III, в котором 0 = 240°, и обобщив полученные решения, получим следующие уравнения для обратного преобразования из пространства HLS в пространство RGB:
где =H, r= x, g= x, b= x, при H120°;
иначе если H240°, то =H-120°, r= x1, g= x, b= x, иначе если H >240°, то =H-240°, r= x, g= x, b= x.
Преобразование пространства RGB в пространство HLS выполняется в соответствии с уравнениями (3.52), (3.53).
3.8 Цветовая модель L*u*v* МКО Эта модель равноконтрастного цветового пространства отличается от пространства L a b цветовыми координатами u*v* (яркости в этих пространствах совпадают). Если (a*b*) являются нелинейным преобразованием (X,Y) МКО, то (u*v*) связаны с (X,Y) линейным преобразованием.
L* = 25(100Y / Y0 )1 / 3 16,1 yс Вычисляя свертку согласно (4.8) найдем Меняя порядок операций суммирования и интегрирования и учитывая основное свойство - функции, получаем выражение для спектра дискретизованного изображения:
Cпектр дискретизованного изображения получается путем бесконечного повторения спектра исходного изображения со сдвигом на величины, кратные ( 2 / x, 2 / y ). Повторение спектра для сечения по строке показано на рисунке 4.2. Следует отметить, что при выборе x и y слишком большими, соседние спектры будут перекрываться друг с другом.
Обратная операция, позволяющая из цифрового массива получить непрерывное изображение, называется восстановлением непрерывных изображений. Из отсчетов функции f(x,y) можно получить непрерывное изображение путем линейной пространственной интерполяции или с помощью линейной пространственной фильтрации дискретизованного изображения. Пусть r(x,y) есть импульсный отклик интерполирующего фильтра, а R( x, y ) - его частотная характеристика. Восстановленное изображение получается как свертка последовательности отсчетов с импульсным откликом восстанавливающего фильтра. Таким образом, восстановленное непрерывное изображение описывается соотношением a)b) Рисунок 4.2 а) Изменение спектра по строке для а) непрерывного сигнала, б) дискретизованного сигнала.
Подставляя f(x,y) из (4.4) и вычисляя свертку (4.13), получаем Отсюда видно, что импульсный отклик r(x,y) является двумерной функцией, интерполирующей отсчеты на всю плоскость.
Пространственно-частотный спектр изображения, восстановленного согласно равенству (4.14), есть произведение частотной характеристики восстанавливающего фильтра и спектра дискретизованного изображения, то есть Из этого выражения видно, что спектры не должны перекрываться, а восстанавливающий фильтр R( x, y ) должен пропускать без искажений основной спектр при n=0 и m=0 и полностью подавлять все побочные спектры при n,m 0, чтобы спектр восстановленного непрерывного изображения совпадал со спектром исходного изображения. Только в этом случае исходное и восстановленное изображения будут одинаковыми. Для изображений с ограниченной шириной спектра первое условие выполняется, если интервал дискретизации выбран так, что прямоугольная область, ограниченная верхними граничными частотами спектра изображения ( xc, yc ) лежит внутри прямоугольной области, определяемой половинами частот дискретизации xs / 2, ys / 2 (в соответствии с рисунком 4.3). Следовательно, должны выполняться неравенства:
Рисунок 4.3 Выбор частоты дискретизации в соответствии с теоремой отсчетов.
Это означает, что шаг дискретизации не должен превышать половины периода пространственной гармоники, соответствующей самым мелким осуществляется с частотой Котельникова, вдвое превышающей наивысшую частоту спектра исходного изображения. В тех случаях, когда пространственная частота дискретизации выбрана в соответствии с теоремой Котельникова, исходное изображение можно точно восстановить путем пространственной фильтрации отсчетов с помощью соответствующего фильтра. Так, например, фильтр, частотная характеристика которого имеет вид прямоугольного параллелепипеда (в соответствии с рисунком 4.4) и описывается выражением:
где К- масштабирующая постоянная, Функция рассеяния точки, или импульсный отклик, данного восстанавливающего фильтра имеет вид [12]:
При использовании этого фильтра изображение восстанавливается с помощью бесконечной суммы функций вида sinc(x).
Рисунок 4.4 Частотная характеристика идеального восстанавливающего прямоугольного фильтра.
4.2 Квантование изображений Для получения цифрового сигнала из непрерывного сигнала необходимо кроме дискретизации по времени произвести квантование по амплитуде [29]. Квантование состоит в том, что непрерывному по амплитуде сигналу ставится в соответствие конечное множество целочисленных значений сигнала, пропорциональных непрерывному значению.
Для этого динамический диапазон сигнала f=[ f min, f max ] разбивается на конечное число интервалов - интервалов квантования. Каждому интервалу ставится в соответствие одно значение, называемое уровнем квантования, кодируемое двоичным кодом. Все значения сигнала, попадающие в некоторый интервал, обозначаются одним числом, определенным для данного интервала.
Пусть f - амплитуда сигнала в дискретном представлении, fзначение сигнала, принадлежащее q-му интервалу квантования. При использовании L- разрядного кода число уровней квантования равно 2.
Ошибка квантования (шум квантования) может характеризоваться величиной:
Дисперсия ошибки q отличия f от его квантованного представления f :
где f q, f q +1 - границы q-го интервала квантования, p(f)- плотность вероятности распределения входного сигнала.
Оптимальным квантованием будем считать такой выбор интервалов квантования и значений их представителей, при котором q минимальна.
Выбор дисперсии в качестве критерия обусловлен такими достоинствами этой меры, как универсальность; простота расчетов и построения алгоритмов; высокая коррелированность с субъективными показателями качества.
Пусть плотность вероятности значений исходного сигнала постоянна в пределах интервала квантования, тогда Оптимальное положение уровня квантования f в интервале [ f q, f q +1 ] можно найти, решая задачу о минимуме ошибки как функции от f.
Приравнивая нулю производную от q по f получаем Из (4.21) оптимальное значение уровня квантования соответствует середине интервала квантования, при этом максимальная ошибка квантования внутри интервала составляет не более половины интервала квантования.
Подставив выражения (4.21) в (4.20), получим Дисперсия ошибки квантования В общем случае оптимальное положение пороговых уровней и уровней квантования получают из точного уравнения ошибки квантования, полученного с учетом (4.19):
Дифференцируя Q по переменным f q и f и приравнивая производные нулю, получим систему уравнений:
После преобразований, она сводится к системе уравнений:
где q=1..2 L.
Решая эти уравнения рекуррентным способом, для заданной плотности вероятностей находят оптимальные значения пороговых уровней и уровней квантования. Макс (J. Max) решил такую задачу для гауссовой плотности и составил таблицы размещения пороговых уровней в зависимости от числа уровней квантования. На рисунке 4.5 представлена амплитудная характеристика квантователя Макса [12] для трехразрядного представления сигнала.
Подставив (4.25б) в (4.24), получим, что дисперсия ошибки квантования для оптимального квантователя уменьшается до значения:
Для частного случая равномерной плотности распределения сигнала, при которой оптимальные значения уровней квантования из (4.25 б) определяются в соответствии с выражением:
Оптимальные значения пороговых уровней в соответствии с (4.25 а) Следовательно, при равномерной плотности вероятности сигнала изображения оптимальным является равномерное квантование, при котором интервал квантования:
а плотность распределения:
Дисперсия шума квантования в этом случае из (4.26):
Отношение сигнала к СКО шума квантования в этом случае составляет Из (4.29) следует, что увеличение числа разрядов квантования на приводит к повышению отношения сигнал/шум примерно на 6 дБ.
Существующие устройства осуществляют обычно равномерное квантование сигналов. Используя такие устройства, оптимальное квантование можно выполнить, если перед равномерным квантованием сигнал подвергнуть нелинейному преобразованию (предыскажению), формирующему сигнал с равномерной плотностью вероятности.
4.2.2 Квантование сигнала при наличии шумов Рассмотрим воздействие аддитивного шума на процесс квантования при равномерной амплитудной характеристике квантователя. Входной сигнал представим в виде:
u(t)=f(t)+n(t), где f(t)- входной полезный сигнал; n(t)- аддитивный шум.
Квантование считается безошибочным, если сигнал u(t) попадает в тот же интервал квантования, что и сигнал f(t). Если же сигнал u(t) попадает в другие интервалы квантования, то возникают дополнительные ошибки квантования, вызванные шумом. Количественную оценку влияния шума на квантование дал Фридман [30]. Построенная им кривая представлена на рисунке 4.6 как кривая 0.
При построении этой кривой предполагается, что значения сигнала равновероятны в пределах диапазона квантования. Шум нормальный с СКО.
Кривая соответствует вероятности правильного присвоения двоичного числа, соответствующего незашумленному сигналу с ошибкой ± 0 в зависимости от, равного отношению шага квантования f к шума. Фульц расширил рамки анализа, определив вероятность присвоения данного двоичного числа уровню, отличающемуся на величину ± n от правильного уровня. Кривая 0 соответствует ошибке ±0, кривая соответствует ошибке ±1 и т.д.
Рисунок 4.5 Амплитудная характеристика оптимального квантователя Макса.
Формула интегрального распределения ошибок квантования, обусловленных шумом, имеет вид [31]:
где ( U ) - интеграл вероятностей.
Определим понятие L полезных разрядов. Если имеется L полезных разрядов, то это означает, что в результате действия шума вероятность правильного формирования (L+1) разряда составляет 0,5. То есть, если мы выбираем 8 полезных разрядов, то это означает, что 9-й разряд правильно не опознается, т.е. вероятность правильного прочтения этого разряда равна 0,5. Кривая 0 на рисунке 4.6 показывает, что разряду L+1 (вероятность 0,5) соответствует значение =1,47. Значит, при L полезных разрядах ((L+1)- й не нужен) =1,47x2=2,94, т.е. шаг квантования должен быть в 2,94 раза больше СКО шума.
Качество работы системы можно оценивать также по уровню шума, вводимого квантователями (АЦП). Мощность шума ( у Q ), вносимого процессом квантования, определяется в соответствии с (4.28). Будем называть систему уравновешенной, если дисперсия шума квантования равна сумме дисперсий всех шумовых сигналов любого происхождения, генерируемых в системе до квантования, т.е.
у 2 до_квантования = f 2 / 12 или = 12 = 3,464.
Таким образом, на основании двух критериев можно пользоваться общим правилом, согласно которому отношение шага квантования к СКО шума примерно равно 3.
Рисунок 4.6 График зависимости вероятности квантования от отношения интервала квантования к СКО аддитивного шума.
При n=0 кривая соответствует вероятности безошибочного квантования при наличии шума. Ее можно использовать для выбора числа уровней квантования при заданной мощности шума и требуемой достоверности отсчета.
4.3 Погрешности дискретного представления изображений Несоответствие дискретного представления сигнала изображения его физическому источнику, являющемуся непрерывной функцией пространственных координат и амплитуды сигнала, обусловлено ошибками дискретизации и квантования сигнала.
4.3.1 Погрешность дискретизации Погрешность дискретизации оценивается путем сравнения восстановленного по дискретным отсчетам непрерывного сигнала изображения с непрерывным исходным изображением. Ошибки дискретизации обусловлены, прежде всего, шагом дискретизации и передаточной функцией восстанавливающего фильтра. В разделе 4.1 в соответствии с (4.16) задание шага дискретизации определяется шириной спектра непрерывного сигнала изображения. Шаг выборки может не соответствовать этому критерию вследствие, например, ограничений на размер массива данных. В этом случае идеальный восстанавливающий фильтр (4.18) приведет к восстановлению исходного изображения с некоторой помехой (возникновением муара, в иностранной литературе называется алиайзингом (aliasing)), вызванной наложением спектров [32].
Покажем это для случая одномерного сигнала. Пусть спектр непрерывной функции ограничен интервалом [ / x, / x ], как показано на рисунке 4.7а).
При дискретизации с шагом x происходит периодическое повторение спектра сигнала непрерывного изображения, как показано на рисунке 4.7 б). Полоса идеального низкочастотного (НЧ) фильтра соответствует спектральному диапазону исходного сигнала [ / x, / x] (рисунок 4.7 в). В этом случае после идеального фильтра спектр сигнала не изменится, как показано на рисунке 4.7 г).
Следовательно, и обратное преобразование неискаженного спектра сигнала позволит восстановить его в точном соответствии с входным непрерывным сигналом. Однако, если полоса идеального НЧ фильтра меньше спектрального диапазона входного сигнала, то при дискретизации произойдет наложение высокочастотных частей спектра. Побочные спектры складываются с основным спектром. Формируется спектр сигнала изображения, отличный от исходного спектра. При использовании идеального восстанавливающего фильтра в полосе [ / x, / x ] будет восстановлен сигнал, соответствующий искаженному спектру, представленному на рисунке 4.7 з). При этом уже невозможно разделить спектр помехи пространственной дискретизации и спектр исходного сигнала. Если нет возможности согласовать частоту дискретизации со спектральным диапазоном сигнала, то чтобы не допустить возникновения помехи пространственной дискретизации, перед дискретизацией необходимо ограничить спектр исходного непрерывного изображения, подвергнув его низкочастотной фильтрации, подавляющей частоты, большие / x.
4.3.2 Погрешность квантования В разделе 4.2 мы рассмотрели условия формирования оптимального квантователя, минимизирующего погрешности квантования. На рисунке 4.8 проиллюстрировано влияние ошибок квантования на восприятие изображения.
Возникновение ложных контуров особенно заметно на участках с плавным изменением яркости. В настоящее время чаще производится квантование изображений на 256 уровней (8 разрядов) по яркости или по каждому из RGB компонентов для цветных изображений. При недостаточной разрядности иногда прибегают к наложению случайного шумового сигнала с небольшой дисперсией для уменьшения заметности ложных контуров.
Рисунок 4.7 Идеальная НЧ фильтрация сигнала в полосе, равной полосе частотного спектра сигнала: а) спектр непрерывного сигнала; б) спектр сигнала после дискретизации; в) частотная характеристика идеального фильтра; г) спектр сигнала на выходе фильтра. Идеальная НЧ фильтрация сигнала в полосе, меньшей полосы частотного спектра сигнала: д) спектр непрерывного сигнала; е) спектр сигнала после дискретизации; ж) частотная характеристика идеального фильтра; з) спектр сигнала на выходе фильтра.
В этом случае сигналы одинаковой яркости, сложенные со случайными значениями, разрушают границы областей постоянной яркости. На рисунке 4.9 приведен пример такой обработки изображения.
Рисунок 4.8 Равномерное квантование: а) число разрядов квантования L=8, б) число разрядов квантования L=4.
а)б) Рисунок 4.9 а) Изображение получено равномерным квантованием на уровней изображения «Лена»; б) изображение получено наложением нормального шума при СКО=5 на исходное изображение и равномерным квантованием на 16 уровней.
4.4 Методы интерполяции изображений Интерполяция предназначена для восстановления непрерывных значений амплитуды сигнала изображения по ее дискретным значениям.
При масштабировании изображения необходимо заменить двумерный массив амплитуд сигнала, заданный на сетке отсчетов, некоторым другим массивом, положения отсчетов которого определяются коэффициентами масштабирования. Эта задача решается методами интерполяции. Широко применяется разделение интерполяционного преобразования на два независимых - сначала производится интерполяция по строкам, а затем по столбцам. Поэтому рассмотрим интерполяцию изображения по строкам, интерполяция по столбцам производится по аналогичным формулам в направлении столбцов изображения.
В разделе 4.1 рассмотрены условия точного восстановления сигнала при его дискретизации с частотой Котельникова, вдвое превышающей наивысшую частоту спектра исходного изображения. При этом исходный непрерывный сигнал может быть точно восстановлен путем пространственной фильтрации отсчетов с помощью соответствующего фильтра. Частотная характеристика идеального восстанавливающего фильтра (4.17) приведена на рисунке 4.4. Функция рассеяния точки, или импульсный отклик, данного восстанавливающего фильтра определяется обратным преобразованием Фурье частотной характеристики фильтра (4.18). На рисунке 4.10 представлен график функции рассеяния точки вдоль оси абсцисс (координаты x) для нулевого отсчета изображения. По оси абсцисс отложены номера отсчетов изображения i, соответствующие значениям ix относительно нулевого отсчета. Значение амплитуды сигнала изображения, учитывая (4.14 и 4.18), вычисляется по формуле:
При использовании этого фильтра изображение восстанавливается с помощью бесконечной суммы произведений функции вида sinc(x) на соответствующие отсчеты сигнала изображения. Поскольку в каждом отсчете значения произведений равны нулю для всех отсчетов сигнала Рисунок 4.10 Импульсная характеристика идеального восстанавливающего фильтра по x-координате.
изображения, кроме отсчета с номером i, для которого x ix = 0, а sinc(0)=1, то в положении отсчетов значения сигнала точно равны значениям сигнала исходного изображения. На интервале между отсчетами значение сигнала равно сумме взвешенных и сдвинутых sinc(x).
Функция sinc(x) сдвигается в каждое положение отсчета и масштабируется в соответствии со значением амплитуды сигнала изображения в этом отсчете.
Применение идеального восстанавливающего фильтра требует задания сигнала изображения на интервале от до. Используется ограничение импульсной характеристики фильтра несколькими интервалами x (до ± 10). В графических приложениях используется оконный метод, при котором значение функции sinc(x) умножается на некоторую оконную функцию. Главная задача при разработке такого фильтра - получить частотную характеристику фильтра наиболее близкую к частотной характеристике идеального НЧ фильтра. То есть фильтр должен пропускать сигнал с максимальным коэффициентом в полосе низких частот и максимально подавлять сигнал боковых полос с тем, чтобы уменьшить артефакты, вызванные наложением спектров. Одним из фильтров, удовлетворяющих этим требованиям, является фильтр Ланкцоса (Lanczos). Функции импульсной характеристики такого фильтра определяются в соответствии с формулами:
Если таким кластером оказывается кластер Cv, то сумма квадратов отклонений векторов от центров масс их кластеров уменьшается:
Для кластера Cv вычисляется новое значение центра масс и суммы квадратов отклонений по формулам (9.44), (9.45), (9.40), (9.41) для кластеров Cv и Cr соответственно.
Такая перестановка приводит к уменьшению общей суммы квадратов отклонений векторов от центров масс кластеров, которым они принадлежат. Классический алгоритм К-внутригрупповых средних предполагает выполнение стольких итераций этого процесса, сколько потребуется для того, чтобы при двух последовательных итерациях сумма квадратов отклонений не изменилась.
Представим подробнее схему выполнения алгоритма. Размерность вектора x L=3 (вектор задается своими RGB компонентами).
Первоначальное разбиение выполняется по тоновому компоненту, и результат сегментации записывается в виде уровней отсчета изображения.
Значение отсчета равно номеру кластера, сформированного после выполнения порогового ограничения. N - количество кластеров, полученных после сегментации, является параметром алгоритма.
Затем производится оценка центров кластеров S [ j,k ] j [1, N ], k [1, L ] и суммы квадратов отклонений всех векторов кластера от центра кластера e[r] r [1, N ], причем отклонение для каждого вектора определяется в пространстве RGB, то есть где k - номер компонента вектора, r - номер кластера, j- номер элемента в кластере; x[k, j ] - значение k-го компонента j-го элемента изображения, принадлежащего кластеру r.
Вычисляется сумма квадратов отклонений от центра кластера по всем векторам, составляющим кластер:
Вычисляется сумма квадратов отклонений от центров кластеров по всем кластерам, составляющим изображение:
Выполняется перераспределение векторов между кластерами таким образом, чтобы минимизировать D. Формируются новые оценки центров кластеров и суммы квадратов отклонений векторов, входящих в кластер, от центра кластера в соответствии с формулами (9.40), (9.41), 9.44, 9.45.
На рисунке 9.6 представлен график зависимости нормированного к максимальному значению значения суммы квадратов отклонений векторов от центров кластеров D/Dmax от числа итераций ntrace.
Рисунок 9.6 График зависимости нормированной величины внутрикластерных ошибок D/Dmax от числа итераций ntrace.
Исследования проведены по 50 различным цветным изображениям.
Коэффициент уменьшения D от итерации к итерации изменяется, но характер зависимости соответствует представленному на рисунке. Из графика видно, что увеличение числа итераций не приводит к существенному уменьшению D. Метод К-внутригрупповых средних сходится локально. Эффективность кластеризации зависит от первоначального разбиения. На основании полученных результатов исследования ограничим число итераций:
На рисунке 9.7 приведен пример изображений, в которых кластеры представлены центрами масс.
Рисунок 9.7 Пример классификации изображений. Кластеры представлены центрами масс. a) Исходное изображение; в) изображение получено после кластеризации по методу К-внутригрупповых средних при числе итераций ntrace=1; г) изображение получено после кластеризации по методу К внутригрупповых средних при числе итераций ntrace=10; б) изображение, сформированное как разность изображений в) и г).
Изображения получены после кластеризации по методу К внутригрупповых средних при числе итераций ntrace=1 (рисунок 9.7 в) и ntrace=10 (рисунок 9.7 г). На рисунке 9.7 б) показано изображение, сформированное как разность изображений в) и г), по которому видно, что увеличение числа итераций приводит к уточнению разбиения прежде всего на границах кластеров, но не уменьшает ошибок разбиения, вызванных первоначальным разбиением. Например, изображения красно-коричневых кругов (рисунок 9.7 a) отнесены к одному кластеру. Увеличение числа итераций не приводит к их разделению, хотя глаз хорошо различает эти круги. Для уменьшения ошибок кластеризации выполним дополнительное разбиение кластеров посредством сегментации по гистограммам H, R, G, B компонентов, полученным для каждого кластера, по методу порогового ограничения. Сформируем кластеры и применим алгоритм К внутригрупповых средних для доопределенного множества кластеров.
На рисунке 9.8 г) видно, что вследствие доопределения кластеров, выполнено разделение кругов красно-коричневого цвета на кластеры, соответствующее зрительному восприятию.
Рисунок 9.8 Пример классификации: a) исходное изображение; б) изображение, представленное центрами масс кластеров после первоначального разбиения по тоновому компоненту; в) изображение, представленное центрами масс кластеров, при кластеризации по методу К-внутригрупповых средних после выполнения 1 итерации; г) изображение, представленное центрами масс кластеров, после доопределения кластеров и кластеризации по методу К внутригрупповых средних.
На рисунке 9.9 представлены маски красно-коричневого кластера, полученные на различных шагах алгоритма. Для повышения эффективности алгоритма на этапе оценки гистограмм распределения компонентов сигнала, наряду с цветовыми характеристиками, используется пространственная характеристика изображения. А именно, для уменьшения влияния ошибок первоначального разбиения по гистограмме тонового компонента, для каждого кластера выполняется селекция связных компонентов, исключаются из рассмотрения все связные области, имеющие некоторый заданный размер, оценка гистограммы производится только для связных областей кластера, превышающих этот заданный размер.
Рисунок 9.9 Маски красно-коричневого кластера, полученные на различных шагах.
Для сокращения избыточности кластеризации используется метод иерархического слияния кластеров [99]. В качестве меры межкластерных расстояний используется мера Махаланобиса. При работе алгоритма Квнутригрупповых средних мы использовали меру удаленности векторов от центра кластеров в пространстве RGB для вычисления в соответствии с формулой (9.36).
Аналогично можно определить и расстояние между кластерами:
где R[i], G[i ], B[i ] - RGB координаты центра масс кластера i; R[j], G[ j ], B[ j ] - RGB координаты центра масс кластера j.
При объединении кластеров будем учитывать также дисперсию плотности распределения RGB компонентов кластера. Это можно сделать при использовании меры Махаланобиса [84], описываемой следующим уравнением:
где d [i, j ] определяется в соответствии с формулой (9.52.); 2, j 2 i дисперсии плотностей распределения RGB компонентов кластеров i, j соответственно.
Рассмотренный метод автоматической классификации цветных текстурных изображений является синтезом метода квантования гистограмм и метода кластеризации по К-внутригрупповым средним.
Такой синтез методов позволяет, не делая предположений о законах распределения кластеров, на основании информации, содержащейся в изображении, получить более гибкую форму кластера. При автоматической сегментации цветных текстурных изображений на первом шаге выполняется сегментация по гистограмме распределения тонового компонента для сокращения времени выполнения разбиения. На втором шаге выполняется алгоритм кластеризации по методу К-внутригрупповых средних по критерию минимальной удаленности элемента изображения от центра кластера в пространстве RGB. На третьем шаге для каждого кластера производится селекция связных компонентов с целью уменьшения ошибок при выборе порогов по гистограммам распределений компонентов с учетом пространственных характеристик кластера. В выборку включаются только те связные области кластера, которые превышают некоторый заданный размер области. Вычисляются гистограммы распределения компонентов R, G, B.
Определяются пороги квантования и производится дополнительное разбиение кластеров. На четвертом шаге для доопределенного множества кластеров производится кластеризация элементов изображения по методу К-внутригрупповых средних. На пятом шаге выполняется алгоритм иерархического объединения кластеров по критерию минимума меры Махаланобиса. На шестом шаге выполняется объединение кластеров.
Предложенный алгоритм обладает следующими преимуществами. Он учитывает как пространственные, так и цветовые характеристики изображения. Количество кластеров не является предопределенным, а вычисляется в процессе обработки в соответствии с информацией, содержащейся в обрабатываемом изображении. Определение границы сегмента производится с точностью до элемента растра в отличие от фрагментарных методов, при использовании которых точность определения границы зависит от размера фрагмента. Алгоритм обеспечивает сокращение пространства признаков с 16 миллионов до нескольких десятков кластеров.
9.6 Фрактальный анализ сложных текстурных изображений 9.6.1 Оценка фрактальности признаков цветных текстур В то время как объекты, построенные человеком, такие как промышленные и жилые здания, могут быть эффективно описаны набором простых геометрических примитивов: кубов, сфер, цилиндров, конусов, цветные текстуры природного происхождения, являясь нерегулярными и фрагментарными, плохо поддаются такому описанию. При включении в систему признаков геометрических признаков используются некоторые аппроксимирующие оценки в виде равновеликого эллипса рассеяния, размеров его большой и малой полуосей и тому подобное. В связи с этим, для анализа таких текстур оказывается естественным представление их фракталом с некоторым размером фрактала D. В настоящее время нет еще окончательного определения фрактала. Ключевая концепция фракталов заключается в использовании самоподобия в определении размера фрактала.
В настоящее время фракталы нашли свое применение при анализе текстур ландшафтов, полученных при аэрокосмической съемке, при анализе поверхностей порошков и других пористых сред, при анализе поверхности облаков и так далее.
Однако размер фрактала цветной текстуры во многом зависит от выбора метода оценки. Так, при использовании различных методов оценки размера фрактала, мы получим соответственно и разные его размеры.
Сопоставление текстур, таким образом, возможно при использовании одного и того же метода (группы методов).
Более того, не всякие текстуры хорошо различимы по размеру фрактала. В связи с этим прежде, чем включать в систему признаков размер фрактала, необходимо оценить фрактальность текстуры. Оценка фрактальности текстуры производится на основе выбранного метода оценки размера фрактала. Поскольку размер фрактала вычисляется через оценку выборочной регрессии, то естественно оценивать фрактальность текстуры по коэффициенту корреляции между логарифмом случайной величины и логарифмом заданной функции шага. При этом принятие решения о фрактальности текстуры можно строить следующим образом:
1) построить зависимость коэффициента корреляции от шага; значение шага, при котором функция имеет максимум, является максимальным шагом в диапазоне задаваемых шагов при оценке размера фрактала;
2) не учитывать оценку размера фрактала при низком коэффициенте корреляции в тех методах, где используется оценка фрактала как среднее значение в серии экспериментов;
3) не включать размер фрактала в систему признаков для сегментации текстур при значениях коэффициента корреляции < 0,7.
Оценка фрактальности текстуры является важной характеристикой при сегментации по размеру фрактала.
9.6.2 Возможности и ограничения применения алгоритма оценки размера фрактала по длине контура при анализе Алгоритм оценки размера фрактала текстуры по длине контура [101] состоит в развитии алгоритма оценки размера фрактала линии для оценки размера фрактала поверхности. Для оценки фрактала текстуры производится разбиение динамического диапазона яркостей изображения на равные интервалы. Для полученного набора пороговых уровней строится бинарное изображение. При этом отсчетам, яркость которых меньше порога, приписывается значение 0, а отсчетам, яркость которых выше или равна порогу, приписывается значение 1. Таким образом, исходное изображение представляется набором бинарных изображений.
Для каждого из таких изображений производится оценка размера фрактала контуров единичных областей. А в качестве оценки размера фрактала исходного изображения используется среднее значение полученных фракталов для бинарных изображений. При этом предлагается оценивать размер фрактала бинарных изображений только по строкам, только по столбцам, а также совместно по строкам и столбцам, что имеет особое значение при распознавании анизотропных текстур.
Процедура оценки размера фрактала контура строится следующим образом. Производится оценка длин контуров единичной области для серии размеров элемента разложения (шагов) Si. Увеличение шага эквивалентно интерпретации анализируемого изображения с меньшим разрешением, чем разрешение, с которым изображение получено. Длина контура L аппроксимируется числом переходов уровней яркости бинарного изображения из 0 в 1 и из 1 в 0 для каждого значения шага. По полученным значениям оценивается регрессия логарифма длины контура на логарифм шага [102] в виде функции где где n -число шагов, По методу наименьших квадратов оценка и является решением системы нормальных уравнений:
При вычислении размера фрактала используется линейная выборочная регрессия:
Размер фрактала оценивается по формуле D=2- €1.
Качество “наилучшего” линейного приближения оценивается значением коэффициента корреляции логарифма длины контура и логарифма шага [103]:
где D - дисперсия, M - математическое ожидание соответствующих случайных величин logL и logS.
При низком коэффициенте корреляции полученное значение размера фрактала исключается из процедуры усреднения.
Измерение размера фрактала по методу оценки длины контура при сканировании по строкам и по столбцам раздельно позволяет оценивать анизотропные свойства текстуры, в то время как комбинированный метод, при котором осуществляется подсчет краев как вдоль строк, так и вдоль столбцов, пригоден для анализа изотропных текстур.
В качестве модели для исследования оценки размера фрактала по длине контура используем синтезированные в соответствии с алгоритмом, представленным в разделе 9.4.2, фракталы с показателем Херста от 0,1 до 0,9.
Моделирование выполнено на серии из 50 реализаций фракталов.
Поскольку распределение оценки размера фрактала имеет большую дисперсию, произведена низкочастотная фильтрация оценки размера фрактала. Значения m и, соответствующие значениям математического ожидания и СКО размеров фракталов, приведенных к диапазону значений [2,3] и представленных уровнями [0,255] приведены в таблице 9.1.
Таблица 9.1. Оценка размера фрактала по длине контура (по строкам и по столбцам) после низкочастотной фильтрации На основании этих данных построены матрицы расстояний между этими 9 фракталами, вычисленные как мера Фишера. В качестве примера в таблице 9.2 приведены значения межфрактальных расстояний для окна 16x16.
Таблица 9.2 Матрица межфрактальных расстояний, определенных как мера Фишера при оценке размера фрактала по длине контура (по строкам и столбцам, окно16x16) На основании проведенного исследования можно сделать следующие выводы:
Метод оценки размера фрактала по длине контура можно использовать при условии низкочастотной фильтрации оценки размера фрактала.
Исключение некоторых изаритмов из рассмотрения при оценке размера фрактала может приводить к неразличимости фракталов, имеющих разный размер.
Для изотропных текстур большей эффективностью обладает алгоритм оценки размера фрактала по строкам и по столбцам.
В задачах сегментации, когда необходимо различить объекты, а не собственно оценить размер фрактала, представляется целесообразным не вычислять размер фрактала, поскольку это лишь приводит к дополнительным ошибкам, связанным с оценкой тангенса угла наклона линейной выборочной регрессии, а использовать изменение характера зависимостей, по которым фрактал оценивается.
Метод треугольной пирамиды [104] устанавливает соотношение между площадью поверхности, создаваемой яркостью изображения, и пространственным разрешением двумерных единиц, используемых для измерения этой площади. Изображение рассматривается на квадратной сетке и измерения производятся для серии размеров этой сетки.
Треугольная пирамида строится как показано на рисунке 9.10.
Рисунок 9.10 Построение пирамиды при оценке размера фрактала по методу пирамиды.
На плоскости растра на расстоянии заданного шага S (FG = EH = FE = GH) по строке и столбцу восстанавливаются перпендикулярно к растру ребра, длины которых равны яркости соответствующих отсчетов изображения. Соединение вершин 4 ребер задает основание треугольной пирамиды ABCD. Вершина пирамиды O строится как вершина перпендикуляра к плоскости растра, восстановленного из центра квадратной площадки размером SS, и равного среднему значению четырех опорных отсчетов яркостей:
Вычисляется площадь боковой поверхности полученной треугольной пирамиды OABCD.
Для вычисления площади боковой поверхности треугольной пирамиды необходимо определить 4 площади треугольников:
Площадь каждого из треугольников определяется аналогично площади OAD :
OD = S / 2 + (OP DH ), AE и DH - яркости в соответствующих отсчетах.
Для каждого шага S i на растре формируются пирамиды и вычисляется суммарная площадь боковых поверхностей этих пирамид.
Так, при S i = 1 в вычислениях используются все отсчеты яркостного сигнала, при S i = 2 - в четыре раза меньше, при шаге S i = 4 - в 16 раз меньше отсчетов участвует в вычислениях и так далее. Сканирование осуществляется сверху вниз, слева направо. Затем строится выборочная регрессия логарифма суммарной площади боковых поверхностей пирамид на логарифм площади элемента растра S i 2 в соответствии с уравнением (9.57).
Размер фрактала вычисляется по формуле (9.58), а качество оценки производится по коэффициенту корреляции в соответствии с (9.59).
Выполнены исследования оценки размера фрактала по алгоритму пирамиды после низкочастотной фильтрации для 9 различных фракталов и 3 размеров фрагментов, по которым производилась оценка. В таблице 9. приведена матрица межфрактальных расстояний для 9 различных фракталов и окна17x17.
На основании проведенных исследований можно сделать следующие выводы:
Метод пирамиды можно использовать для оценки размера фрактала при условии низкочастотной фильтрации оценки размера фрактала.
Метод пирамиды имеет большую эффективность, чем алгоритм оценки размера фрактала по длине контура.
В задачах сегментации, когда необходимо различить объекты, а не собственно оценить размер фрактала, представляется целесообразным не вычислять размер фрактала, поскольку это лишь приводит к дополнительным ошибкам, связанным с оценкой тангенса угла наклона линейной выборочной регрессии, а использовать изменение характера зависимостей, по которым фрактал оценивается, если это Таблица 9.3. Матрица межфрактальных расстояний при оценке размера фрактала по площади пирамиды (окно17x17) 9.6.4 Оценка размера фрактала по модулю разности яркостей В основе этого метода лежит концепция статистического самоподобия цветных текстур природного происхождения, основывающаяся на том факте, что фракталы природного происхождения статистически инвариантны в широком диапазоне масштабов и каждый из компонентов статистически подобен другим компонентам. Математической моделью таких фракталов является фрактальная (обобщенная) броуновская функция [105].
Фрактальная броуновская функция f(x) является вещественной случайной функцией, такой, что для всех x и x где x представляет точку в n-мерном евклидовом пространстве R и P(t) является функцией распределения случайной величины t.
Обобщение броуновской функции состоит в том, что вместо 1/ вводится действительный параметр H, некоторая постоянная, диапазон изменения которой [0,1]. Размер фрактала задается соотношением D=n+1H. Для 3D поверхностей (n=2), размер фрактала определяется выражением Рассмотрим основные свойства фрактальной броуновской функции.
P(t) описывает нормальное гауссовское распределение N 0, 2 с математическим ожиданием, равным 0, и дисперсией 2, то есть P(t) задается следующим уравнением:
При задании броуновской функции в соответствии с уравнением (9.63) в [110] установлено следующее соотношение:
где E [ f ( x + x) f ( x) ] - математическое ожидание разностей значений функции, находящихся на расстоянии x друг от друга.
Постоянная C равна математическому ожиданию случайной величины t и является средним абсолютным отклонением. Из (9.65) соотношение между средним абсолютным отклонением С и СКО выражается следующей зависимостью:
Логарифмируя уравнение (9.66), получим:
Поскольку H и C являются постоянными, из уравнения (9.68) следует, что логарифм математического ожидания модуля разностей случайной величины f(x), отстоящих на расстоянии x, линейно зависит от расстояния. Причем H определяет тангенс угла наклона этой прямой.
E [ f ( x + x) f ( x) ] является статистикой второго порядка, используемой в текстурном анализе [69]. Полученное соотношение (9.62) указывает на то, что в качестве признака текстуры может быть использован параметр H.
Таким образом, можно рассматривать изображение как двумерную функцию яркости f(x,y), которая определена для ( x, y ) R 2. Функция z=f(x,y) формирует трехмерную поверхность. Для оценки фрактальных признаков этой поверхности будем использовать аппроксимацию этой поверхности фрактальной броуновской функцией.
Размер фрактала D является существенным признаком при использовании фрактальной броуновской функции для описания природных поверхностей. В этом случае размер фрактала оценивается в соответствии с (9.64). Таким образом, чтобы оценить размер фрактала, необходимо вычислить параметр H. На основании (9.68), чтобы вычислить H, необходимо получить оценку линейной выборочной регрессии логарифма СКО всех разностей пар элементов, отстоящих на определенном расстоянии друг от друга, на логарифм этого расстояния.
Расстояния объединяются в кластеры, и СКО вычисляются для каждого кластера. Размер фрактала представляет характеристику сложности поверхности. При одной и той же функции распределения P(t) малые значения размера фрактала D описывают гладкие поверхности, а большие более сложные изрезанные поверхности.
Функция распределения P(t) из уравнения (9.63) также характеризует вид поверхности. В случае фрактальной броуновской модели предполагается гауссовское распределение с нулевым математическим ожиданием и дисперсией, равной 2, таким образом, распределение характеризуется только одним параметром 2.
Хотя размер фрактала фрактальной броуновской функции инвариантен при изменении масштаба, реальные природные поверхности не обладают одним и тем же размером фрактала во всем возможном диапазоне масштабов. Реальные природные поверхности имеют один и тот же размер фрактала для большего или меньшего диапазона шкал. В связи с этим следует производить оценку диапазона расстояний [ x, x ], в котором поверхность может быть описана фрактальной броуновской функцией. При этом качество “наилучшего” линейного приближения оценивается по формуле, аналогичной формуле (9.59). Максимальное расстояние, на котором можно оценивать дисперсию разностей отсчетов яркости, определяется как точка максимума зависимости коэффициента корреляции от расстояния.
В качестве модели для исследования оценки размера фрактала по методу броуновской функции используем синтезированные фракталы с показателем Херста от 0,1 до 0,9. Поскольку распределение оценки размера фрактала имеет большую дисперсию, произведена низкочастотная фильтрация оценки размера фрактала. Моделирование выполнено на серии из 50 реализаций. Исследовано 9 различных фракталов при 3 размерах фрагментов, по которым производилась оценка фракталов.
В таблице 9.4 приведены данные для оценки размера фрактала по методу броуновской функции для размера фрагмента 16x16.
На основании выполненных исследований можно сделать следующие выводы:
Эффективность метода броуновской функции может быть повышена за счет низкочастотной фильтрации оценки фрактала.
Оценку размера фрактала можно также производить, учитывая изменения яркости только по строкам или только по столбцам, что позволит повысить эффективность сегментации анизатропных Метод броуновской функции обладает наибольшей эффективностью по сравнению с другими рассмотренными методами.
Таблица 9.4 Матрица межфрактальных расстояний при оценке размера фрактала по модулю разности яркостей (окно 16x16) Осуществляется преобразование цветового координатного пространства RGB в пространство HLS. Оценка размера фрактала производится по яркостному компоненту изображения. Хотя размер фрактала инвариантен к масштабу, реальные природные поверхности не обладают одним и тем же размером фрактала во всем возможном диапазоне масштабов. Они имеют один и тот же размер фрактала для большего или меньшего диапазона шкал. Исследования показали, что для большинства приложений приходится ограничивать диапазон изменения шага [1,3].
Оценка межкластерных расстояний для фрактальных методов представлена в таблице 9.2-9.4. На рисунке 9.11 приведен пример наложения по маске (рисунок 9.11 б) двух синтезированных фрактальных текстур, имеющих разные цветовые характеристики. Изображения получены в соответствии с алгоритмом синтеза цветных фракталов, рассмотренным в разделе 9.4. При отличии по цвету текстуры могут быть успешно разделены на основании простого алгоритма: преобразование пространства RGB в пространство HLS, пороговое ограничение по гистограмме тонового компонента. На рисунке 9.11 в) и г) приведены текстуры, полученные в результате сегментации по компоненту тон. В данном случае мы получили точные маски областей текстур коричневого и синего цветов, вероятность ошибки равна 0. Таким образом, использование цветовых характеристик текстуры в качестве дополнительного признака, обеспечивает эффективную классификацию.
Рисунок 9.11 Пример сегментации фрактальных текстур, имеющих разные характеристики цветности. а) исходное изображение, б) изображение масок аппликативного наложения текстур, в) г) результат сегментации по тону.
Однако когда текстуры имеют одинаковые цветовые характеристики, необходимо включать в пространство признаков текстурные характеристики для различения текстур. Примеры фрактального анализа приведены на рисунках 9.12-9.14.
Рисунок 9.12 Пример сегментации фрактальных текстур, имеющих одинаковые характеристики цветности. а) исходное изображение, б) результат сегментации при размере окна 16x16, в) результат сегментации при размере окна 8x8.
Анализ полученных результатов позволяет сделать вывод о большей эффективности метода броуновской функции по сравнению с методами оценки размера фрактала по длине контура и по методу пирамиды. На рисунке 9.12 представлены результаты сегментации фрактальных текстур по оценке размера фрактала по модулю разности яркостей отсчетов изображения для двух размеров окна 16x16 (рисунок 9.12 б) и 8x8 (рисунок 9.12 в).
На рисунке 9.13 а) показаны реальные текстуры из альбома Бродатца [106] и результат их сегментации (б). На рисунке 9.14 представлены результаты сегментации текстур, полученных с помощью гауссово марковских полей, по оценке размера фрактала по модулю разности яркостей отсчетов изображения для размера окна 8x8 (рисунок 9.13 б). На основании выше изложенного можно сделать следующие выводы.
1) Представлены методы сегментации цветных текстур на основании объединения цветовых и фрактальных характеристик текстур при описании текстур в цветовом координатном пространстве HLS.
Исследования выполнялись на синтезированных цветных текстурах и на природных текстурах.
2) Были исследованы три метода сегментации текстур, построенных на оценке размера фрактала. Метод оценки размера фрактала по модулю разности яркостей отсчетов более эффективен, чем другие представленные методы. Оценку размера фрактала можно производить, используя изменения модуля разности яркостей элементов изображения в направлениях только по строкам, только по столбцам или только в диагональных направлениях для улучшения сегментации анизотропных текстур. Эффективность сегментации повышается благодаря низкочастотной фильтрации оценки размера фрактала.
Рисунок 9.13 Пример сегментации текстур из альбома Бродатца а) исходное изображение, б) результат сегментации при размере окна 8x8.
Рисунок 9.14 Пример сегментации текстур а) исходное изображение; б) исходное изображение яркостного компонента; в) результат сегментации при размере окна 8x8.
3) Использование признаков цветности и фрактальных характеристик позволяет уменьшить ошибки сегментации.
4) Оценка размера фрактала вызывает дополнительные ошибки при вычислении тангенса угла наклона линии выборочной регрессии. Для сегментации можно использовать характеристики, по которым вычисляется размер фрактала, поскольку задача состоит в различении текстур, а не в оценке размера фрактала этих текстур.