WWW.DISS.SELUK.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА
(Авторефераты, диссертации, методички, учебные программы, монографии)

 

На правах рукописи

Нгуен Тоан Тханг

АЛГОРИТМЫ РАСПОЗНАВАНИЯ ЖЕСТОВ

НА ВИДЕОПОСЛЕДОВАТЕЛЬНОСТЯХ

Специальность 05.13.11 – Математическое и программное

обеспечение вычислительных машин, комплексов и

компьютерных сетей.

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Томск – 2014

Работа выполнена в федеральном государственном бюджетном образовательном учреждении высшего профессионального образования «Национальный исследовательский Томский политехнический университет», на кафедре вычислительной техники.

Научный руководитель: доктор технических наук, профессор Спицын Владимир Григорьевич

Официальные оппоненты:

Кориков Анатолий Михайлович, доктор технических наук, профессор, федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Томский государственный университет систем управления и радиоэлектроники», кафедра автоматизированных систем управления, заведующий кафедрой Протасов Константин Тихонович, доктор технических наук, старший научный сотрудник, федеральное государственное бюджетное учреждение науки Институт оптики атмосферы им. В.Е. Зуева, лаборатория распространения оптических сигналов, старший научный сотрудник

Ведущая организация: Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Сибирский государственный аэрокосмический университет имени академика М.Ф. Решетнева», г. Красноярск

Защита состоится 27 марта 2014 г. в 10.30 на заседании диссертационного совета Д 212.267.08, созданного на базе федерального государственного бюджетного образовательного учреждения высшего профессионального образования «Национальный исследовательский Томский государственный университет», по адресу: 634050, г. Томск, пр. Ленина, 36 (корп. 2, ауд. 102).

С диссертацией можно ознакомиться в Научной библиотеке Томского государственного университета.

Материалы по защите диссертации размещены на официальном сайте ТГУ:

http://www.tsu.ru/content/news/announcement_of_the_dissertations_in_the_tsu.php

Автореферат разослан « » февраля 2014 г.

Ученый секретарь диссертационного совета Скворцов доктор технических наук, профессор Алексей Владимирович

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы. В последние годы появилась и начала быстро развиваться тенденция использования жестов как способа взаимодействия с компьютерной системой. Распознавание жестов стало важнейшей частью в области человеко-машинного взаимодействия и привлекает множество исследователей. В числе пионеров в области распознавания жестов и построения интерфейса на их основе можно выделить Kurtenbach G., Hulteen E., Kendon A., Quek, Mapes D. J., Moshell M. J., Kobayashi T., Haruyama S., Krueger M., Kanade T., Tomasi C., Petrov S., Triesch J., Malsburg C., Rehg J.M., Imagawa K., Baudel T., Beaudouin-Lafon M.

В настоящее время среди различных подходов к решению задачи распознавания жестов, подход на основе компьютерного зрения оказывается доминантной тенденцией благодаря новым достижениям в области компьютерного зрения, повышению производительности компьютеров, и также популярности и высокому качеству недорогих видеокамер. При этом важным является тот факт, что системы распознавания жестов на основе компьютерного зрения обеспечивают естественный канал взаимодействия человека с компьютером. Перспективность данного направления подтверждается результатами исследований таких авторов как Kolsch M., Turk M., Lienhard R., Maydt J., Rittscher J., Blake A., Bradski G., Viola P., Jones M., Isard M., Davis J., Bobick A., Comaniciu D.

Большинство этих подходов воспринимает жест как целую сущность и пытается извлечь соответствующее математическое описание из большого количества обучающих примеров (Campbell L., Kobayashi T., Manresa C., Oka K., Wren C., Wu Y., Yang J.). В результате, эти подходы характеризуются недостаточной скоростью, точностью, надежностью и ограниченным количеством распознанных жестов. В существующих методах также часто требуются специальные условия использования (без других объектов на фоне, постоянное освещение, наличие специальных приборов, и т.д.).

Примерами таких систем могут быть «расширенный стол» (Oka и др.), «визуальная панель» (Zhang и др.), HandVu (Kolsch и Turk), Pfinder (Wren и др.).

Таким образом, разработка надежного, точного и высокоскоростного алгоритма распознавания жестов в режиме реального времени является актуальной задачей.

Целью диссертационной работы является разработка алгоритма распознавания жестов на видеопоследовательностях, способного работать в режиме реального времени и выполнять распознавание автономных и интерактивных жестов.

Для достижения поставленной цели необходимо последовательное решение следующих задач:

1. Разработать алгоритм распознавания поз руки (hand posture), способный функционировать в режиме реального времени и инвариантный к аффинным преобразованиям и изменению освещения.



2. Разработать алгоритм распознавания движения руки (hand motion) в видеопотоке, обеспечивающий возможность распознавания сложных и деформированных траекторий.

3. Разработать алгоритм распознавания жестов руки (hand gesture) на основе предложенных алгоритмов распознавания поз и движения руки, позволяющий распознавать автономные и интерактивные жесты на видеопоследовательностях в режиме реального времени.

4. Создать программную систему, реализующую разработанные алгоритмы, и провести вычислительные эксперименты с целью оценки их качества и эффективности.

Методы исследования. Для решения поставленных задач применяются методы матричных вычислений, цифровой обработки изображений и видеопоследовательностей, вычислительной математики, аппарат нейронных сетей и компьютерные эксперименты для оценки эффективности разработанных алгоритмов.

Научная новизна.

1. Предложен алгоритм распознавания поз руки (hand posture) на основе SURF-дескрипторов, алгоритма k-средних и многослойной нейронной сети, предназначенный для распознавания статической компоненты жестов и отличающийся от других способностью функционировать в режиме реального времени, устойчивостью к различным аффинным преобразованиям, изменению освещения, и, частично, к шумам, при обеспечении точности распознавания в пределах 90-98%.

2. Предложен алгоритм распознавания движения руки (hand motion) в видеопотоке на основе нейронной сети, предназначенный для распознавания динамической компоненты жестов в режиме реального времени. В основе алгоритма лежит идея упрощения и передискретизации траектории, полученной после трекинга, что обеспечивает возможность распознавания сложных деформированных траекторий с точностью выше 96% в реальных условиях применения.

3. Разработан новый алгоритм распознавания жестов (hand gesture) на основе детектора Джонса-Виолы, трекера CAM-Shift, предложенных алгоритмов распознавания поз и движения руки, позволяющий распознавать жесты на видеопоследовательностях в режиме реального времени. Особенностью предложенного алгоритма является сочетание возможности распознавания интерактивных и автономных жестов благодаря разбиению жестов на статическую компоненту (позу) и динамическую компоненту (движение руки).

Практическая ценность. Разработанный в работе алгоритм распознавания жестов позволяет создавать высокоэффективные интерфейсы на основе жестов для управления компьютерной системой, оборудованной веб-камерой.

Реализованная программа Hand Recognitor обеспечивает управление презентациями, навигацию веб-браузера, рисование, управление Windows media center с использованием жестов.

Реализация результатов работы. Способы, алгоритмы и программы, разработанные в диссертационной работе, использовались при выполнении работ по гранту РФФИ № 09-08-00309 «Создание программного комплекса автоматизированной обработки изображений и распознавания образов на основе применения искусственных нейронных сетей, регуляторных сетей и эволюционных алгоритмов» (2007–2009 г.), в проекте «Продвижение и коммерциализация инновационной технологии по обработке изображений на базе эволюционных и нейроэволюционных вычислений», (конкурс «Microsoft Бизнес-Старт» Фонда содействия развитию малых форм предприятий в научно-технической сфере 2009–2011 г.), в проекте «Создание комплексных технологий распознавания объектов на изображениях на основе применения моделей зрительного восприятия и методов вычислительного интеллекта», поддержанном грантом РФФИ № 12-08- (2012–2014 г.).

Степень достоверности результатов проведенных исследований.

Достоверность полученных результатов подтверждена логическими построениями, основанными на математическом аппарате многослойной нейронной сети и методах обработки цифровых изображений, корректностью методик исследования и проведенных расчетов, многочисленными экспериментами и согласованностью результатов диссертации с результатами, полученными другими авторами.

Внедрение работы. Реализованное в ходе диссертационной работы программное обеспечение для управления презентациями с помощью жестов внедрено в ООО «ARROWHITECH» (г. Ханой, Вьетнам). Созданная программная система Hand Recognitor зарегистрирована в Федеральной службе по интеллектуальной собственности (свидетельство о государственной регистрации программы для ЭВМ № 2012014382 от 16.05.2012).

Основные положения, выносимые на защиту:

1. Алгоритм распознавания поз руки (hand posture) на видеокадре на основе применения SURF-дескрипторов, алгоритма k-средних, и многослойной нейронной сети.

2. Алгоритм распознавания траектории движения руки (hand motion) в видеопотоке на основе нейронной сети, и также идеи упрощения и передискретизации траектории.

3. Алгоритм распознавания жестов (hand gesture) на видеопоследовательностях в режиме реального времени на основе детектора ДжонсаВиолы, трекера CAM-Shift, предложенных алгоритмов распознавания поз и движения руки.

Апробация работы. Основные результаты работы обсуждались и докладывались на следующих симпозиумах, конференциях и семинарах: IV Всероссийская научно-практическая конференция «Научная инициатива иностранных студентов и аспирантов российских вузов» (Томск, 2010);

Международная научно-практическая конференция «Интеллектуальные информационно-телекоммуникационные системы для подвижных и труднодоступных объектов» (Томск, 2010); XIX Всероссийский семинар «Нейроинформатика, ее приложения и анализ данных» (Красноярск, 2011).

Публикации. Основное содержание диссертации отражено в 9 работах, в том числе 4 статьи в изданиях из перечня ВАК, 2 статьи в рецензируемом журнале, 2 доклада на Всероссийских и Международных и конференциях, и одно свидетельство об официальной регистрации программы распознавания жестов для ЭВМ Hand Recognitor.

Личный вклад. Постановка задач диссертационного исследования выполнена автором совместно с научным руководителем, д.т.н., профессором Спицыным В.Г. Основные теоретические и практические результаты, представленные в диссертации, получены лично автором.

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы из 150 наименований. Общий объем работы составляет 147 страниц машинописного текста, иллюстрированного 64 рисунками и 21 таблицами.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

В первой главе приведено общее понятие жестов и известные таксономии жестов в лингвистике и человеко-машинном взаимодействии, понятие распознавания жестов и интерфейса на основе жестов. Проведен аналитический обзор существующих подходов к решению задачи распознаванию жестов на основе компьютерного зрения. Выявлены достоинства и недостатки рассмотренных решений. В результате анализа и сравнения существующих решений сделан вывод об актуальности диссертационной работы, поставлена цель работы, и сформулированы задачи, необходимые для решения проблемы распознавания жестов на видеопоследовательностях в реальном времени.

Во второй главе приведено детальное описание предложенного алгоритма распознавания жестов, реализованного алгоритма обнаружения руки и алгоритма трекинга, разработанного алгоритма распознавания поз руки, и созданного алгоритма распознавания движения руки.

В данной главе предложена двухуровневая схема для алгоритма распознавания жестов. Первый уровень включает шаги получения последовательных кадров из видеокамеры, предобработки полученных кадров, и обнаружение руки на видеокадре. Этот уровень предназначен для обнаружения присутствия руки в области видимости видеокамеры и для инициализации работы алгоритмов распознавания и трекинга второго уровня.

На втором уровне возможен выбор режима распознавания автономных или интерактивных жестов.

Для распознавания автономных жестов, на втором уровне применяется распознавание позы и связанного с ней глобального движения. После того, как положение руки определяется с помощью детектора руки (на первом уровне), прямоугольная область, где находится рука, сохраняется и передается в алгоритм трекинга, а сам детектор отключается. Алгоритм трекинга анализирует эту область для создания модели объекта и начинает процесс трекинга. Поступающие видеокадры с видеосистемы затем передаются сразу на второй уровень. Механизм трекинга запускается для поиска местоположения руки на новом видеокадре. Алгоритм распознавания поз затем работает только с областью кадра, где находится рука, а не с целым кадром, и, таким образом, может обеспечить высокую скорость распознавания, независимо от реального размера видеокадра. Если жест не завершен, новый кадр пропускается на обработку, иначе алгоритм распознавания движения запускается для распознавания полученного жеста. Условием завершения жеста принимается отсутствие руки на кадре, например, когда рука двигается за пределом области видимости камеры и алгоритм трекинга не может определить местоположения руки на кадре.

Для распознавания интерактивных жестов для прямой манипуляции, на втором уровне применяется распознавание позы и алгоритм трекинга.

При этом трекинг также отвечает за наблюдение за положением руки на каждом кадре. Распознавание позы позволяет выполнить команды, такие как щелчок мыши. Данный режим распознавания предназначается для непрерывной работы с компьютерной системой, такой как управление курсором мыши, рисование с помощью жестов, и т.д. Условием завершения работы является отсутствие руки на кадре, когда рука двигается за пределом области видимости камеры.

Для обнаружения руки в видеопотоке в реальном времени предложено применение алгоритма (детектора) Джонса-Виолы, который работает на основе признаков Хаара, интегрального изображения, и каскадного классификатора AdaBoost.

Признак Хаара представляет собой «шаблон», который указывает координаты областей изображения, а значение признаков Хаара - разность суммарных интенсивностей пикселей под областями, указанными признаком Хаара. Эта разность используется для определения присутствия / отсутствия характерной области объекта на изображении. Понятие «интегрального изображения» позволяет быстро вычислить значение признаков Хаара, независимо от размера изображения. Интегральное изображение P в точке p( x, y) вычисляется как сумма интенсивности всех точек, находящихся вверху слева от нее. В методе Джонса-Виолы, ряд AdaBoostклассификаторов объединяется в каскадную структуру, каждый из классификаторов отвечает за определенный набор признаков Хаара, характерных для той или другой области объекта. Окно поиска считается содержащим объект интереса только тогда, когда оно прошло все каскады, т.е. когда оно содержит все характеристики объекта, описанные набором признаков Хаара. Каскадная структура классификаторов позволяет быстро пропускать те области, которые не содержат признаки, характерные для объекта, и сосредоточивать вычислительную мощность на кандидатах с признаками, характерными для объекта.

Для трекинга руки в видеопотоке в данной работе предложено применение известного метода CAM-Shift с использованием цветовой информации руки. Данный алгоритм основан на вычислении «гистограммы вероятности цветов», создании «изображения вероятности», и определении центра масс руки. «Гистограмма вероятности цветов» вычисляется по формуле:

Здесь Pi – i-ый компонент гистограммы вероятности цветов; HM i – компонент гистограммы области кадра, где находится объект; HI i – компонент гистограммы целого кадра.

Если заменить каждый пиксель входного изображения соответствующим значением Pi, то получим «изображение вероятности». Для каждого поступающего кадра алгоритм повторно вычисляет «центр масс» в обработанной области вокруг предыдущего центра масс в изображении вероятности по формулам:

Здесь ( xc, yc ) – координаты центра масс; I ( x, y) – интенсивность пикселя ( x, y) изображения вероятности; M 00, M 10, M 01 – нулевой момент, первый момент по направлению x, первый момент по направлению y, соответственно.

Для распознавания поз руки в диссертации предложен новый алгоритм на основе SURF-дескрипторов, алгоритма k-средних, и многослойной нейронной сети. Основная идея предложенного алгоритма состоит в том, что изображение рассматривается как текстовый документ, в котором визуальные признаки (характерные точки и области) изображения учитываются как слова, образующие данный документ. Класс документа определяется путем вычисления частоты появления некоторых «ключевых слов».

Данная идея была взята из популярной в обработке текстовых документов модели «bag-of-words» (BOW). Для применения этой идеи в распознавании объекта, характерные признаки выделяются из обучающей выборки изображений, и затем разделяются на группы. В каждой группе выбирается один «представитель» для всех признаков группы. Выбранные представители будут служить «ключевыми словами», из которых построится так называемый «словарь ключевых слов» (множество ключевых слов). При сопоставлении выделенных признаков входного изображения с ключевыми словами из словаря признаков получается гистограмма ключевых слов для данного изображения. Генерируемая гистограмма будет служить дескриптором для распознавания в нейросетевом классификаторе.

Алгоритм распознавания позы состоит из следующих шагов.

1. Обучение классификатора а. Генерация словаря визуальных признаков:

- Выделение признаков методом SURF.

- Кластеризация методом K-means.

- Генерация словаря из кластеров.

б. Создание дескрипторов и обучение нейронной сети:

- Сопоставление выделенных признаков со словарем.

- Обучение классификатора (нейронной сети).

2. Распознавание - Выделение признаков методом SURF.

- Сопоставление выделенных признаков со словарем.

- Распознавание в нейронной сети.

Для выделения и описания признаков применяется метод SURF. Детектор SURF базируется на вычислении матрицы Гессе с простой аппроксимацией. Для каждой точки P ( x, y), матрица Гессе H( P, ) на P с масштабом определяется по следующей формуле:

Здесь Lxx ( P, ), Lyy ( P, ), Lxy ( P, ) – свертка второй производной Гаусса с изображением в точке P.

Разделение признаков на группы осуществляется с применением алгоритма k-средних (k-means). При применении алгоритма кластеризации kmeans нужно вначале задать количество кластеров (число слов в словаре), которое приблизительно равняется сумме средних чисел признаков всех классов объекта:

Здесь K – число кластеров; N – количество классов объектов; M i – количество изображений i-ого класса; k ji – число выделенных признаков из jого изображения i-ого класса.

Для каждого SURF вектора (дескриптора) вычисляется квадрат расстояний Евклида до каждого из центров масс и среди них выбирается самое короткое расстояние. Здесь d (p, qk ) – расстояние от входного SURF вектора до k-ого центра масс; N – размерность SURF-вектора (64 или 128 в зависимости от выбранного способа описания); p – входной SURF вектор; q k – k-ый центр масс.

Чтобы исключить «чужие признаки», которые выделяются, к примеру, из фона, а не из объекта, нужно установить пороговое значение расстояния. Этот порог определяется средним значением всех расстояний между центрами масс:

Здесь – пороговое значение; d (qi, q j ) – расстояние между центрами qi и q j ; K – число центров.

В качестве классификатора применяется многослойная нейронная сеть с обратным распространением ошибки. Используемая нейронная сеть в предложенном алгоритме состоит из K входных нейронов, где K – количество слов в словаре (число кластеров), N выходных нейронов, где N – число классов. Количество нейронов в скрытом слое определяется эмпирическим способом.

В процессе трекинга траектория движения руки записывается для дальнейшей обработки на этапе распознавания движения. Для решения этой задачи был разработан алгоритм распознавания траектории движения руки на основе использования нейронной сети. Алгоритм состоит из следующих этапов: упрощение и сглаживание, передискретизация и преобразование траектории, вычисление дескриптора, обучение нейронной сети и распознавание.

Упрощение и сглаживание траектории движения осуществляется с применением алгоритма Рамера-Дугласа-Пекера (Ramer-Douglas-Peucker).

Суть алгоритма состоит в том, что по заданной кривой линии траектории необходимо построить ломаную с меньшим числом точек. Упрощенная кривая состоит из подмножества точек исходной кривой. На Рис. 1 показывается пример упрощения линии траектории.

Количество точек в траектории движения меняется в зависимости от скорости перемещения руРис. 1. Результат ки. Алгоритм передискретизации был разработан, чтобы убрать незначительные точки, и оставить упрощения линии алгоритмом Рамерафиксированное число точек. После упрощения по- Дугласа-Пекера лучается траектория в виде массива точек T {P( xi, yi ) | i [1..m]}, где m – количество точек. При этом необходимым условием является присутствие в траектории N точек. Величина N является фиксированной и соответствует числу входов в нейронную сеть. Для осуществления перехода от m точек к N точкам сначала вычисляется длина траектории L. Величина среднего расстояния между точками передискретизируемой траектории определяется соотношением I=L/(N-1). Среднее расстояние I будет использоваться как условие для добавления/удаления точки из исходной траектории.

Массив точек траектории преобразуется в массив векторов наклона и затем вычисляется синус углов наклона. Массив синусов в дальнейшем будет служить входом для классификатора. Для каждой точки Pn ( xn, yn ) вычисляется синус угла отклонения a между вектором Pn и осью Ox. В результате передискретизации, количество точек в траектории уже фиксировано и равняется N. Таким образом, получается массив S {sin(an ) | 0 n N}, который будет использоваться как дескриптор траектории и может быть передан в виде входных данных в нейронную сеть для осуществления процесса распознавания. Многослойная нейронная сеть с обратным распространением ошибок применяется для распознавания формы траектории.

В третьей главе представлены результаты тестирования разработанного алгоритма распознавания позы. Все эксперименты выполнены на ноутбуке ASUS UL-VT 80 с процессором Intel Core Duo U7300 1,3 ГГц и 4,0 ГБ оперативной памяти с встроенной камерой.

Первые три эксперимента были выполнены на созданных выборках с четырьмя примитивами поз руки (Рис. 2). Эксперименты включают тестирование на выборке с однородным фоном (табл. 1), теРис. 2. Позы для те- стирование на выборке с присутствием других объстирования ектов (табл. 2) и тестирование на сильно зашумленной выборке (табл. 3). На рис. 4–6 приведены примеры изображений с однородным фоном, выборки с присутствием других объектов, и сильно зашумленной выборки, соответственно.

Рис. 3. Изображе- Рис. 4. Часть тестовой вы- Рис. 5. Часть тестовой ния выборки с од- борки с частично зашум- выборки с сильно зашумнородным фоном ленными изображениями ленными изображениями Таблица 1. Результаты тестирования на выборке с однородным фоном Таблица 2. Результаты тестирования на частично зашумленной выборке Таблица 3. Результаты тестирования на сильно-зашумленной выборке Проведенные эксперименты доказывают, что время обработки (14– миллисекунд/кадр) приемлемо для работы в реальном времени и не оказывает заметной задержки при обработке видеопотока. Предложенный алгоритм может достичь высокой точности распознавания (до 98,8%) в «идеальном» случае (один объект на однородном фоне), без учета масштаба и поворота объекта. При минимальном размере кадра 5050 пикселей точность распознавания существенно уменьшается. Это означает, что алгоритм теряет эффективность при недостаточном числе признаков из-за малого размера объекта.

В этих экспериментах наблюдается уменьшение точности распознавания и увеличение времени обработки из-за присутствия других объектов и фона. Полученные при этом точности оказываются приемлемыми в реальных условиях использования. Следует отметить, что алгоритм способен работать с несегментированными входными изображениями.

Время обработки включает время на выделение SURF дескрипторов, вычисление BOW дескрипторов, и распознавание нейронной сетью В качестве известных доступных наборов изображений выбираются база жестов Себастьяна Марселя и база жестов Кембриджского университета, результаты тестирования на которых приведены в табл. 4 и табл. 5, соответственно.

Таблица 4. Результаты тестирования на базе изображений Себастьяна Марселя Класс В своей работе, Себастьян Марсель разработал модель CGM (Constrained Generative Model) для распознавания статических поз руки на изображениях, точность распознавания которой составляет 93,4–93,8% на однородном фоне и 74,8–76,1% на сложном фоне. Следует отметить, что точность распознавания, полученная в данной работе (96,3% и 90,1%), превосходит результат автора данной базы Себастьяна Марселя.

Таблица 5. Результаты тестирования на базе жестов Кембриджского университета При проведении сравнения результатов тестирования на данной базе с использованием наиболее известных методов (Support Vector Machine Столбцы (1), (2) – результаты на выборке с однородным фоном и сложным фоном, соответственно.

(SVM), Relevance Vector Machine (RVM), Canonical correlations (CC), SpatioTemporal CC (ST-CC), Discriminative ST-CC (ST-DCC), Canonical Correlations of the SIFT Vectors (SIFT-OC) и SIFT ST-CC with the Discriminative Transformations (SIFT ST-DCC)), лучшие результаты получаются с помощью алгоритма SIFT ST-DCC, который обеспечивает точность распознавания 86%. Таким образом, созданный в работе алгоритм распознавания позы руки показал высокую эффективность по скорости обработки и точности распознавания, которая для Кембриджской базы составляет 95,1%.

В данной главе также приведены результаты тестирования разработанного алгоритма распознавания движения. Алгоритм был обучен для распознавания 29 форм траектории (Рис. 6). Эти формы были выбраны в связи с тем, что они были реализованы в некоторых интерфейсах взаимодействия на основе жестов мыши (mouse gesture-based interface), например, в браузере Opera, и достаточно просты в использовании для пользователя. На Рис. 7 приведены некоторые результаты тестирования алгоритма пользователями. Детальные результаты тестирования указаны в таблице 6.

Рис. 6. Классы форм Рис. 7. Часть результатов тестирования алгоритма Таблица 6. Результаты тестирования алгоритма распознавания движения Итог: 1740 тестов, правильное распознавание – 1670, нераспознанные – 9, неправильно распознанные – 61, точность – 96%.

(1) – класс, (2) – количество тестов, (3) – правильное распознавание, (4) – нераспознанные, (5) – неправильно распознанные, (6) – точность.

Результаты тестирования в реальных условиях показывают, что алгоритм распознавания движения руки позволяет распознавать траектории движения руки с высокой точностью (96%). Алгоритм хорошо справляется с различными типами движений каждого класса, даже когда выполняемые движения руки сильно отличаются от стандартных обученных форм траекторий. Время обработки для каждого движения составляет приблизительно 15 миллисекунд, что позволяет алгоритму работать в реальном времени.

В четвертой главе изложено краткое описание функций разработанной программной системы для демонстрации работы предложенного алгоритма распознавания жестов. Программная система служит простым интерфейсом для управления компьютером на основе использования жестов, фиксируемых стандартной видеокамерой низкой стоимости без применения специальных приборов. Программная система предоставляет возможность управления компьютером для замены обычной компьютерной мыши, и выполнения жестами команд, подобных функциям горячих клавиш.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

1. Предложен и реализован новый алгоритм распознавания позы руки (hand posture) в видеопотоке на основе использования SURFдескрипторов, алгоритма k-средних и многослойной нейронной сети.

2. Разработан новый алгоритм распознавания движения руки (hand motion) в видеопотоке с использованием многослойной нейронной сети, и также идеи упрощения и передискретизации траектории.

3. Создан новый алгоритм распознавания жестов (hand gesture) на основе детектора Джонса-Виолы, трекера CAM-Shift, разработанных алгоритмов распознавания поз и движения руки.

4. Реализована программная система для управления компьютером с помощью жестов на основе разработанных алгоритмов.

5. Реализованное в ходе диссертационной работы программное обеспечение для управления презентациями внедрено в ООО «ARROWHITECH»

(г. Ханой, Вьетнам).

ПУБЛИКАЦИИ ПО ТЕМЕ РАБОТЫ

Статьи в журналах, которые включены в перечень российских рецензируемых научных журналов и изданий для опубликования основных научных результатов диссертаций:

1. Нгуен Т.Т. Алгоритмическое и программное обеспечение для распознавания фигур с помощью Фурье-дескрипторов и нейронной сети // Известия Томского политехнического университета. – 2010. – Т. 317, № 5.

– С. 122–125. – 0,26 п.л.

2. Нгуен Т.Т., Спицын В.Г. Распознавание формы руки на видеопоследовательности в режиме реального времени на основе SURFдескрипторов и нейронной сети // Электромагнитные волны и электронные системы. – 2012. – Т. 16, № 7. – С. 31–39. – 0,8 / 0,4 п.л.

3. Нгуен Т.Т., Болотова Ю.А., Спицын В.Г. Распознавание жестов на видеопоследовательностях в режиме реального времени на основе иерархически-временной сети // Научный вестник Новосибирского государственного технического университета. – 2012. – №. 2. – С. 33–42. – 0,5 / 0,2 п.л.

4. Нгуен Т.Т., Спицын В.Г. Алгоритмическое и программное обеспечение для распознавания формы руки в реальном времени с использованием SURF-дескрипторов и нейронной сети // Известия Томского политехнического университета. – 2012. – Т. 320, №. 5. – С. 48–54. – 0,56 / 0,28 п.л.

Свидетельство на программу для ЭВМ:

5. Спицын В.Г., Нгуен Т.Т. Свидетельство о государственной регистрации программы для ЭВМ № 2012612512 «Hand Recognitor» от 16.05.2012 г. // Реестр программ для ЭВМ Федеральной службы по интеллектуальной собственности, патентам и товарным знакам. Москва, 2012.

Публикации в других научных изданиях:

6. Нгуен Т.Т. Обнаружение руки в режиме реального времени в видеопотоке с помощью признаков Хаара и Adaboost-классификатора // Материалы XIX Всероссийского семинара «Нейроинформатика, ее приложения и анализ данных». – Красноярск, 2011. – С. 76–79. – 0,2 п.л.

7. Нгуен Т.Т. Метод распознавания фигур с использованием фурьедескрипторов и нейронной сети // Проблемы информатики. – 2011. – № 5 (спецвыпуск). – С. 64–69. – 0,26 п.л.

8. Нгуен Т.Т. Обнаружение руки в режиме реального времени в видеопотоке с помощью признаков Хаара и Adaboost-классификатора // Проблемы информатики. – 2011. – № 5 (спецвыпуск). – С. 76–80. – 0,25 п.л.

9. Nguyen T.T. The Lucas-Kanade Method for Optical Flow // Сборник докладов IV Всероссийской научно-практической конференции «Научная инициатива иностранных студентов и аспирантов российских вузов». – Томск: Изд-во ТПУ, 2011. – P. 295–296. – 0,1 п.л.





Похожие работы:

«ХРИСТОДУЛО Ольга Игоревна ИНТЕГРИРОВАННАЯ ОБРАБОТКА ПРОСТРАНСТВЕННОЙ ИНФОРМАЦИИ НА ОСНОВЕ МНОГОМЕРНЫХ МОДЕЛЕЙ ДАННЫХ И ГЕОИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ ( на примере анализа взаимодействия промышленных и природных объектов) Специальность 05.13.01 – Системный анализ, управление и обработка информации (в промышленности) АВТОРЕФЕРАТ диссертации на соискание ученой степени доктора технических наук Уфа – 2012 Работа выполнена на кафедре геоинформационных систем ФГБОУ ВПО Уфимский...»

«Крайник Владислав Михайлович СОЧЕТАННАЯ АНЕСТЕЗИЯ ДЛЯ ОБЕСПЕЧЕНИЯ ОПЕРАЦИЙ НА ВНУТРЕННИХ СОННЫХ АРТЕРИЯХ 14.01.20 – анестезиология и реаниматология АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата медицинских наук Москва 2012 1 Работа выполнена в Федеральном государственном бюджетном учреждении Российский научный центр хирургии имени академика Б.В. Петровского Российской академии медицинских наук, отделении анестезиологии-реанимации I. Научный руководитель :...»

«Мельник Алексей Юрьевич Профессиональная и социальная адаптация молодежи в условиях современного рынка труда Специальность 08.00.05 – экономика и управление народным хозяйством (экономика труда) Автореферат диссертации на соискание ученой степени кандидата экономических наук Москва - 2012 Работа выполнена в Федеральном государственном бюджетном учреждении Научно-исследовательский институт труда и социального страхования Министерства здравоохранения и социального развития...»

«3 ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ Актуальность работы. Ядерная энергетика является ведущим элементом в развитии энергетического комплекса, особенно в странах, где наблюдается дефицит топливно-энергетических ресурсов. В то же время доля ядерной энергетики, даже несмотря на трагические последствия от аварий на атомных электростанциях, неуклонно растет. Самые сдержанные прогнозы говорят о том, что в перспективе до 2030 года на планете будет построено до 600 новых энергоблоков (сейчас их насчитывается...»

«БАКЛАНОВА Татьяна Николаевна ОБЕСПЕЧЕНИЕ ПРАВ ПАЦИЕНТОВ НА КАЧЕСТВЕННУЮ МЕДИЦИНСКУЮ ПОМОЩЬ В УСЛОВИЯХ МНОГОПРОФИЛЬНОГО СТАЦИОНАРА (новые технологии, пути и методы решения) Специальность 14.02.03 – общественное здоровье и здравоохранение АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата медицинских наук Москва – 2013 Работа выполнена в ФГБУ Центральный НИИ организации и информатизации здравоохранения Министерства здравоохранения Российской Федерации Научный...»

«КОКАРЕВ Константин Владимирович ОБОСНОВАНИЕ ПАРАМЕТРОВ ТЕХНОЛОГИИ РАЗРАБОТКИ ПОЛОГИХ УГОЛЬНЫХ ПЛАСТОВ СТОЛБАМИ ПО ВОССТАНИЮ С РАЗМЕЩЕНИЕМ ТРАНСПОРТНОГО ГОРИЗОНТА НА ПОВЕРХНОСТИ Специальность 25.00.22 – Геотехнология (подземная, открытая и строительная) Автореферат диссертации на соискание ученой степени кандидата технических наук Екатеринбург – 2013 Работа выполнена в ФГБОУ ВПО Уральский государственный горный университет Научный руководитель – Валиев Нияз Гадым-оглы, доктор...»

«БЕДРАЦКАЯ Анна Вячеславовна ПСИХОЛОГО-ПРАВОВЫЕ ТЕХНОЛОГИИ ПРОТИВОДЕЙСТВИЯ ЗЛОУПОТРЕБЛЕНИЯМ В АРБИТРАЖНОМ ПРОЦЕССЕ Специальность 19.00.06 – юридическая психология (психологические наук и) Автореферат диссертации на соискание ученой степени кандидата психологических наук Москва-2013 Работа выполнена на кафедре акмеологии и психологии профессиональной деятельности Федерального государственного бюджетного образовательного учреждения высшего профессионального образования...»

«УДК 533.9.082.5 Лебедев Сергей Владимирович СПЕКТРАЛЬНОЕ УСТРОЙСТВО ОПРЕДЕЛЕНИЯ ТЕМПЕРАТУРЫ И ИЗЛУЧАТЕЛЬНОЙ СПОСОБНОСТИ ПИРОМЕТРИРУЕМОЙ ПОВЕРХНОСТИ Специальность 05.11.07 –Оптические и оптико-электронные приборы и комплексы АВТОРЕФЕРАТ диссертации на соискание учёной степени кандидата технических наук Москва – 2013 Диссертация выполнена на кафедре Электронные приборы факультета электронной техники Национального исследовательского университета МЭИ. Кандидат технических наук,...»

«Корытков Владимир Александрович Педагогическое обеспечение профессиональной адаптации военнослужащих по призыву в частях противовоздушной обороны Вооруженных сил России 13.00.08 – Теория и методика профессионального образования 13.00.01 – Общая педагогика, история педагогики и образования Автореферат диссертации на соискание ученой степени кандидата педагогических наук Красноярск - 2013 Работа выполнена в федеральном государственном бюджетном образовательном учреждении...»

«1 ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ Актуальность темы. Функциональные композиционные наноматериалы (ННМ), или нанокомпозиты (ННК), различной текстуры, в настоящее время широко используются в различных сферах современной экономики (промышленность, транспорт, военнопромышленный комплекс, информационные технологии, радиоэлектроника, энергетика, биотехнология, медицина др.). Текстура – это внутреннее строение твердого материала, учитывающее не только характер расположения, но и свойства различных его...»

«Подпись Реганов Владислав Михайлович КОГЕРЕНТНАЯ КОМПЕНСАЦИЯ ПАССИВНЫХ ПОМЕХ НА ОСНОВЕ АДАПТИВНОЙ ФИЛЬТРАЦИИ В РЛС С КВАЗИНЕПРЕРЫВНЫМ РЕЖИМОМ РАБОТЫ Специальность 05.12.14 – Радиолокация и радионавигация АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Санкт-Петербург 2013 Работа выполнена в ФГБОУ ВПО Новгородский государственный университет имени Ярослава Мудрого, кафедра радиосистем. Быстров Николай Егорович Научный руководитель : доктор...»

«Дойкин Алексей Алексеевич РАСЧЕТНО-ЭКСПЕРИМЕНТАЛЬНЫЙ МЕТОД ПРОФИЛИРОВАНИЯ ОБРАЗУЮЩЕЙ ПОРШНЯ ДЛЯ ПОВЫШЕНИЯ РЕСУРСА ТРИБОСОПРЯЖЕНИЯ ПОРШЕНЬ – ЦИЛИНДР ДВС 05.02.02 – Машиноведение, системы приводов и детали машин 05.04.02 – Тепловые двигатели Автореферат диссертации на соискание ученой степени кандидата технических наук Челябинск – 2013 Работа выполнена на кафедре Автомобильный транспорт и сервис автомобилей и в вузовско-академической лаборатории Триботехника им. В.Н. Прокопьева...»

«НА ПРАВАХ РУКОПИСИ Смехнов Роман Юрьевич ИНТЕРНИРОВАННЫЕ НЕМЦЫ НА ТЕРРИТОРИИ УКРАИНСКОЙ ССР (1944 – 1950): РАЗМЕЩЕНИЕ, ТРУДОВОЕ ИСПОЛЬЗОВАНИЕ, ЛАГЕРНАЯ ЖИЗНЬ Специальность 07.00.03 – Всеобщая история (новая и новейшая история) АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата исторических наук Воронеж - 2012 2 Работа выполнена в ФГБОУ ВПО Воронежский государственный университет Научный руководитель: доктор исторических наук, профессор, заведующий кафедрой истории средних веков и...»

«Карабанов Иван Вячеславович АЛГОРИТМЫ ОБРАБОТКИ СЛОЖНЫХ ФАЗОМАНИПУЛИРОВАННЫХ ГИДРОАКУСТИЧЕСКИХ СИГНАЛОВ СИСТЕМЫ ПОЗИЦИОНИРОВАНИЯ ПОДВОДНОГО РОБОТА 05.13.01 – системный анализ, управление и обработка информации (техника и технология) АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Хабаровск – 2013 2 Работа выполнена в федеральном государственном бюджетном образовательном учреждении высшего профессионального образования Тихоокеанский...»

«: 05.26.03 –, ) – 2012 :, :,,,,, - Di, Vi qi).,,,, - - ( ).,.,, -., -,. : - - -, ; - - ; - - ; - -, -.. -, (P ). : 1. - ; 2. aj D0j,,,, > 0,95; 3. ( V0 j ) - :, ; 4., - (t ) -, ; 5. -. - ;, - 10-15 %. http://ipb.mos.ru/ttb/2010-5/2010-5.html. 2011. – 12. –. 32-41. 7. Kholshevnikov, V.V. Pre-school and school children building evacuation/ V.V. Kholshevnikov, D.A. Samoshin, A.P. Parfenenko// Proceedings of the Fourth International Symposium on Human...»

«ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ Актуальность работы. В последнее время в области органической и супрамолекулярной химии наблюдается повышенный интерес к дизайну и изучению комплексообразующих свойств самых разнообразных макроциклических соединений. Среди них особое место занимают полиазамакроциклы Причиной этому служит их уникальная способность к координации различных ионов, благодаря чему они находят применение в качестве селективных комплексообразователей, химических сенсоров, катализаторов...»

«Иванов Семён Сергеевич ГЕОЭКОЛОГИЧЕСКАЯ ОЦЕНКА И УПРАВЛЕНИЕ РЕКРЕАЦИОННЫМИ ТЕРРИТОРИЯМИ ПОД ГОРОДСКИМИ ЛЕСАМИ (НА ПРИМЕРЕ ГОРОДА КРАСНОЯРСКА) 25.00.36 – Геоэкология (географические наук и) Автореферат диссертации на соискание ученой степени кандидата географических наук Улан-Удэ – 2012 Работа выполнена в лаборатории таксации и лесопользования Федерального государственного бюджетного учреждения науки Институт леса им. В.Н. Сукачева Сибирского отделения Российской академии наук...»

«Хачатуров Анри Эдуардович Экспериментально-клиническое обоснование использования хирургического волоконного лазерного скальпеля с длиной волны 1,56 мкм в стоматологической практике 14.01.14. – Стоматология Автореферат диссертации на соискание ученой степени кандидата медицинских наук Москва – 2013 Работа выполнена в ФГБУ Центральный научно-исследовательский институт стоматологии и челюстно-лицевой хирургии Министерства здравоохранения Российской Федерации. Научные...»

«Рогалев Андрей Николаевич РАЗРАБОТКА И ИССЛЕДОВАНИЕ ВЫСОКОТЕМПЕРАТУРНЫХ ПАРОТУРБИННЫХ ТЕХНОЛОГИЙ ПРОИЗВОДСТВА ЭЛЕКТРОЭНЕРГИИ Специальность 05.14.01 – Энергетические системы и комплексы АВТОРЕФЕРАТ диссертации на соискание учёной степени кандидата технических наук МОСКВА 2012 2 Работа выполнена в Федеральном государственном бюджетном учреждении высшего профессионального образования Национальном исследовательском университете Московский энергетический институт(ФГБОУ ВПО НИУ...»

«Налгиева Фатима Хамзатовна ОБОСНОВАНИЕ ПРИМЕНЕНИЯ РЕНТГЕНОЭНДОВАСКУЛЯРНЫХ ВМЕШАТЕЛЬСТВ ДЛЯ УЛУЧШЕНИЯ РЕЗУЛЬТАТОВ КОМБИНИРОВАННОГО ЛЕЧЕНИЯ ОСЛОЖНЕННОГО РАКА ШЕЙКИ МАТКИ 14.01.17 – хирургия 14.01.12 – онкология Автореферат диссертации на соискание ученой степени кандидата медицинских наук Челябинск - 2012 Работа выполнена в Государственном бюджетном образовательном учреждении высшего профессионального образования Челябинская государственная медицинская академия Министерства...»






 
2014 www.av.disus.ru - «Бесплатная электронная библиотека - Авторефераты, Диссертации, Монографии, Программы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.