WWW.DISS.SELUK.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА
(Авторефераты, диссертации, методички, учебные программы, монографии)

 

На правах рукописи

Мезенцева Екатерина Михайловна

ИССЛЕДОВАНИЕ И РАЗРАБОТКА СТАТИСТИЧЕСКИХ

АЛГОРИТМОВ ФИЛЬТРАЦИИ СООБЩЕНИЙ В ИНТЕРАКТИВНЫХ

РЕСУРСАХ ИНФОКОММУНИКАЦИОННЫХ СЕТЕЙ

Специальность 05.12.13 – Системы, сети и устройства телекоммуникаций

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Самара 2013

Работа выполнена в Федеральном государственном образовательном бюджетном учреждении высшего профессионального образования «Поволжский государственный университет телекоммуникаций и информатики» (ФГОБУ ВПО ПГУТИ).

Научный руководитель: доктор технических наук, профессор Тарасов Вениамин Николаевич

Официальные оппоненты: Кораблин Михаил Александрович доктор технических наук, профессор ФГОБУ ВПО ПГУТИ, заведующий кафедрой «Информационные системы и технологии»

Орлов Сергей Павлович доктор технических наук, профессор ФГБОУ ВПО «Самарский государственный технический университет», заведующий кафедрой «Вычислительная техника»

Ведущая организация: ФГБОУ ВПО «Самарский государственный университет», г. Самара.

Защита диссертации состоится 25 октября в 14.00 часов на заседании диссертационного совета Д219.003.02 при Поволжском государственном университете телекоммуникаций и информатики по адресу: 443010, г. Самара, ул. Л. Толстого, д. 23.

С диссертацией можно ознакомиться в библиотеке ФГОБУ ВПО ПГУТИ.

Автореферат разослан 23 сентября 2013 г.

Ученый секретарь диссертационного совета доктор технических наук, профессор Мишин Д.В.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Задача фильтрации спама в глобальных информационных сетях в настоящее время является весьма актуальной. Это связано с бурным развитием социального общения с помощью сетей телекоммуникаций. Спам-сообщения резко уменьшают полезную компоненту трафика в сетях, приводят к перегрузкам хостинговых компьютеров, снижают доступность и целостность информации. Слабое развитие законодательной базы по пресечению спама вызывает необходимость разработки научных методов анализа спама, инструментальных средств выявления и фильтрации нежелательных сообщений. Особое внимание следует уделять спаму в интерактивных частях сайтов в сети Интернет.

В настоящее время, нет универсальных решений, предназначенных для фильтрации спама в интерактивных разделах сайтов в сети Интернет.

Используется небольшое количество инструментов, препятствующих автоматическому размещению сообщений на сайтах. Например, плагины для систем управления контентом, являются узкоспециализированными решениями. Широко распространенный и полностью автоматизированный публичный тест Тьюринга для идентификации компьютеров (CAPTCHA) представляет собой ручной метод защиты сайтов от спама.

Другие методы фильтрации спама, которые можно использовать на интерактивных сайтах, известны по опыту фильтрации в электронной почте.

Это – построение черных и серых списков, контент-анализ текста, контроль дубликатов, анализ заголовков пользовательских сообщений. Однако наиболее эффективными являются многокомпонентные антиспам-системы, сочетающие в себе несколько методов детектирования спама.

C 2000-х годов ведутся активные исследования в области разработки программных систем обнаружения почтового спама. Вопросу противодействия спаму посвящены работы Пола Греема (Paul Graham), Дж. Здзиарски (Jonathan Zdziarski), Дж. Грэм-Камминга (John Graham-Cumming), У. Йеразуниса (William S. Yerazunis), Г. Робинсона (Gary Robinson), И. С. Ашманова и др. Все разработанные алгоритмы и системы используют базовые принципы фильтрации электронной почты на основе классификации текстовой информации, содержащейся в письме.

В связи с этим, развитие многокомпонентных антиспамовых систем для фильтрации сообщений в интерактивных ресурсах инфокоммуникационных сетей является актуальной задачей и представляет научный и практический интерес в области защиты информации в сетях телекоммуникаций в части обеспечения доступности и целостности данных.

Содержание диссертации соответствует пункту 10 паспорта специальности 05.12.13 – «Исследование и разработка новых методов защиты информации и обеспечение информационной безопасности в сетях, системах и устройствах телекоммуникаций».

Цель и задачи работы. Целью диссертационной работы является повышение качества фильтрации спама в сообщениях интерактивных разделов сайтов на основе совмещения работы классификаторов Байеса и Фишера.

Предложенная программная реализация должна обладать высокой точностью детектирования спама при низком количестве ложных срабатываний и пропуске спама, а также высокой производительностью на уровне сервера.

Для достижения поставленной цели решены следующие научные задачи:

1. Разработка концепции построения непрерывно обучающейся системы фильтрации спам-сообщений в сетях телекоммуникаций.

2. Разработка многоуровневой архитектуры системы фильтрации сообщений, которая включает в себя:



- этап нормализации поступившего сообщения с его предварительной подготовкой для обеспечения фильтрации с применением морфологических приемов;

- модификацию статистических алгоритмов классификации сообщений применительно к интерактивным разделам сайтов на основе совмещения методов Байеса и Фишера.

3. Повышение качества работы классификаторов на основе анализа подмножества пересечения множеств сообщений, распознаваемых обоими используемыми статистическими методами.

4. Интеграция разработанной системы фильтрации сообщений с системой управления сайтом.

5. Проведение тестирования по оценке производительности и экспериментальное использование разработанной системы фильтрации сообщений на форумах крупных ВУЗов.

В соответствии с целями и задачами диссертационной работы определены её объект и предмет.

Объектом исследования является процесс фильтрации спама в сообщениях и контенте интерактивных ресурсов инфокоммуникационных сетей.

Предметом исследования являются алгоритмы фильтрации сообщений на сайтах на основе статистических методов Байеса и Фишера с оценкой рисков при принятии решений.

Методы исследования. Клиент-серверные технологии, технологии web и объектно-ориентированного программирования, методы учета морфологии слов, методы вычислительной математики, теории вероятностей и математической статистики.

Научная новизна результатов диссертации заключается в том, что впервые предложены:

1) Статистический алгоритм фильтрации спама в сообщениях интерактивных ресурсов глобальных сетей, основанный на сочетании методов Байеса и Фишера и позволяющий оценить их качество в отдельности.

2) Методы предварительной подготовки поступивших сообщений, включающих модули предобработки текста, разбиения на отдельные слова с учетом морфологии слов и словосочетания для повышения качества фильтрации сообщений.

3) Алгоритм анализа пересечения подмножеств сообщений, распознаваемых методами Байеса и Фишера с определением абсолютной меры их близости — числа общих документов для оценки качества обученности совмещенного фильтра.

Достоверность результатов работы. Обоснованность и достоверность результатов работы обеспечивается корректностью применения используемого аналитического аппарата. Для сравнения результатов работы алгоритмов Байеса и Фишера на основе анализа пересечения их подмножеств использованы базы данных сообщений форумов реальных сайтов ВУЗов. Достоверность результатов подтверждается экспериментальными исследованиями и тестированием разработанной системы фильтрации спама на форумах.

Практическая значимость результатов диссертации состоит в том, что предложенные алгоритмы реализованы в виде программной системы, которая применяется для фильтрации спама в интерактивных разделах Интернета, что позволяет защитить информацию в части обеспечения доступности и целостности данных. Разработанный программный комплекс многоуровневой системы фильтрации сообщений для форумов пригоден для отслеживания спам-сообщений в любой базе данных, поэтому может применяться не только для отсеивания спама на интерактивных сайтах, но и в сообщениях пользователей услуг операторов связи.

Основные результаты, полученные автором и выносимые на защиту:

1. Статистический алгоритм фильтрации спама в сообщениях на интерактивных web-сайтах, основанный на сочетании методов Байеса и Фишера, совокупная работа которых повышает качество фильтрации.

2. Методы подготовки поступивших сообщений для дальнейшего их анализа, включая предобработку текста и разбиение текста на отдельные слова и словосочетания, с приведением слов к нормальной форме при помощи специализированных словарей.

3. Алгоритм анализа пересечения подмножеств сообщений, распознаваемых методами Байеса и Фишера на основе абсолютной меры близости данных подмножеств для оценки качества совмещенного фильтра.

4. Результаты экспериментальных исследований по оценке быстродействия алгоритмов фильтрации сообщений методами Байеса и Фишера, каждого в отдельности и совмещенного алгоритма, а также производительности совмещенного фильтра.

Личный вклад автора. Основные научные результаты теоретических и прикладных исследований, выводы, изложенные в диссертации, получены автором самостоятельно. В работах, опубликованных в соавторстве, соискателю принадлежит часть, связанная с постановкой задач, разработкой алгоритмов, программной реализацией системы фильтрации сообщений и проведением экспериментальных исследований.

Внедрение результатов диссертационной работы. Результаты диссертационной работы внедрены в Самарском государственном аэрокосмическом университете имени академика С. П. Королева (национальный «Телекоммуникационные сети», в филиале ОАО «Газпромбанк» в г. Самаре и в Поволжском государственном университете телекоммуникаций и информатики, что подтверждено соответствующими актами внедрения.

Апробация работы. Основные научные и практические результаты диссертационной работы докладывались и обсуждались на следующих конференциях:

- XI Международной научно-технической конференции «Проблемы техники и технологии телекоммуникаций» (г. Уфа, 2010);

- Х Международной научно-технической конференции «Проблемы информатики в образовании, управлении, экономике и технике» (г. Пенза, 2010);

- II Всероссийской научно-практической конференции «Новые технологии в промышленности, науке и образовании» (г. Оренбург, 2010);

- Международной научной конференции «Технико-экономические проблемы инжиниринга в России, Узбекистане, Украине» (г. Самара, 2011);

- X Международной научно-технической конференции «Физика и технические приложения волновых процессов» (г. Самара, 2011);

- XII Международной научно-технической конференции «Проблемы техники и технологий телекоммуникаций» (г. Казань, 2011);

- Международном Форуме «Россия как трансформирующееся общество:

экономика, культура, управление» (г. Оренбург, 2011);

преподавательского состава, научных сотрудников и аспирантов (ФГОБУ ВПО ПГУТИ, г. Самара, 2011-2013 гг.).

Публикации. Основные теоретические и практические результаты диссертации опубликованы в 14 работах и в 2 свидетельствах о регистрации программы для ЭВМ. Публикации включают 3 работы в изданиях из перечня ВАК РФ; 1 статью из прочего издания; 3 статьи, опубликованные в трудах международных научных конференций; 1 статью, опубликованную в трудах российской научной конференции и 6 тезисов докладов.

Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения, списка литературы и приложений. Работа содержит 145 страниц машинописного текста, 45 рисунков, 15 таблиц. В списке литературы 80 наименований.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы исследования, сформулированы цель и задачи работы и научная новизна, аргументирована практическая ценность полученных результатов.

В первой главе рассмотрены факторы, которые необходимо учитывать при проектировании фильтров, защищающих пользователей от нежелательных сообщений. В ходе рассмотрения данного вопроса описана организация защиты информации в сетях телекоммуникаций и сайтов организаций. Рассмотрены негативные влияния размещения спам-сообщений в интерактивных разделах сайтов, законодательные и технические меры защиты от спама, методы, модели и существующие системы защиты сайта от спама. Если почтовый спам признали опасностью все и с попытками рассылки почтового спама собственными клиентами борются и провайдеры интернет-услуг, и хостинговые компании, то со спамом в интерактивных частях web-сайтов борются администраторы и разработчики, удаляя спам вручную, либо используя примитивные малоэффективные методы борьбы.

Приведены основные способы распространения спама и его виды на сайтах. Условно выделяют следующие виды спама – это рекламный, антирекламный, сообщения с целью выманивания денег, сообщения, содержащие компьютерные вирусы. Далее в первой главе описывается причиняемый вред. Спам перегружает серверы и машины пользователей, представляет серьезную угрозу для информационной безопасности webприложений, служит источником распространения компьютерных вирусов и является инструментом мошенничества в инфокоммуникационных сетях (сети Интернет, сотовой связи и т.п.). Отражены законодательные и технические меры защиты сайтов от спама.

Законодательство Российской Федерации содержит ряд норм, прямо или косвенно направленных на противодействие распространению спама.

В современной научной литературе нет подробных исследований воздействия спама на показатели производительности сетей. Интуитивно понятно, что поток спама не сильно увеличивает нагрузку на каналы связи, но увеличивает нагрузку на такие узлы сети, как web-серверы, тем самым, зачастую, затрудняя доступ к web-сайтам.

К современным средствам защиты от спама относится фильтрация спама.

Можно выделить две основные группы методов, используемых при решении задачи фильтрации спама:

- традиционные методы – это методы, для которых модель классификации определяется экспертом;

- методы на основе обучения – это методы, для которых модель классификации строится с помощью методов интеллектуального анализа данных (Data Mining).

В результате проведенного исследования сделан вывод о том, что в настоящее время не существует универсальных систем фильтрации спамсообщений на сайтах. Поэтому необходима разработка новой архитектуры системы классификации сообщений, методов и алгоритмов фильтрации, позволяющих более эффективно обеспечивать фильтрацию спама.

Во второй главе предлагается новая – многомодульная система построения спам-фильтра на сайтах. Ее достоинство состоит в том, что она позволяет гибко изменять алгоритмы работы, за счет реализации в виде отдельных модулей.

Описывается новый подход к фильтрации спама, включающий в себя глубокую проработку этапа предварительной подготовки поступившего сообщения для последующего анализа, совместное использование методов Байеса и Фишера, позволяющих в значительной степени уменьшить количество ложных «тревог» и пропуск спама. Общая схема процесса фильтрации спама показана на рис.1.

Этап предобработки сообщения включает в себя:

1) модуль предобработки текста, где происходит удаление всех html-тегов, а также при анализе не учитываются слова, имеющие коэффициент спамности 0.5;

2) модули выделения признаков сообщения, представленные в свою очередь двумя модулями:

словосочетания, который выбирает редковстречающиеся комбинации словосочетаний в Рис. 1. Схема процесса следующие параметры: частота использования признака в сообщениях спама (не спама); частота появления данного признака в сообщении категории спам (не спам); общая частота встречаемости сообщения.

Основная идея классификации сообщений заключается в выделении всех признаков, вычислении оценок вероятностей для отдельных признаков и дальнейшем объединении всех вычисленных вероятностей.

Перед вычислением объединенных вероятностей документа (сообщения), необходимо вычислить оценку вероятности того, что отдельное слово документа принадлежит к одной из категорий.

Пусть Fai – количество сообщений с признаком i в группе спама; Fbi – количество сообщений с признаком i в группе не спама. Тогда статистическая вероятность появления признака i в спам-сообщении вычисляется как а вероятность появления признака i в не спам-сообщении – Заметим, что приведенные выше формулы дают точный результат только для тех признаков, которые фильтр уже встречал в обеих категориях. Это делает спам-фильтр слишком чувствительным на ранних этапах обучения в отношении к редко встречающимся словам. Для решения этой проблемы, необходимо определить средневзвешенные оценки вероятностей с использованием априорной вероятности Pпр и веса w, приданного ей, а также Тогда средневзвешенные вероятности определяются формулами:

Рассмотренный подход позволяет избежать деления на нуль в формулах принятия решения на начальной стадии обучения, а также учитывать редко встречающиеся слова. Для получения объединенных вероятностей всего документа (сообщения), будем исходить из словаря, полученного на этапе обучения спам фильтра. Введем следующие события: A – документ относится к спаму; B – документ – не спам-сообщение. В предположении того, что оценки вероятностей независимы, возможно их перемножение:

для вероятности совместного появления признаков в спаме;

для вероятности совместного появления признаков в не спаме, где n – количество признаков в документе.

После нахождения объединенных вероятностей для вычисления вероятности того, что сообщение принадлежит одной из трех категорий (спам/не спам/ не определенные) было разработано два модуля осуществляющих классификацию сообщения по методам Байеса и Фишера.

Для любого сообщения вводятся 2 гипотезы: H A – сообщение относится к спаму, H B – сообщение относится к не спаму.

Введем обозначения: Fa – общее количество спам-сообщений; Fb – общее количество не спам-сообщений (легитимных); pa Fa /( Fa Fb ) – априорная вероятность спама; pb Fb /( Fa Fb ) – априорная вероятность не спама;

Oa pa /(1 pa ) – априорные шансы, что сообщение окажется спамом;

Ob pb /(1 pb ) – априорные шансы, что сообщение окажется не спамом.

Тогда на основе теоремы Байеса получаем апостериорные вероятности:

Здесь вероятности P( A) и P(B) вычисляются по формулам (3) и (4).

Далее приводится принцип принятия решения на основе метода Фишера как альтернативы методу Байеса. Согласно методу Фишера, все рассматриваемые вероятности перемножаются аналогично методу Байеса, но затем от произведения берется натуральный логарифм и результат умножается на -2. Для этого введем переменную hiqv (хи-квадрат), которая будет определена выражениями: hiqv 2 * ln( P( A)) или hiqv 2 * ln( P( B)), где вероятности P ( A) и P (B) определяются по формулам (3) и (4).

Согласно методу Фишера, если случайные оценки вероятностей p ai или pbi в выражениях (3) и (4) независимы, то величина 2 * ln( P( A)) подчиняется распределению 2 с 2n степенями свободы (n – количество признаков в документе):

где Г(n) – гамма-функция.

С учетом вышесказанного и представления гамма-функции от четного аргумента, перепишем интеграл (5) в виде:

Расчет значения факториала в отдельности и подынтегральной функции (6) в целом на языке сценариев php может вызвать ошибку переполнения, из-за диапазона представления чисел в действительной форме. В связи с этим, в программе вычисление реализовано по рекуррентной формуле. Вычисление вероятности по выражению (6) реализовано с помощью квадратурной формулы Гаусса:

где ti (b a) / 2 (b a) xi / 2, а xi – узлы квадратурной формулы Гаусса; Ai – гауссовы коэффициенты, ( i 1,2,...,15 ). В нашем случае a 0, b hiqv.

Число, возвращаемое функцией F (hiqv), будет малым в случае, если в тексте много признаков спама. Для верной классификации сообщения, нам необходим обратный результат. Тогда, вычитая из единицы значение функции F (hiqv ) для большого количества не спам признаков, получим вероятность того, что сообщение является не спамом.

Однако метод Фишера не является симметричным. Значит, необходимо скомбинировать вероятности спама и не спама путем объединения вероятностей в одно число, которое даст нам значение спам/не спам от 0 до 1.

Для этого воспользуемся индикатором Фишера: I [1 P( H A ) P( H B )] / 2, где:

P( H A ) 1 F ( 2 ln( P( A)) – вероятность принадлежности документа к спаму;

P( H B ) 1 F ( 2 ln( P( B)) – вероятность принадлежности документа не к спаму.

На начальной стадии обучения в методах классификации Байеса и Фишера необходимо задавать значения нижнего и верхнего порогов для окончательного принятия решений. Пусть T и L – величины, определяющие соответственно верхний и нижний пороги принятия решений; H – одна из определенных ранее групп (спам/не спам сообщения/ не определенные); P(H ) – вероятности попадания сообщения в одну из определенных ранее групп; I – индикатор Фишера. Будем считать, что документ (сообщение) принадлежит группе H, если P( H ), I T ; документ не принадлежит группе H, если P( H ), I L ; если же T P( H ), I L, то нельзя принять никакого решения.

Для оценки качества совмещенного фильтра в работе предложен подход на основе анализа подмножества пересечения множеств, распознанных обоими методами по категориям (спам\не спам, ложные срабатывания и пропуск спама).

Пусть S={si} (i=1M) – множество документов (сообщений), включающее как легитимные, так и спамсообщения; SB S и SF S – множества соответственно классификаторами Байеса и Фишера. Тогда подмножество – пересечение SBSF по всем вышеуказанным категориям может качества работы совмещенного фильтра. Полнота такого пересечения SBSF также будет давать оценки для подмножеств SB\SF и SF\SB. В качестве меры близости двух множеств SB и SF предложено использовать абсолютную документов в этих множествах. Таким образом, в работе в качестве оптимального критерия для оценки качества обучения спам-фильтра принимается максимальное значение меры по категориям l (спам\не спам, ложные срабатывания, пропуск спама):

После достижения наилучших показателей меры близости множеств SB и SF по всем категориям, администратор может сделать выбор, каким фильтром в дальнейшем ему пользоваться (см. рис.2).

В третьей главе представлена общая модель взаимодействия с пользователем и разработана концепция интеграции системы фильтрации с системой сайта. Для этого проведено описание взаимодействия компонентов трехуровневой архитектуры клиент-серверного приложения, предназначенного для фильтрации спама: Apache – web-сервер; MySQL – СУБД; php – интерпретируемый язык программирования; роль клиента выполняет webсервер клиента без ограничения требований к платформе.

Пользователи, подключенные к сервису фильтрации спама, отправляют на сайт текстовые сообщения. Поступившие сообщения сохраняются на сайте,а Рис. 3. Общая схема работы системы спам, а также может принимать фильтрации спама на сайтах новое сообщение сохраняется на сервере фильтра с присвоенным ему уникальным идентификатором.

В случае, когда произошло ложное срабатывание фильтра, администратор информационного ресурса корректирует результат его работы. Результат корректировки отправляется на сервер спам-фильтра. Сервис фильтрации спама производит обучение фильтра.

Далее в 3 главе представлен модуль для подключения спам фильтра к форуму. Реализация данного модуля позволила протестировать работу разрабатываемого фильтра на разных ресурсах, таких, например, как forum.psuti.ru, forum.ssau.ru, forum.osu.ru. На форуме с подключенным спамфильтром, в разделе администрирования в каждом сообщении отображается следующее.

Если сообщение еще не помечено:

- сообщение не помечено, пометить как спам/нужное;

- результат работы фильтра - спам/не спам в процентах.

Изначально на непомеченном сообщении последние два пункта не несут никакой информативности, т.к. не обучили фильтр на этих сообщениях.

После обучения фильтра, либо когда фильтр сам оценил пришедшее на сайт сообщение, текст внутри сообщения изменится следующим образом:

- сообщение помечено как нужное, пометить как спам;

- внешний ID - присвоен определенный номер в базе данных фильтра;

- результат работы фильтра - соотношение спам/не спам, в процентах. Если фильтр обучался экспертом, то значения будут равны 0%. Если же фильтр самостоятельно оценил новое сообщение, то результат оценки будет в диапазоне от 0% до 100%.

Для взаимодействия с фильтром на форуме разработано: получение решения фильтра при добавлении нового сообщения; корректировка результата при ложном срабатывании; ручное обучение на старых сообщениях, добавленных до установки связи с фильтром; скрытие спам-сообщений от всех пользователей, кроме администраторов форума; графический интерфейс.

В результате получен полностью функционирующий модуль для подключения спам фильтра к форуму.

В четвертой главе описано экспериментальное исследование корректности фильтрации сообщений разработанными алгоритмами. В ходе исследования проведено сравнение выбранных алгоритмов фильтрации, оценена производительность алгоритмов классификации и всей экспериментальной системы фильтрации сообщений.

Исследование эффективности использования разработанных алгоритмов фильтрации проводилось на сообщениях форума Самарского государственного аэрокосмического университета имени академика С.П. Королева (forum.ssau.ru).

Для этого к фильтру был подключен дамп базы данных, который является файлом с её содержимым, позволяющим воссоздать базу данных «с нуля».

Дамп на момент исследования состоял из 58659 сообщений.

На начальном этапе фильтр был обучен на 200 сообщениях. Был выбран набор 200 других сообщений (1-й набор сообщений табл. 1) и его тестирование при различных порогах принятия решения показало, что самыми оптимальными являются: верхняя граница T=0,95, нижняя граница L=0,4.

Таким образом, были установлены жесткие рамки по спаму и обычные для не спама. Это сделано во избежание ложных срабатываний.

Далее фильтр был дообучен на 400 сообщений спама и 500 не спама, т.е.

итоговое обучение на 1100 сообщениях. Для 2-го набора сообщений (табл. 1) был выбран поток из 1223 сообщений. Тестирование всего объема набора сообщений (58659) проведено также на уровне обученности фильтра на сообщениях, что, как видно из табл. 1, не удовлетворяет условию оптимальности качества обучения. Следовательно, совмещенный фильтр требует дообучения.

В табл. 1 приведена часть результатов тестирования совмещенного фильтра.

Таблица 1 – Результаты фильтрации реальных потоков сообщений Метод Всего спам/ Распознано Пересечение Количество Пропуск Аналогичные результаты пересечения получены по категориям легитимные, пропуск спама и ложные срабатывания. Как видно из табл.1, метод Фишера дает более точные результаты, чем метод Байеса по всем категориям.

Полная диаграмма результатов фильтрации 2-го потока сообщений приведена на рис. 4.

100% 94,86% Рис. 4. Полная диаграмма результатов фильтрации 2-го потока сообщений В ходе эксперимента были получены результаты, подтверждающие целесообразность использования выбранных алгоритмов фильтрации.

Предложенный подход на основе анализа подмножества пересечения множеств, распознанных обоими методами по категориям (спам\не спам, ложные срабатывания и пропуск спама) позволяет повысить качество фильтрации спама. Если сравнивать классификаторы Байеса и Фишера, то метод Фишера все же дает более точные результаты и сводит к минимуму возникновение ложных срабатываний и пропуск спама. При анализе ложных срабатываний и пропуска спама необходимо делать окончательный вывод, используя подмножества пересечения множеств по отдельным категориям результатов работы алгоритмов фильтрации.

Далее в 4 главе была проведена оценка предложенных решений классификации сообщений. По результатам тестирования можно сделать вывод, что скорость математических вычислений в целом очень незначительно влияет на работу системы, и, с этой точки зрения мы можем выбрать любой из предложенных алгоритмов классификации. Производительность же системы фильтрации в целом составила 17 сообщений/с. при совместной работе алгоритмов, что удовлетворяет требованиям большинства потенциальных пользователей системы. Данный показатель может быть увеличен путем использования более производительных серверных систем и оптимизации вспомогательных алгоритмов, что не затронет клиентскую сторону.

В заключении приводятся основные научные результаты, полученные в ходе выполненных исследований, а также представлены выводы по работе.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ:

1. Разработан статистический алгоритм фильтрации спама в интерактивных разделах сайтов сети Интернет, основанный на сочетании методов Байеса и Фишера, совокупная работа которых обеспечивает новое качество фильтрации сообщений.

2. Предложены и практически реализованы методы подготовки сообщений для дальнейшего их анализа, включая предобработку текста; разбиение текста на отдельные слова с учетом морфологии слов с приведением их к нормальной форме с использованием специализированных словарей; разбиение на словосочетания, что, в свою очередь, также повышает качество фильтрации.

3. Предложен алгоритм анализа пересечения подмножеств сообщений по категориям (спам\не спам, ложные срабатывания и пропуск спама), распознаваемых методами Байеса и Фишера на основе абсолютной меры близости данных подмножеств для оценки качества совмещенного фильтра.

4. Проведены экспериментальные исследования совмещенного фильтра по оценке качества и производительности разработанного классификатора.

Установлено, что качество работы фильтра зависит от степени его обученности и поэтому сам фильтр необходимо непрерывно дообучать. Быстродействие алгоритма Байеса на сообщении длиной 1 кБ составило 0,0001 с, Фишера – 0,0007 с, совмещенного алгоритма – 0,0009 с. Производительность совмещенного фильтра в среднем составила 17 сообщений в секунду, что удовлетворяет требованиям большинства потенциальных пользователей системы.

5. На основе предложенного комплекса алгоритмов разработана и апробирована серверная программная система фильтрации сообщений на сайтах, позволяющая оценить эффективность и быстродействие предложенных методов.

ОПУБЛИКОВАННЫЕ РАБОТЫ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Мезенцева, Е.М. Защита компьютерных сетей. Веб программирование многомодульного спам фильтра / Е.М. Мезенцева, В.Н. Тарасов // Программная инженерия. - 2012.- № 4.- С. 27-32.

2. Мезенцева, Е.М. Организация защиты компьютерных сетей. Метод многомодульной фильтрации спама на web-сайтах / Е.М. Мезенцева, В.Н. Тарасов // Информационные технологии. – 2012.- № 6.- С.18 – 22.

3. Мезенцева, Е.М. Многоуровневая архитектура клиент-серверного приложения фильтрации спама на сайтах / Е.М. Мезенцева, В.Н. Тарасов // Интеллект. Инновации.

Инвестиции.- 2012.- №4.- С. 179-184.

4. Мезенцева, Е.М. Программная система распознавания и фильтрации спама на сайтах. Свидетельство о государственной регистрации программы для ЭВМ № 2011619160, Роспатент, М., 25.11.2011.

5. Мезенцева, Е.М. Многомодульный спам фильтр для защиты компьютерных сетей. Свидетельство о государственной регистрации программы для ЭВМ № 2012612754, Роспатент, М., 19.03.2012.

6. Мезенцева, Е.М. Разработка специализированной модели, методов и алгоритмов, предназначенных для фильтрации спама / Е.М. Мезенцева // Интеллект.

Инновации. Инвестиции. Спец. выпуск, по материалам международного форума «Россия как трансформирующееся общество: экономика, культура, управление». С. 73-77.

7. Мезенцева, Е.М. Сегментированный анализ-метод выявления скрытых сущностей объекта/ Е.М. Мезенцева //Проблемы техники и технологии телекоммуникаций : тр. XI Междунар. научно-техн. конф. – Уфа, 2010. - С. 145-147.

8. Мезенцева, Е.М. Информативность свойств как мера классификации объектов/ Е.М. Мезенцева // Проблемы информатики в образовании, управлении, экономике и технике : тр. Х Междунар. научно-техн. конф. - Пенза, 2010.- С. 31-33.

9. Мезенцева, Е.М. Спам. Статистические и вероятностные методы фильтрации / Е.М. Мезенцева // Новые технологии в промышленности, науке и образовании :

матер. II-ой Всероссийской научно-практ. конф. - Оренбург, 2010. - С. 286-290.

10. Мезенцева, Е.М. Фильтрация спама на сайтах в комментариях, формах обратной связи и других интерактивных разделах / Е.М. Мезенцева // Техникоэкономические проблемы инжиниринга в России, Узбекистане, Украине : Матер.

Междун. научн. конф.- Самара : ИУНЛ ПГУТИ, 2011. - С. 34 – 37.

11. Мезенцева, Е.М. Борьба со спамом / Е.М. Мезенцева // Материалы XVIII Российской научн. конф. ППС, НС и аспирантов - Самара : ПГУТИ, 2011. - С. 226.

12. Мезенцева, Е.М. Методы и средства фильтрации спама на интернет – сайтах / Е.М. Мезенцева, В.Н. Тарасов // Физика и технические приложения волновых процессов : Материалы X Межд. научно-техн. конф. - Самара, 2011. - С. 364 – 366.

13. Мезенцева, Е.М. Определение вероятности соотнесения сообщения к спаму / Е.М.

Мезенцева, В.Н. Тарасов // Проблемы техники и технологий телекоммуникаций :

Материалы XII Межд. научно-техн. конф. - Казань, 2011. - С. 96-97.

14. Мезенцева, Е.М. Определение спама. Теорема Байеса с применением априорного знания / Е.М. Мезенцева, В.Н. Тарасов // Материалы XIX Российской научн.конф. ППС, НС и аспирантов. – Самара : ПГУТИ, 2012. - С. 197.

15. Мезенцева, Е.М. Расчет вероятностей совместного появления слов в спам сообщение / Е.М. Мезенцева // Материалы XIX Российской научн.конф. ППС, НС и аспирантов. – Самара : ПГУТИ, 2012. - С. 198.

16. Мезенцева, Е.М. Трехуровневая архитектура клиент-серверного приложения для фильтрации спама / Е.М. Мезенцева, В.Н. Тарасов // Материалы XX Российской научн. конф. ППС, НС и аспирантов. – Самара : ПГУТИ, 2013. - С. 221-222.

_ _



Похожие работы:

«МАКАШОВ Сергей Эдуардович УСТАНОВЛЕНИЕ ЗАКОНОМЕРНОСТЕЙ ФИЛЬТРАЦИИ РАССОЛОВ ДЛЯ РЕШЕНИЯ ПРОБЛЕМ ЗАГРЯЗНЕНИЯ ПРИРОДНЫХ ВОД НА ВЕРХНЕКАМСКОМ МЕСТОРОЖДЕНИИ КАЛИЙНЫХ СОЛЕЙ (на примере шахтных полей 1-го Березниковского и 3-го Соликамского калийных рудоуправлений) Специальность 25.00.07 – Гидрогеология автореферат диссертации на соискание ученой степени кандидата геолого-минералогических наук САНКТ-ПЕТЕРБУРГ 2012 Работа выполнена в федеральном государственном бюджетном...»

«Антонец Денис Викторович Разработка методических подходов к рациональному дизайну полиэпитопных Т-клеточных антигенов 03.01.03 – Молекулярная биология 03.0 АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата биологических наук Кольцово - 2013 1 Работа выполнена в Федеральном бюджетном учреждении науки Государственный научный центр вирусологии и биотехнологии Вектор Научный Бажан Сергей Иванович, доктор биологических наук, руководитель заведующий теоретическим...»

«РАДИН Юрий Анатольевич ИССЛЕДОВАНИЕ И УЛУЧШЕНИЕ МАНЕВРЕННОСТИ ПАРОГАЗОВЫХ УСТАНОВОК Специальность: 05.14.14 – Тепловые электрические станции, их энергетические системы и агрегаты АВТОРЕФЕРАТ диссертации на соискание ученой степени доктора технических наук Москва 2013 Работа выполнена в Открытом акционерном обществе Всероссийский дважды ордена Трудового Красного Знамени Теплотехнический научноисследовательский институт (ОАО ВТИ) Официальные оппоненты : Трухний Алексей...»

«ЧУРОВА Мария Викторовна АКТИВНОСТЬ И ЭКСПРЕССИЯ ГЕНОВ НЕКОТОРЫХ ФЕРМЕНТОВ ЭНЕРГЕТИЧЕСКОГО И УГЛЕВОДНОГО ОБМЕНА И РАЗМЕРНО-ВЕСОВЫЕ ХАРАКТЕРИСТИКИ РЫБ СЕМЕЙСТВ ЛОСОСЕВЫЕ (SALMONIDAE) И СИГОВЫЕ (COREGONIDAE) Специальность 03.01.04 – биохимия АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата биологических наук Петрозаводск 2012 Работа выполнена в лаборатории экологической биохимии Федерального государственного бюджетного учреждения науки Института биологии Карельского...»

«Федосов Евгений Владимирович Влияние матери на развитие детенышей у кроликов в препубертатный период онтогенеза Специальность 03.02.04 - зоология Автореферат диссертации на соискание учёной степени кандидата биологических наук Москва – 2012 Работа выполнена в лаборатории поведения и поведенческой экологии Федерального государственного бюджетного учреждения науки Институт проблем экологии и эволюции им. А. Н. Северцова Российской Академии наук Научный руководитель : Котенкова...»

«БУДАЕВА ДАРИМА ГАРМАЕВНА НАУЧНО-МЕТОДИЧЕСКОЕ ОБЕСПЕЧЕНИЕ ОРГАНИЗАЦИИ РЕКРЕАЦИОННЫХ ТЕРРИТОРИЙ В РЕСПУБЛИКЕ БУРЯТИЯ НА ОСНОВЕ ГИС-ТЕХНОЛОГИИ 25.00.24 – Экономическая, социальная, политическая и рекреационная география АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата географических наук Улан-Удэ – 2012 Работа выполнена в Федеральном государственном бюджетном учреждении науки Байкальский институт природопользования Сибирского отделения РАН. Научный руководитель...»

«Борзых Ольга Сергеевна ГЕОЛОГО-ЭКОНОМИЧЕСКАЯ ПЕРЕОЦЕНКА МАРГАНЦЕВОРУДНЫХ ОБЪЕКТОВ ЮЖНОЙ СИБИРИ В ЦЕЛЯХ СОЗДАНИЯ ФЕРРОСПЛАВНОГО ПРОИЗВОДСТВА Специальность 25.00.11 – Геология, поиски и разведка твердых полезных ископаемых, минерагения АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата геолого-минералогических наук Москва – 2012 Работа выполнена в Федеральном государственном унитарном предприятии Всероссийский научно-исследовательский институт минерального сырья им....»

«Оа ~ _ Исаева Марина Алексеевна ФОРМИРОВАНИЕ ИНОЯЗЫЧНОЙ КОММУНИКАТИВНОЙ КОМПЕТЕНТНОСТИ У БУДУЩИХ МЕНЕДЖЕРОВ НА ОСНОВЕ КОНТЕКСТНОГО ПОДХОДА 13.00.08 - теория и методика профессионального образования Автореферат диссертации на соискание ученой степени кандидата педагогических наук Чебоксары - 2013 Диссертация выполнена на кафедре педагогики начального образования ФГБОУ ВПО Чувашский государственный педагогический университет им. И. Я. Яковлева Научный руководитель доктор...»

«Досекин Егор Сергеевич ЕВГЕНИЙ НИКОЛАЕВИЧ ТРУБЕЦКОЙ – ОБЩЕСТВЕННЫЙ И ПОЛИТИЧЕСКИЙ ДЕЯТЕЛЬ Специальность 07.00.02 – Отечественная история АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата исторических наук Саратов – 2013 2 Работа выполнена в ФГБОУ ВПО Самарский государственный университет Научный руководитель : доктор исторических наук, профессор Смирнов Юрий Николаевич Официальные оппоненты : доктор исторических наук, доцент, доцент кафедры гуманитарных и правовых...»

«Волков Иван Иванович МЕТОДЫ И АЛГОРИТМЫ ДВУХАГЕНТНОЙ КЛАССИФИКАЦИИ СОСТОЯНИЯ СИСТЕМЫ КРОВООБРАЩЕНИЯ, ОСНОВАННЫЕ НА МОРФОЛОГИЧЕСКОМ АНАЛИЗЕ И ВЕРОЯТНОСТНЫХ НЕЙРОННЫХ СЕТЯХ Специальность 05.13.01 – Системный анализ, управление и обработка информации (технические и медицинские системы) Автореферат диссертации на соискание ученой степени кандидата технических наук КУРСК 2013 2 Работа выполнена в Юго-Западном государственном университете на кафедре биомедицинской инженерии Научный...»

«МЕЛИХОВА ОКСАНА АНАТОЛЬЕВНА КЛИНИКО-ГОРМОНАЛЬНАЯ ХАРАКТЕРИСТИКА АНДРОГЕН-ДЕФИЦИТНОГО СОСТОЯНИЯ У ЖЕНЩИН С ВОЗРАСТНЫМ И ХИРУРГИЧЕСКИМ ВЫКЛЮЧЕНИЕМ ФУНКЦИИ ЯИЧНИКОВ 14.01.01 – акушерство и гинекология АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата медицинских наук Москва – 2012 2 Работа выполнена в Федеральном бюджетном государственном учреждении Научный центр акушерства, гинекологии и перинатологии имени академика В.И. Кулакова Министерства здравоохранения и...»

«Бурмистров Владимир Владимирович СИНТЕЗ И РЕАКЦИИ АДАМАНТИЛСОДЕРЖАЩИХ ИЗОЦИАНАТОВ Специальность 02.00.03 – Органическая химия АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата химических наук Волгоград - 2012 Работа выполнена на кафедре Химия и общая химическая технология Волжского политехнического института (филиал) федерального государственного бюджетного образовательного учреждения высшего профессионального образования Волгоградский государственный технический...»

«Князев Николай Сергеевич ИССЛЕДОВАНИЕ ХАРАКТЕРИСТИК СФЕРИЧЕСКИХ РЕЗОНАТОРНЫХ АНТЕНН МАЛЫХ ЭЛЕКТРИЧЕСКИХ РАЗМЕРОВ Специальность 05.12.07 – Антенны, СВЧ-устройства и их технологии Автореферат диссертации на соискание ученой степени кандидата технических наук Екатеринбург – 2012 Работа выполнена в ФГАОУ ВПО Уральский федеральный университет имени первого Президента России Б.Н.Ельцина (г. Екатеринбург). Научный руководитель : Заслуженный деятель науки РФ, доктор технических наук,...»

«ЧЕКИНА Александра Валерьевна ГЕНЕТИЧЕСКАЯ КЛАСТЕРИЗАЦИЯ ТЕХНИЧЕСКОЙ ДОКУМЕНТАЦИИ В ПРОЕКТНЫХ РЕПОЗИТОРИЯХ САПР 05.13.12 – Системы автоматизации проектирования (промышленность) Автореферат диссертации на соискание ученой степени кандидата технических наук Ульяновск – 2012 Работа выполнена на кафедре Информационные системы в Ульяновском государственном техническом университете. Научный руководитель : доктор технических наук, профессор Ярушкина Надежда Глебовна Официальные...»

«АМИНИ Резо Наджафободи ФИЗИКО-ХИМИЧЕСКИЕ СВОЙСТВА ЦИНК-АЛЮМИНИЕВЫХ СПЛАВОВ, ЛЕГИРОВАННЫХ БЕРИЛЛИЕМ И МАГНИЕМ 02.00.04 – физическая химия АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Душанбе – 2012 Работа выполнена в лаборатории Коррозионностойкие материалы Института химии им. В.И. Никитина АН Республики Таджикистан. Научный руководитель : доктор химических наук, академик АН Республики Таджикистан, профессор Ганиев Изатулло Наврузович...»

«Мишин Валерий Юрьевич МЕТОДЫ ОБРАБОТКИ ИНФОРМАЦИИ В ЛАЗЕРНОМ ГИРОСКОПЕ С ПРЕЦИЗИОННОЙ РЕГИСТРАЦИЕЙ ПЕРЕМЕЩЕНИЙ ИНТЕРФЕРЕНЦИОННОЙ КАРТИНЫ Специальность 01.04.01 – Приборы и методы экспериментальной физики АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Рязань 2013 Работа выполнена в ФГБОУ ВПО Рязанский государственный радиотехнический университет Научный руководитель : Чиркин Михаил Викторович, доктор физико-математических наук, профессор...»

«Ожева Разиет Шумафовна ЭКОЛОГО-ФИЗИОЛОГИЧЕСКИЕ И ЭТНИЧЕСКИЕ ОСОБЕННОСТИ АДАПТИВНЫХ РЕАКЦИЙ ОРГАНИЗМА ПОДРОСТКОВ К УСЛОВИЯМ СЕВЕРО-КАВКАЗСКОГО РЕГИОНА 03.03.01-физиология 14.03.03-патологическая физиология АВТОРЕФЕРАТ диссертации на соискание ученой степени доктора медицинских наук Москва 2012 Работа выполнена на кафедре нормальной физиологии медицинского факультета Федерального государственного бюджетного образовательного учреждения Российский университет дружбы народов...»

«ЛЕБЕДЕВ ОЛЕГ МИХАЙЛОВИЧ МАТЕМАТИЧЕСКИЕ МОДЕЛИ ЛАВИННЫХ ПРОЦЕССОВ ДЛЯ АВТОМАТИЗИРОВАННЫХ СИСТЕМ ПОДДЕРЖКИ ПРИНЯТИЯ УПРАВЛЕНЧЕСКИХ РЕШЕНИЙ В ЧРЕЗВЫЧАЙНЫХ СИТУАЦИЯХ Специальность: 05.13.18 – Математическое моделирование, численные методы и комплексы программ 05.13.01 – Системный анализ, управление и обработка информации (медицинские и технические системы) АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Воронеж – Работа выполнена в ФГБОУ ВПО...»

«СОЛОМЕНЦЕВ Дмитрий Валентинович АНСАМБЛЕВАЯ АССИМИЛЯЦИОННАЯ МОДЕЛЬ ИОНОСФЕРЫ Специальность 25.00.29 – Физика атмосферы и гидросферы АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико- математических наук Москва — 2013 Работа выполнена в Федеральном Государственном Бюджетном Учреждении Центральная Аэрологическая Обсерватория, г. Долгопрудный Научный руководитель : кандидат физико-математических наук Хаттатов Вячеслав Усеинович Официальные оппоненты :...»

«Гребенников Николай Вячеславович ДИНАМИКА И ЭНЕРГОЭФФЕКТИВНОСТЬ ПЕРСПЕКТИВНЫХ ЕДИНИЦ ПОДВИЖНОГО СОСТАВА, ОСНАЩАЕМЫХ ВЕНТИЛЬНО-ИНДУКТОРНЫМИ ЭЛЕКТРИЧЕСКИМИ МАШИНАМИ Специальность 05.22.07 – Подвижной состав железных дорог, тяга поездов и электрификация Автореферат диссертации на соискание ученой степени кандидата технических наук Ростов-на-Дону – 2012 Работа выполнена на кафедре Локомотивы и локомотивное хозяйство Федерального государственного бюджетного образовательного...»






 
2014 www.av.disus.ru - «Бесплатная электронная библиотека - Авторефераты, Диссертации, Монографии, Программы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.