WWW.DISS.SELUK.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА
(Авторефераты, диссертации, методички, учебные программы, монографии)

 

На правах рукописи

Семенова Мария Александровна

МОДЕЛЬ И МЕТОД ГРАДУИРОВАННОЙ ФИЛЬТРАЦИИ

«СПАМА»

Специальность 05.13.19.

Методы и системы защиты информации,

информационная безопасность

Автореферат

диссертации на соискание ученой степени

кандидата технических наук

Санкт-Петербург 2009 2

Работа выполнена на кафедре «Безопасные информационные технологии» Государственного образовательного учреждения высшего профессионального образования «Санкт-Петербургского государственного университета информационных технологий, механики и оптики»

(ГОУВПО «СПб ГУ ИТМО»).

Научный руководитель: Доктор технических наук, профессор Осовецкий Леонид Георгиевич

Официальные оппоненты: Доктор технических наук, профессор Фетисов Владимир Андреевич Кандидат технических наук, профессор Звонов Валерий Степанович

Ведущая организация: ЗАО «Эврика» г. Санкт-Петербург

Защита состоится " 15 " декабря 2009 г. в 12 часов 00 минут на заседании диссертационного совета Д 212.227.05 при Санкт-Петербургском Государственном университете информационных технологий, механики и оптики, по адресу: 197101, Санкт-Петербург, Кронверкский пр., д. 49.

С диссертацией можно ознакомиться в библиотеке СПб ГУ ИТМО.

Автореферат разослан "12" ноября 2009г.

Ученый секретарь Диссертационного совета Д 212.227. кандидат технических наук доцент _ Поляков В.И.

Общая характеристика работы

АКТУАЛЬНОСТЬ ТЕМЫ

Распространение писем, в число которых входит и большой объем нежелательной корреспонденции («спама»), приняло в сети «Интернет»

угрожающие размеры и стало серьезно мешать работе этой сети. В среднем прием «спама» достигает до 100 писем в день. В настоящее время создание модели фильтрации, которая бы позволила снизить ошибочные срабатывания фильтра, представляет собой самую трудную часть фильтрации. Итак, центральная технология для фильтрации сообщения – правильная оценка количества слов, по которым будут производиться дальнейшие расчеты «спамерности» поступившего сообщения. В зависимости от того, какие данные, будут содержаться по данным словам в частотных словарях, будет зависеть и результат фильтрации.

Таким образом, работа, посвященная разработке модели и метода градуированной фильтрации «спама», АКТУАЛЬНА и представляет научный и практический интерес.

Значимость и актуальность предопределили выбор направления исследования, цели и задачи работы.

ЦЕЛИ И ЗАДАЧИ ДИССЕРТАЦИИ

Целью диссертационной работы является разработка модели и метода градуированной фильтрации «спама» для улучшения качества и увеличения достоверности фильтрации нежелательной корреспонденции.

Поставленная цель исследования определяет необходимость решения нижеследующих основных задач.

1. Проведение анализа предметной области для установления существующих и разрабатываемых подходов к вопросу «антиспамовой» защиты.

2. Определение критериев качественного функционирования системы фильтрации нежелательной корреспонденции.

3. Создание модели и метода фильтрации нежелательной корреспонденции, которые удовлетворят выбранным критериям.

4. Создание инструментально-технологического комплекса, предоставляющего возможность использования предложенного метода фильтрации «спама».

5. Проведение исследования экспериментального использования предложенных модели и метода градуированной фильтрации В соответствии с целями и задачами диссертационного исследования определены его предмет и объект.

ПРЕДМЕТ ИССЛЕДОВАНИЯ

Предметом исследования диссертационной работы является комплекс вопросов, связанных с разработкой модели и метода фильтрации нежелательной корреспонденции, а также оценка использования данных модели и метода.

ОБЪЕКТ ИССЛЕДОВАНИЯ

В качестве объекта исследования выступают современные технологии фильтрации «спама».

МЕТОДОЛОГИЧЕСКАЯ ОСНОВА ИССЛЕДОВАНИЯ

Методологической основой исследования являются труды отечественных ученых и специалистов по проблемам национальной, экономической и информационной безопасности, руководящие документы Гостехкомиссии России, законодательные акты Российской Федерации, энциклопедическая и справочная литература, материалы периодической печати, а также опыт организации работы по обеспечению «антиспамовой»

защиты.

ОСНОВНЫЕ НАУЧНЫЕ ПОЛОЖЕНИЯ, ВЫНОСИМЫЕ НА

ЗАЩИТУ

корреспонденции («спама»);

2. Метод градуированной фильтрации «спама» отличающийся от существующих методов новым способом нахождения количества слов для оценки письма и улучшенным способом вычисления коэффициентов «спамерности»;

3. Критерии качественного функционирования системы фильтрации нежелательной корреспонденции;

4. Результаты сравнительного анализа использования модели и метода градуированной фильтрации «спама».



НАУЧНАЯ НОВИЗНА И ТЕОРЕТИЧЕСКАЯ ЗНАЧИМОСТЬ

Научная новизна и теоретическая значимость работы определяются авторской разработкой модели и метода градуированной фильтрации нежелательной корреспонденции и заключаются в следующем:

1. Определение критериев качественного функционирования автоматизированной системы фильтрации «спама».

2. Разработка новой модели градуированной фильтрации нежелательной корреспонденции («спама»), позволяющей уменьшить количество ложных тревог и пропуска «спама».

3. Разработка нового метода градуированной фильтрации нежелательной корреспонденции («спама»), который, в отличие от известных подходов, позволяет повысить качество оценки данных за счет учета следующих параметров (количества писем, в которых встречались слова определенной категории; частоты использования слов, в письмах определенной категории; использования слов, впервые встретившихся в проверяемом письме и не существовавших до этого в базе).

4. Разработка нового способа нахождения эвристического коэффициента (основанного на количестве слов для анализа письма) и оценки нахождения «спама» с учетом нового расчета коэффициентов «спамерности».

ПРАКТИЧЕСКАЯ ЦЕННОСТЬ

Практическая ценность работы состоит в том, что разработанные модель и метод градуированной фильтрации «спама» позволяют оценить уровень защиты от «спама», что было подтверждено проведенными исследованиями и практическими применениями полученных результатов в рамках работ на 3 различных серверах. Практическую ценность также определяет возможность использования разработанного инструментальнотехнологического комплекса, реализующего представленный метод градуированной фильтрации «спама» и одобренного пользователями почтовых систем.

Материалы диссертации могут быть использованы при разработке методических материалов для учебного процесса в вузах соответствующего профиля.

АПРОБАЦИЯ РАБОТЫ

Основные положения диссертации докладывались на научнопрактических конференциях Санкт-Петербургского государственного университета информационных технологий, механики и оптики.

ВНЕДРЕНИЕ РЕЗУЛЬТАТОВ

Результаты работы использованы в учебном процессе кафедры БИТ СПбГУ ИТМО по специальности 090103 по дисциплинам «Введение в специальность» и «Теория информационной безопасности и методология защиты информации» и кафедры «Прикладной информатики» АНО ВПО «Международного банковского института» по специальности 351400 по дисциплине «Прикладная информатика в экономике».

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

По материалам диссертации опубликованы шесть печатных работ, в том числе, три входящие в список рекомендованных ВАК для кандидатских диссертаций.

СТРУКТУРА И ОБЪЕМ ДИССЕРТАЦИИ

Диссертация состоит из введения, четырех глав, заключения, списка литературы, списка публикаций, приложений. Материал изложен на страницах машинописного текста, содержит 36 рисунков и 10 таблиц, список литературы состоит из 59 наименований.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность темы и научная новизна, сформулированы цели и задачи диссертации, аргументируется практическая ценность полученных научных результатов и представлены основные положения, выносимые на защиту.

В первой главе рассмотрены системный подход к обеспечению фильтрации нежелательной корреспонденции, наиболее распространенные виды «спама», способы распространения и причины возникновения почтового «спама», а также причиняемый от этого ущерб. Кроме того, описаны существующие алгоритмы фильтрации «спама» используемые в «антиспамовой» защите, их недостатки.

Самый большой поток «спама» распространяется через электронную почту (e-mail). В настоящее время доля вирусов и «спама» в общем трафике электронной почты составляет по разным оценкам 70-95%.

Причиняемый вред, заключается в том что «спам» может выступать переносчиком троянских программ и компьютерных вирусов, так как злоумышленник делает рассылку этих программ с целью получения доступа к компьютерным системам, выведения их из строя или получения конфиденциальных данных.

Далее описаны методы борьбы с нежелательной электронной корреспонденцией.

В последнее время все больше пользователей в борьбе с нежелательной корреспонденцией используют «антиспамовые» фильтры.

Во многих почтовых программах в последнее время кроме стандартных папок появилась такая папка, как «спам», в которую должна отсортировываться вся нежелательная корреспонденция. Эта сортировка возможна как вручную, так и при помощи самодельной системы фильтров.

ПО автоматизированной фильтрации используют два основных подхода:

анализируется содержание письма и делается вывод, «спам» это или применяются различные методы для опознавания отправителя как «спаммера», не заглядывая в текст письма.

Проблемой при автоматизированной фильтрации является то, что она может по ошибке отмечать полезные сообщения как «спам». Поэтому многие почтовые сервисы не стирают те сообщения, которые фильтр счёл «спамом», а помещают их в отдельную папку.

Кроме того, в данной главе рассмотрены методы автоматизированной фильтрации нежелательной корреспонденции.

Существует множество алгоритмов фильтрации на основе анализа содержания письма. Некоторые реализуются в программных средствах, которые на сервере или после «скачивания» писем на компьютер пользователя анализируют заголовки сообщений, их содержание.

В основе метода статистической фильтрации лежит механизм разбиения входящих писем на слова («токены»). Берется архив старых вручную отсортированных сообщений и передается программе обучения. Она составляет частотные словари для каждой папки сообщений.

Когда словари заполнены, вычисление вероятности принадлежности конкретного нового письма к тому или иному типу производится по схеме представленной на рисунке 1.

Рис.1. Схема процесса фильтрации спама на основе Байесовского Вычисление вероятности принадлежности конкретного нового письма к тому или иному типу производится по соотношению Байеса для каждого слова этого нового письма. Суммированием и нормализацией вероятностей слов получают вероятность для всего письма. Как правило, вероятность принадлежности к одному из типов намного выше, чем к другим. Вот в эту папку сообщение и отправляется.

В других существующих алгоритмах для расчета «спамерности»

применяется приведенная выше методика с использованием следующих правил:

для анализа сообщений используются не все слова, а 15, 25 или слов, для которых коэффициент «спамерности» слов наиболее сильно отклоняется от нейтрального значения 0,5;

если ранее слово встречалось менее чем в пяти письмах, оно впервые встретившимся словам в некоторых алгоритмах присваиваются коэффициенты 0.5 или 0.4.

Преимущества методов автоматической фильтрации (использующих фильтры) по сравнению с другими методами фильтрации «спама»

заключаются в следующем:

просмотр полного нежелательного сообщения, а не только ключевых слов или известных подписей;

непрерывное изучение нового «спама» и новых приемлемых набор данных уникален для каждой организации;

многоязычность.

При всех явных достоинствах фильтров, описанных в данной главе, существуют и некоторые недостатки, такие как: необходимость переобучения, ложные срабатывания и другие (вызванные ограниченным количеством слов). Различают два вида ложных срабатываний: это неверное зачисление письма в «спам» и неверное причисление письма к «не-спаму».

Во второй главе описаны разработанные модель и метод градуированной фильтрации «спама», в которых для расчета общей оценки письма, используется новый способ нахождения количества слов для оценки письма и новый способ вычисления коэффициентов «спамерности», позволяющие улучшить качество фильтрации. Данный метод позволяет накопить достаточно информации для эффективной фильтрации электронной почты и тем самым устранить в какой-то степени вышеописанные недостатки фильтрации.

Сформулированы исходные положения метода градуированной фильтрации «спама».

Данный метод нацелен на решение следующих двух проблем.

1. Повышение качества оценки данных (градуирования), т.е. проблемы, связанной с градуированием соотношения «спама» и «не-спама».

2. Анализ «токенов», впервые встретившихся в проверяемом письме и не существовавших до этого в базе.

В основе метода градуированной фильтрации лежит механизм разбиения входящих писем на слова, на основе которых составляются частотные словари. Ниже представлена схема составления частотных словарей по методу градуированной фильтрации «спама» (см. рис. 2) Рис. 2 Схема заполнения частотных словарей по методу В процессе заполнения частотных словарей по методу градуированной фильтрации «спама» вычисляются следующие значения: частота использования слов в письмах «спама» («не-спама»); относительная частота появления данного слова в словаре «спама» («не-спама»); коэффициент «спамерности» слова; количество писем «спама» («не-спама»), в которых встретилось данное слово.

Когда словари заполнены, фильтрация на основе метода градуированной фильтрации «спама» производится по схеме представленной на рисунке 3.

Рис.3. Схема процесса фильтрации писем на основе метода градуированной Каждое новое письмо, поступающее через фильтр, разбивается на слова. Далее эти слова анализируются с помощью частотных словарей с целью определения исторических данных (данных, находящихся в частотных словарях). Если же такого слова не было ни в одном из словарей, то автоматически устанавливается коэффициент, равный 0,5, а по мере накопления статистики это значение будет выходить на свой естественный уровень. После этого необходимо произвести выборку слов, по которым будут производиться дальнейшие расчеты. Согласно методу градуированной фильтрации «спама» это кол-во слов вычисляется как среднее количество слов, для которых коэффициент «спамерности» слова попадает в указанный пользователем интервал, т.е. наиболее сильно отличается от нейтрального значения 0,5. После этого рассчитывается суммарный коэффициент «спамерности» (коэффициент, определяющий вероятность того, что письмо является «спамом») и коэффициент «не-спамерности» для слов определенных на предыдущем шаге. Затем вычисляется общая оценка письма, по соотношению Байеса, но с подстановкой новых вероятностей нахождения «спама» в письме. После этого выполняется оценка письма, по шкале, заданной пользователем.

функционирования системы фильтрации «спама»: P = P + P ; P + P

О С Н СО СН

где: PO – общее количество писем; PС – реальное кол-во писем «спама»;

PСО – найденное кол-во писем «спама»; PН – реальное кол-во писем «не-спама»; PСН – кол-во нормальных писем зачисленных в «спам» (ложные тревоги);

K 1 представляет собой K CH – количество ложных тревог (письма ошибочно классифицированные как «спам») K 2 представляет собой K СО – количество пропущенных писем K 3 – качество фильтрации (зависимость результата фильтрации от фактора ложного выявления и пропуска «спама»); K 3 = K СН K СО Суть метода фильтрации состоит в применении математических соотношений, приведенных ниже, к входящим письмам. Эти соотношения позволяют вычислить вероятность успешного совершения некоторого события на основании статистики совершения этого события в прошлом.

Применительно к «спаму», принцип работы классификатора построенного на основе метода градуированной фильтрации можно описать следующими соотношениями:

Пусть письмо содержит «не-спамерности» отдельных слов p ds1... p dsk.

Тогда общая оценка письма может быть вычислена по следующим где: P - вероятность того, что сообщение является «спамом», S - суммарный коэффициент «спамерности» сообщения, G - суммарный коэффициент «не-спамерности» сообщения, K - заданный пользователем порог [0, 1].

Для вычисления вероятностей p si и p dsi используется так называемый процесс «обучения», во время которого анализируются заранее классифицированные письма.

Подсчет «спамерности» и «не-спамерности» в общем случае осуществляется по следующим соотношениям:

S = ps1 * ps2 * ps3 *...* ps(k1) * psk (2) ; G = pds1 * pds2 * pds3 *...* pds(k1) * pdsk (3) Для корректного соотношения «спама» и «не-спама» и в дальнейшем оценки категории письма (градуирования) будем вычислять «спамерность»

по соотношению вычисления вероятностей, которое при нулевой частоте использования дает нейтральный результат, а при пересчете всех величин после определения категории письма, выйдет на свой естественный уровень.

Коэффициенты «спамерности» и «не-спамерности» слов из рассматриваемого письма будут рассчитываться следующим образом:

где: n si - количество ранее обработанных сообщений «спама» со словом i, n dsi - количество ранее обработанных сообщений «не-спама» со словом i, p dsi - коэффициент «не-спамерности» для i - го слова, p si коэффициент «спамерности» для i - го слова.

В методе градуированной фильтрации «спама» также предусмотрен расчет относительной частоты появления данного слова в словарях, т.е.

степень возможности появления данного слова в конкретном словаре. Для анализа полученных данных пользователем, предусмотрена визуализация данных, отражаемая в относительной частоте появления данного слова в словарях.

Данная величина рассчитывается по следующему соотношению:

где: - относительная частота появления «спама»; относительная частота появления «не-спама»; sk - частота k -го слова в письмах «спама»; dsk - частота k -го слова в письмах «не-спама».

Помимо математических соотношений для расчета общей оценки письма, описаны правила, используемые при фильтрации сообщений, заключающиеся в следующем:

для анализа сообщений используются среднее количество слов, наиболее сильно отличающихся от значения 0,5;

новое слово, не встречавшееся ранее, получает стартовую «спамерность» 0,5 за счет использования вышеприведенного соотношения (4);

используются «токены» с малой частотой нахождения в сообщениях, т.к. их «спамерность» вычисляется по соотношению (4).

Процесс вычисления количества слов участвующих в дальнейших расчетах коэффициентов «спамерности»/ «не-спамерности» и определения категории письма представлен на рисунке 4.

Рис.4. Процесс вычисления количества слов участвующих в дальнейших расчетах по методу градуированной фильтрации «спама»

Далее приведены обоснования использования модели и метода градуированной фильтрации «спама».

Данный метод фильтрации позволяет автоматически настроить фильтры согласно особенностям индивидуальной переписки, а при обработке учитывает признаки как «плохих», так и «хороших» фильтров.

Статистика архива позволяет автоматически анализировать почтовый поток и периодически корректировать работу уже созданного фильтра. Этот факт позволяет назвать данную систему самообучающейся. Благодаря этому свойству системы практически исключены ошибочные срабатывания фильтра и, следовательно, потери важной информации.

Кроме того, в данной главе был проведен анализ оценок нахождения «спама» с помощью различных алгоритмов с учетом эвристического коэффициента. В результате данного анализа было подтверждено, что ограниченное количество слов для оценки не может дать точного результата.

Вместе с тем, произведен анализ оценок нахождения «спама» посредством различных алгоритмов с учетом использования различных способов расчета коэффициентов «спамерности». В результате анализа полученных результатов на этапе выбора эвристического коэффициента, в зависимости от способов расчета коэффициентов «спамерности», можно говорить о том, что при использовании алгоритмов, в которых игнорируются впервые встретившиеся слова, невозможно получить наиболее точную оценку письма. Это объясняется тем, что при расчете количества слов для оценки письма будет использоваться гораздо меньшее количество слов.

В третьей главе описан имитационный технологический комплекс поддержки метода градуированной фильтрации «спама».

Описана структура, реализующая разработанные алгоритмы.

Особенностью технологии автоматизированной фильтрации «спама»

является возможность индивидуальной автоматической настройки фильтра, что является важным преимуществом, поскольку разные люди или же компании используют в электронной переписке разную лексику.

Основными этапами работы с инструментально-технологическим комплексом «контр-спам» являются нижеследующие.

1. «Обучение» автоматизированной системы фильтрации «спама».

2. Работа с автоматизированной системой фильтрации «спама».

Автоматизированная система фильтрации «спама» определяет частоту вхождения слов и фраз в каждом почтовом сообщении и ведёт базу данных частотных словарей, на основе которых определяет вероятность принадлежности сообщения к «спаму». После обработки каждого электронного сообщения обновляются частотные словари. За счет этого выполняется динамическая подстройка автоматизированной системы фильтрации к постоянно меняющемуся потоку сообщений.

Процесс заполнения частотных словарей по методу градуированной фильтрации «спама» состоит из следующих этапов:

1. выделение писем относящихся к «спаму»(«не-спаму»);

2. разделение указанных писем на слова;

3. подсчет количества одинаковых слов, встретившихся в письмах категории «спама»(«не-спама»);

4. расчет относительной частоты появления данного слова в словаре «спам»(«не-спама»);

5. расчет коэффициента «спамерности» слова;

6. подсчет количества писем, в которых встретилось слово определенной категории.

Процесс фильтрации по методу градуированной фильтрации «спама»

состоит из следующих этапов:

1. сообщение разделяется на отдельные слова;

2. сравнение слов, находящихся в фильтруемом письме, с частотными словарями для определения его исторических данных;

3. определение количества слов, по которым будет произведена оценка 4. расчет суммарного коэффициента «спамерности» и «неспамерности» для слов, выбранных в пункте 3;

5. оценка письма;

6. определение, к какой категории отнести письмо на основании шкалы заданной пользователем («порог для оценки письма») и значения оценки письма, полученной в пункте 5.

В данном разделе приведены функциональные возможности работы инструментально-технологического комплекса «контр-спам».

Далее представлен механизм управления автоматизированной системой фильтрации «спама».

Основу механизма управления составляет заполнение частотных словарей по методу градуированной фильтрации «спама», которое в свою очередь состоит из ряда процессов, позволяющих выполнить данную функцию. После того, как будут заполнены частотные словари, и перед тем, как переходить непосредственно к фильтрации сообщений, необходимо задать порог коэффициента «спамерности» слова, для определения количества слов для оценки письма, а также «порог для оценки письма», т.е.

значения по шкале от [0; 1], в пределах которых будет оцениваться категория письма. После этого можно переходить ко второму основному процессу, т.е.

к фильтрации входящего потока сообщений по методу градуированной фильтрации «спама».

Кроме того, приведено описание интерфейсов: механизма управления «обучением» частотных словарей (рис. 5а), механизма управления фильтрацией входящего потока сообщений (рис 5б). А также описан механизм управления корректировкой частотных словарей.

Рис.5. Интерфейсы механизма управления «обучением» и механизма фильтрацией входящего потока сообщений исследование модели и метода градуированной фильтрации «спама».

Целью экспериментального исследования являлась проверка эффективности использования модели и метода градуированной фильтрации «спама».

Задачи экспериментального исследования сводились к следующему:

1) проверка опытно-экспериментальным путем эффективности использования предложенной во второй главе модели и метода градуированной фильтрации «спама»;

2) разработка рекомендаций по работе с автоматизированной системой фильтрации «спама».

В ходе исследования эффективности использования предложенных модели и метода градуированной фильтрации «спама» возникла необходимость отслеживания динамики изменения значений величин в частотных словарях, степени корректной фильтрации входящих сообщений в зависимости от различных устанавливаемых значений порога коэффициента «спамерности» слова и порога оценки письма при работе с автоматизированной системой фильтрации «спама».

Произведено исследование динамики изменения значений величин в частотных словарях инструментально-технологического комплекса «контрспам» на одинаковом количестве писем, а также произведен анализ результатов исследования.

рис. 6. По горизонтали откладывается количество слов в рассматриваемом письме, а по вертикали F, т.е. вероятность того, что слово является «спамом»/ «не-спамом».

Рис.6. Заполнение частотных словарей для равного количества писем Опытно-экспериментальные исследования подтвердили, что с увеличением числа писем определенной категории изменяется соотношение относительной частоты для всех слов, находящихся в рассматриваемом письме и частотных словарях, а также значение вероятности принадлежности слов к определенным категориям.

Однако бывают случаи, когда значения вероятности снижается, а потом вновь увеличивается (случай "редко встречающиеся слова в словаре «спама»" на представленном рисунке), а это происходит из-за того, что после обработки каждого письма все его значения пересчитываются и при рассмотрении последующего письма рассматриваемое слово может встретиться чаще или реже, чем в предыдущем письме. Но в конечном итоге слова, относящиеся к «спаму»/ «не-спаму» будут преобладать в письмах данной категории.

Далее проведено исследование степени корректной фильтрации входящего потока в инструментально-технологическом комплексе «контрспам» в зависимости от значения порога коэффициента «спамерности» слова на базе трех различных серверов, а также проведен анализ результатов экспериментального исследования.

Результаты исследования фильтрации входящего потока сообщений представлены на рис. 7. Всего входящих писем 419, 209 из которых являлись «спамом», 210 «не-спамом». Пороги коэффициента «спамерности» были установлены: начальный – 0.4; конечный – 0.6, а пороги для оценки письма равными: начальный – 0.4; конечный – 0. Рис. 7. Процентное соотношение найденного «спама» и «не-спама»

автоматизированной системой фильтрации «спама», использующей модель и метод градуированной фильтрации «спама» в зависимости от порога По результатам анализа результатов на этапе фильтрации входящего потока сообщений можно говорить о том, что система во всех трех случаях не смогла распознать лишь 1% писем, а количество ложных срабатываний и пропуска «спама» оказалось равным 5%.

Также проведено исследование степени корректной фильтрации входящего потока сообщений в инструментально-технологическом комплексе «контр-спам» в зависимости от значения порога для оценки письма.

Результаты исследования фильтрации входящего потока сообщений представлены на рис. 8. Всего входящих писем 419, 209 из которых являлись «спамом», 210 «не-спамом». Пороги коэффициента «спамерности» были установлены: начальный – 0.4; конечный – 0.6, а пороги для оценки письма равными: начальный – 0.35; конечный – 0.65.

Рис. 8. Процентное соотношение найденного «спама» и «не-спама»

автоматизированной системой фильтрации «спама», использующей модель и метод градуированной фильтрации «спама» в зависимости от порога для По результатам анализа полученных результатов на этапе фильтрации входящего потока сообщений можно говорить о том, что система во всех трех случаях не смогла распознать лишь 1 % писем, а количество ложных срабатываний и пропуска «спама» оказалось равным 6 %.

Изменение порога коэффициента «спамерности» слов, а также порога для оценки письма приводит, в основном, к увеличению количества писем, у которых невозможно определить категорию.

Результаты исследования фильтрации входящего потока сообщений с измененным порогом коэффициента «спамерности» представлены на рис. 9.

Всего входящих писем 117, 53 из которых являлись «спамом», 64 «неспамом». Пороги коэффициента «спамерности» были изменены на:

начальный – 0.2; конечный – 0.8.

Рис. 9. Процентное соотношение найденного «спама» и «не-спама»

автоматизированной системой фильтрации «спама», использующей модель и метод градуированной фильтрации «спама» в зависимости от измененного Результаты исследования фильтрации входящего потока сообщений с измененным порогом оценки письма представлены на рис. 10. Всего входящих писем 117, 53 из которых являлись «спамом», 64 «не-спамом».

Пороги оценки письма были изменены на: начальный – 0.2; конечный – 0.8.

Рис. 10. Процентное соотношение найденного «спама» и «не-спама»

автоматизированной системой фильтрации «спама», использующей модель и метод градуированной фильтрации «спама» в зависимости от измененного По результатам анализа полученных результатов на этапе фильтрации входящего потока сообщений в зависимости от изменения порогов коэффициента «спамерности» увеличилось количество писем с неопределенной категорией с 1% до 17% для «хороших» писем и с 0% до 23% для писем «спама», а в случае изменения порога оценки письма можно говорить о том, что увеличилось количество писем с неопределенной категорией с 1% до 11% для «хороших» писем и с 1% до 19%.

Оптимальными считаются следующие значения: начальный порог варьируется 0.3 – 0.4; конечный порог варьируется 0.6 – 0.7.

По результатам проведенного эксперимента на этапе фильтрации входящего потока сообщений можно говорить о том, что в ходе эксперимента были получены результаты, подтверждающие целесообразность использования модели и метода градуированной фильтрации «спама».

Опытно-экспериментальные исследования также подтвердили, что с изменением порогов «спамерности» слов, а также порогов оценки письма результаты существенно изменяются. Кроме того, в ходе исследования были определены диапазоны значений порогов коэффициентов «спамерности» слов и порогов оценки письма, в результате использования которых автоматизированная система фильтрации «спама» достигает наилучших результатов.

В ЗАКЛЮЧЕНИИ ПРИВЕДЕНЫ ОСНОВНЫЕ РЕЗУЛЬТАТЫ

ДИССЕРТАЦИОННОЙ РАБОТЫ:

1. Проведен анализ предметной области и установлены существующие и разрабатываемые подходы к вопросу «антиспамовой» защиты.

2. Определены критерии качественного функционирования системы фильтрации нежелательной корреспонденции.

3. Разработана модель градуированной фильтрации нежелательной корреспонденции («спама»), позволяющая снизить долю пропущенного «спама» и ложных тревог.

4. Предложен метод фильтрации нежелательной корреспонденции, позволяющий улучшить качество фильтрации за счет нового способа нахождения эвристического коэффициента и нового способа расчета коэффициентов «спамерности».

5. Разработан инструментально-технологический комплекс, предоставляющий возможность использования предложенного метода фильтрации «спама».

6. Проведено исследование экспериментального использования предложенной модели и метода градуированной фильтрации «спама».

В ПРИЛОЖЕНИЯХ ПРИВЕДЕНЫ ИСХОДНЫЕ ТЕКСТЫ

КОМПЛЕКСА И АКТЫ О ВНЕДРЕНИИ.

СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ

1. В.А. Семёнов, М.А. Семёнова, М.В. Лекомцева статья «Организация борьбы с преступлениями в сфере банковского кредитования»

// Научно-технический Вестник СПбГУ ИТМО. Выпуск 40. Научная школа «Информационная безопасность, проектирование, технология элементов и узлов компьютерных систем». Труды молодых ученых.

СПбГУ ИТМО 2007. стр. 252-257.

2. Семёнова М.А., Семёнов В.А. статья «Комплексные решения в области соблюдения мер обеспечения информационной безопасности в банковской сфере» // Научно-технический Вестник СПбГУ ИТМО. Выпуск 51. Научные школы в СПБГУ 3. Семёнова М.А., Семёнов В.А. статья «Метод градуированной фильтрации нежелательной корреспонденции («спама»)», // Научно-технический Вестник СПбГУ ИТМО. Выпуск № 05(63), 4. М.А. Семёнова, В.А. Семёнов статья «Метод автоматической фильтрации при борьбе со «спамом», // Известие вузов.

5. М.А. Семёнова, В.А. Семёнов «Метод градуированной фильтрации в борьбе со «спамом» // XIV международная научно-практическая конференция «Теория и технология программирования и защиты информации» 20 мая 2009г., Санкт-Петербург – Сборник научных 6. Семёнова М.А., Семёнов В.А. статья «Современные методы и средства сетевой защиты. Межсетевые экраны», // Сборник трудов VI Всероссийской Межвузовской конференции молодых ученых, выпуск 6 «Информационные технологии», безопасность и противодействие терроризму, защита информации, СПб: СПбГУ Тиражирование и брошюровка выполнены в Центре "Университетские Телекоммуникации".

Санкт-Петербург, Кронверкский пр., 49. Тел. (812) 233-46-69.

Лицензия ПДЛ №69-182 от 26.11.96 Тираж 100 экз.





Похожие работы:

«Марданов Ренат Фаритович ПРОЕКТИРОВАНИЕ, АЭРОДИНАМИЧЕСКИЙ РАСЧЕТ И ОПТИМИЗАЦИЯ ПРОНИЦАЕМЫХ КРЫЛОВЫХ ПРОФИЛЕЙ В НЕОГРАНИЧЕННОМ ПОТОКЕ И ВБЛИЗИ ЭКРАНА 01.02.05 — механика жидкости, газа и плазмы АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук КАЗАНЬ–2003 Работа выполнена в Отделе краевых задач Научно-исследовательского института математики и механики им Н.Г. Чеботарева Казанского государственного университета им. В.И. Ульянова-Ленина....»

«. Головко Валентина Александровна Вариационные структуры Пуассона–Нийенхейса и интегрируемые гамильтоновы системы Специальность 01.01.03 математическая физика АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук Москва – 2011 1 Работа выполнена на кафедре математики физического факультета МГУ имени М.В.Ломоносова. Научный руководитель :...»

«Вахрамеева Анна Владимировна УРАВНЕНИЕ СВЕРТКИ В ГИЛЬБЕРТОВЫХ ПРОСТРАНСТВАХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ С ВЕСОМ 01.01.01 – математический анализ АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук Уфа - 2007 2 Работа выполнена на кафедре специальных глав математики Уфимского государственного авиационного технического университета. Научные руководители: доктор физико-математических наук, член-корреспондент РАН, профессор Напалков В.В., кандидат...»

«Барков Константин Владимирович АНАЛИЗ И МЕТОДИКА ОЦЕНКИ ПАРАМЕТРОВ МАЛЫХ ГЭС Специальность 05.14.08 “Энергоустановки на основе возобновляемых видов энергии” Автореферат диссертации на соискание ученой степени кандидата технических наук Санкт-Петербург 2005 Работа выполнена на кафедре “Возобновляющиеся источники энергии и гидроэнергетика” ГОУ ВПО “Санкт-Петербургский государственный политехнический университет”. Научный руководитель – доктор технических наук, профессор...»

«КАБИРОВ Валентин Рамильевич ОЦЕНКА ЭКОНОМИЧЕСКОЙ ЭФФЕКТИВНОСТИ РАЗРАБОТКИ ГРУППЫ ТЕРРИТОРИАЛЬНО-СБЛИЖЕННЫХ РУДНЫХ (МЕТАЛЛИЧЕСКИХ) МЕСТОРОЖДЕНИЙ Специальность 08.00.05 – Экономика и управление народным хозяйством (экономика, организация и управление предприятиями, отраслями, комплексами) Автореферат диссертации на соискание ученой степени кандидата экономических наук САНКТ-ПЕТЕРБУРГ–2014 Работа выполнена в государственном образовательном учреждении высшего профессионального...»

«ЗАРАМЕНСКИХ Ирина Евгеньевна ПРИМЕНЕНИЕ ОДНООСНОГО УПРАВЛЕНИЯ ДЛЯ ПОДДЕРЖАНИЯ ЗАДАННЫХ ОТНОСИТЕЛЬНЫХ ТРАЕКТОРИЙ В ФОРМАЦИИ СПУТНИКОВ Специальность 01.02.01 – Теоретическая механика АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук Москва – 2009 Работа выполнена в Институте прикладной математики им.М.В.Келдыша РАН Научный руководитель : доктор физико-математических наук, профессор Овчинников Михаил Юрьевич Официальные оппоненты : доктор...»

«Аду Яо Никэз Концепция универсализации международного права прав человека и позиции развивающихся стран Специальность: 12.00.10 – Международное право. Европейское право. АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата юридических наук Москва - 2012 Диссертация выполнена на кафедре международного права юридического факультета Российского университета дружбы народов. Научный руководитель : доктор юридических наук, профессор Капустин Анатолий Яковлевич Официальные...»

«Сухов Николай Вадимович История гуманитарных связей и межкультурного взаимодействия Марокко и России в ХХ – начале ХХI вв. Специальность 07.00.03 – Всеобщая история АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата исторических наук Москва - 2014 Диссертация выполнена в Центре изучения стран Северной Африки и Африканского Рога Федерального государственного бюджетного учреждения науки Института Африки РАН. Научный руководитель : Крылова Наталия Леонидовна, доктор...»

«Невзоров Игорь Валерьевич ПРОБЛЕМЫ РЕГУЛИРОВАНИЯ ПРЕДПРИНИМАТЕЛЬСКОЙ ДЕЯТЕЛЬНОСТИ, ОСУЩЕСТВЛЯЕМОЙ С ИСПОЛЬЗОВАНИЕМ ИНТЕРНЕТ Специальность: 12.00.03 – гражданское право; предпринимательское право; семейное право; международное частное право Автореферат диссертации на соискание ученой степени кандидата юридических наук Санкт-Петербург 2010 Работа выполнена на кафедре коммерческого права юридического факультета Санкт-Петербургского...»

«Мамошин Максим Анатольевич УЧАСТИЕ СПЕЦИАЛИСТА В ДОСУДЕБНЫХ СТАДИЯХ УГОЛОВНОГО СУДОПРОИЗВОДСТВА Специальность: 12. 00. 09 – Уголовный процесс АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата юридических наук Москва – 2013 Работа выполнена в Дальневосточном юридическом институте МВД России на кафедре уголовного процесса Научный руководитель : Воронин Эдуард Ионович кандидат юридических наук, доцент Официальные оппоненты : Орлов Юрий Кузьмич доктор юридических...»

«Кудрявцев Сергей Владимирович НЕСУЩАЯ СПОСОБНОСТЬ БАЛОК С ГОФРИРОВАННОЙ СТЕНКОЙ, ОСЛАБЛЕННОЙ КРУГОВЫМ ОТВЕРСТИЕМ Специальность 05.23.01 – Строительные конструкции, здания и сооружения АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Екатеринбург – 2011 Работа выполнена в ФГАОУ ВПО Уральский федеральный университет имени первого Президента России Б.Н. Ельцина. Научный руководитель : доктор физико-математических наук, профессор Рогалевич Виктор...»

«Цагарелли Елена Борисовна ЛИЧНОСТНЫЕ ДЕТЕРМИНАНТЫ НЕРАВНОВЕСНЫХ ПСИХИЧЕСКИХ СОСТОЯНИЙ Специальность 19.00.01 -общая психология, психология личности, история психологии АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата психологических наук Казань-2003 Работа выполнена на кафедре психологии Института экономики, управления и права (г.Казань). Научный руководитель : доктор психологических наук, профессор Прохоров Александр Октябринович Официальные оппоненты :...»

«Пименова Анна Евгеньевна УПРАВЛЕНИЕ МАРКЕТИНГОВЫМИ КОММУНИКАЦИЯМИ ПРЕДПРИЯТИЙ-ПРОИЗВОДИТЕЛЕЙ ЛЕКАРСТВЕННЫХ СРЕДСТВ ЭКСТРЕМАЛЬНОЙ МЕДИЦИНЫ 08.00.05 – Экономика и управление народным хозяйством: 3. Маркетинг АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата экономических наук Волгоград – 2008 Работа выполнена на кафедре менеджмента и маркетинга Вятского государственного университета Научный руководитель доктор экономических наук, профессор Скопина Ирина Васильевна....»

«Фомина Любовь Николаевна НЕЯВНЫЙ ИТЕРАЦИОННЫЙ ПОЛИНЕЙНЫЙ РЕКУРРЕНТНЫЙ МЕТОД РЕШЕНИЯ РАЗНОСТНЫХ ЭЛЛИПТИЧЕСКИХ УРАВНЕНИЙ Специальность 05.13.18 – Математическое моделирование, численные методы и комплексы программ Автореферат диссертации на соискание ученой степени кандидата физико-математических наук Томск – 2010 Работа выполнена на кафедре вычислительной математики ГОУ ВПО Кемеровский государственный университет Научный руководитель : кандидат физико-математических наук Фомин...»

«БУЛАТОВ АЙДАР НАФИСОВИЧ МЕТОДОЛОГИЯ СТРАТЕГИЧЕСКОГО УПРАВЛЕНИЯ ПРОМЫШЛЕННОЙ КООПЕРАЦИЕЙ Специальность 08.00.05 – Экономика и управление народным хозяйством (экономика, организация и управление предприятиями, отраслями, комплексами – промышленность) Автореферат диссертации на соискание ученой степени доктора экономических наук Казань - 2010 2 Диссертация выполнена в ГОУ ВПО Казанский государственный финансовоэкономический институт Научный консультант : доктор экономических...»

«ХИНТБА Ираклий Ревазович КОНСОЛИДАЦИЯ ДЕМОКРАТИИ: СУЩНОСТЬ, ФАКТОРЫ, МОДЕЛИ Специальность 23.00.02 - Политические институты, этнополитическая конфликтология, национальные и политические процессы и технологии АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата политических наук Москва-2009 1 Работа выполнена на кафедре политических наук факультета гуманитарных и социальных наук Российского университета дружбы народов. Научный руководитель : кандидат философских наук,...»

«УДК: 373.233 Петушкова Наталья Петровна Педагогические условия организации диалога в образовательной среде Детского исторического музея Специальность: 13.00.01 – общая педагогика, история педагогики и образования АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата педагогических наук Санкт-Петербург 2002 1 2 Работа выполнена на кафедре педагогики Российского государственного педагогического университета имени А.И. Герцена Научный руководитель : доктор педагогических...»

«КУТЬКИНА Олеся Петровна ПЕДАГОГИЧЕСКИЕ УСЛОВИЯ ФОРМИРОВАНИЯ МЕДИАКОМПЕТЕНТНОСТИ БУДУЩИХ БИБЛИОТЕЧНО-ИНФОРМАЦИОННЫХ СПЕЦИАЛИСТОВ 13.00.08 – теория и методика профессионального образования Автореферат диссертации на соискание ученой степени кандидата педагогических наук Барнаул – 2006 2 Работа выполнена в Государственном образовательном учреждении высшего профессионального образования Барнаульский государственный педагогический университет доктор педагогических наук, доцент...»

«Кирюхина Ольга Игоревна ФОРМИРОВАНИЕ СИСТЕМЫ УПРАВЛЕНИЯ РЕМОНТНЫМ ОБСЛУЖИВАНИЕМ ЛЕСОПРОМЫШЛЕННЫХ ПРЕДПРИЯТИЙ 08.00.05 Экономика и управление народным хозяйством ( экономика, организация и управление предприятиями, отраслями, комплексами промышленность) Автореферат диссертации на соискание ученой степени кандидата экономических наук Санкт-Петербург - 2011 2 Работа выполнена в государственном образовательном учреждении высшего профессионального образования Брянская...»

«ПОТАПЕНКО МАРИЯ ВЛАДИМИРОВНА Экономические интересы России в системе внешнеторговых отношений с Китаем Специальность 08.00.14 – Мировая экономика АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата экономических наук Москва 2013 2 Диссертация выполнена на кафедре региональной экономики и географии экономического факультета Российского университета дружбы народов. Научный руководитель : кандидат географических наук, доцент Холина Вероника Николаевна Официальные...»






 
2014 www.av.disus.ru - «Бесплатная электронная библиотека - Авторефераты, Диссертации, Монографии, Программы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.