WWW.DISS.SELUK.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА
(Авторефераты, диссертации, методички, учебные программы, монографии)

 

Pages:     | 1 | 2 ||

«ПРЕДСТАВЛЕНИЯ И ПОИСКА СХОДНЫХ СИМВОЛЬНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ В ЗАДАЧАХ КЛАССИФИКАЦИИ НА ОСНОВЕ РАССУЖДЕНИЙ ПО ПРИМЕРАМ ...»

-- [ Страница 3 ] --

Для всех подстрок, совпавших с экзоном gi на уровне, большем или равном K, с помощью классического алгоритма вычислялось расстояние редактирования. Для тех подстрок, расстояние редактирование которых было минимально в пределах данной тестовой последовательности, увеличивалось на единицу значение счетчиков, соответствующих нуклеотидам, принадлежащим данным подстрокам. Решение о том, что считать нуклеотидом, принадлежащим экзону, определялось порогом t, отсекающим малые значения ci.

Чтобы избежать влияния того, что краевые нуклеотиды покрываются меньшим числом окон, предварительно все последовательности из тестовой выборки дополнялись в начале и в конце спецсимволом N (в количестве символа, что равно длине самого длинного экзона из набора HMR195).

Как интегральная оценка качества поиска экзонов применялась «приближенная корреляция» (approximate correlation, AC) [22], определяемая как где T P – true positives, T N – true negatives, F P – false positives, F N – false negatives.

На рис. 5.10 изображены графики нормализованных значений ci, а также реальные границы экзонов для последовательности ACU08131 из набора Burset-Guigo для значений K = 5 и L = 1, 4, 7, 10. Как видно из рисунков, увеличение L приводит к увеличению разницы между значениями ci для интронов и экзонов, пики становятся более узкими.

5.2.3.3. Сравнительные результаты экспериментального исследования поиска экзонов Предложенный метод сравнивался с подходом на основе классического алгоритма редактирования [32]. В последнем лучшие значения AC (5.1), усредненного по всем тестовым последовательностям (ACavg ), достигали 0.49.

Однако, полученная нами оценка времени работы такого алгоритма на исследованной базе составляет около 6 лет на однопроцессорном компьютере Athlon XP 2600+.

В табл. 5.8 для K = 4,..., 9 и L = 1,..., 10 приведены полученные описанным методом значения ACmax = maxt ACavg (t), значение ACavg (и его дисперсия AC ), усредненные по всем тестовым последовательностям, а также Рис. 5.10. Графики нормализованных значений ci, а также реальные границы экзонов для последовательности ACU08131 для K = 5 и L = 1, 4, 7, суммарное время, потраченное на поиск кандидатов с помощью предложенного метода и на проверку полученных кандидатов с помощью классического алгоритма. Как видно из табл. 5.8, метод на основе поиска приближенных ближайших строк с помощью процедуры LSH-лес показывает сравнимые результаты с методом из [32] для небольших значений K, но за гораздо меньшее практически в 750 раз время. Улучшение результатов с одновременным увеличением времени с уменьшением K свидетельствует о б льшем количестве потенциальных кандидатов, проверяемых с помощью классического алгоритТаблица 5. Результаты поиска экзонов в наборе Burset-Guigo для K = 4,..., ма, что позволяет не пропустить действительных ближайших соседей. При увеличении L при фиксированном K результаты улучшаются, поскольку повышается вероятность для действительного соседа попасть в мультимножество кандидатов |S|.

Результаты работы предложенного метода поиска генов сравнивались с результатами программы для поиска генов GeneID 1.3.8 [50, 45]. Алгоритм программы основан на использовании ряда разработанных эвристик в комбинации с марковскими цепями со специально подобранными параметрами для разных типов организмов, а также правилами, выведенными экспертами. Для сравнительного анализа использованы следующие наборы параметров, предоставляемые с программой GeneID 1.3.8, – human1iso, human3iso, human. и human.061209.

На рис. 5.11 сплошными линиями изображены графики изменения точности (отношение количества правильно классифицированных нуклеотидов к Рис. 5.11. Графики точность-полнота для K = 5, 7 и L = 1,..., 10, полученные разработанным методом, а также результаты GeneID для разных наборов параметров («+» – human1iso, «o» – human3iso, «x» – human.070606, «» – human.061209) общему числу нуклеотидов, классифицированных как кодирующие) от полноты (отношение количества правильно классифицированных нуклеотидов к общему числу кодирующих нуклеотидов) для метода на основе LSH-леса, полученные изменением порога t на значение ci и усреднением по всем последовательностями тестовой выборки. Маркерами на рисунке изображены результаты GeneID. Как видно из рис. 5.11, метод, основанный на процедуре LSH и не использующий никаких специфических экспертных знаний о природе тестируемых последовательностей, тем не менее, правильно распознает принадлежность 25-50% нуклеотидов, находящихся в экзонах.

В ходе эксперимента было замечено, что короткие экзоны распознаются гораздо хуже, чем длинные, что может объяснять не очень высокий по сравнению с GeneID общий результат. Более высокие результаты работы программы GeneID также объясняются ее высокой специализацией и настройкой на конкретный тип организмов.

5.2.3.4. Методика классификации для поиска коротких некодирующих последовательностей в ДНК Помимо поиска генов, исследовался поиск коротких гомологичных участков также в некодирующих участках генетических последовательностей для значений n, при которых не выполняется < 1 (1.17).

Цель эксперимента – исследование эффективности поиска близких коротких последовательностей нуклеотидов, а именно гиперчувствительных сайтов в бета-глобине родственных организмов.

Обозначим обучающую выборку xm, тестовую – hm. Все подстроки длиной n обучающей выборки составляли базу P, на которой строился LSH-лес.

Создавался также массив счетчиков c, |c| = |hm |, изначально инициализированный нулями. При проходе последовательности hm скользящим окном шириной n с помощью LSH-процедуры находились кандидаты на приближенных ближайших соседей к запросам qi = h[i, i + n 1], i = 1,..., |hm |. Если среди строк-кандидатов с глубиной совпадения K, возвращенных LSH- процедурой на запрос qi, была хотя бы одна подстрока, принадлежащая шару S(q, e) (это проверялось с помощью классического алгоритма вычисления расстояния редактирования), то значения c(j) для всех j = i,..., i + n 1 увеличивались на единицу. Проводилось усреднение по 100 независимым запускам процедуры поиска с разными инициализациями генератора случайных чисел.



5.2.3.5. Сравнительные результаты поиска гиперчувствительных сайтов Реальное количество подстрок длиной 50, находящихся на расстоянии редактирования не больше e = 3 в исследованных последовательностях, равно 19. В табл. 5.9 приведены результаты поиска. В колонке c приведено (усредненное по 100 независимым запускам) количество найденных подстрок, в колонке 2 (c) – дисперсия этого числа, в двух остальных колонках, соответственно, среднее время поиска и затраты памяти.

Используя программу из [82], все 19 подстрок были найдены за 0.4 мин.

(на машине Athlon XP 2600+ под оболочкой Cygwin). Как видно из табл. 2, результаты, полученные с помощью метода, основанного на процедуре LSHТаблица 5. Пример результатов поиска подстрок длиной n = 50, находящихся на расстоянии редактирования не больше 3 в последовательностях бета-глобина лес, в среднем уступают результатам [82], что может объясняться слишком короткими строками (n = 50), тогда как минимальная длина подстрок, при которой < 1 (1.17) равна n = 100.

5.2.4. Обнаружение вторжений в компьютерные системы Обнаружение хакерских атак является актуальной задачей и, одновременно, сложной, так как поток данных, генерируемых аудит-системами, имеет огромный объем – до гигабайтов в день. Системы обнаружения вторжений предназначены для обнаружения попыток несанкционированного доступа в компьютерную систему. Такие системы должны противостоять атакам, даже если злоумышленник с точки зрения соблюдения прав доступа имел необходимые полномочия на свои действия. Одним из подходов к обнаружению атак является создание профиля «нормальной» активности пользователя, а любая активность, не подпадающая под принятое понимание «нормальности», считается опасной. Такие системы обнаружения вторжений называются системами обнаружения аномалий. Некоторые существующие подходы к построению систем обнаружения аномалий рассмотрены в [144, 143].

Одним из направлений обнаружения вторжений есть их обнаружение рассуждениями на основе примеров, где в качестве базы примеров используют аудит-файлы (логи) пользователей. Используются подходы, оперирующие в каждый момент времени ограниченными участками сессии (окнами). Наиболее востребованы системы обнаружения аноманий в виде online-систем, которым, очевидно, не доступны будущие команды, а старые логи, как правило, ежедневно или даже ежечасно архивируются, поскольку на их хранение необходимы ресурсы.

5.2.4.1. Классификация сессий пользователей для обнаружения вторжений с помощью рассуждений по примерам Мы применили подход на основе рассуждений по примерам для классификации сессий пользователей для обнаружения вторжений в компьютерных системах.

Цель эксперимента – проверить, насколько эффективной может быть классификация принадлежности пользовательских сессий (последовательностей системных команд) на основе предложенного метода поиска близких строк.

5.2.4.2. Базы данных для экспериментального исследования Эксперименты проводились на данных, полученных с UNIX-сервера физико-технического института НТУ Украины «КПИ» [104, 126]. Механизмами аудита ОС FreeBSD отслеживались процессы, запускавшиеся от имени зарегистрированных в системе пользователей, на протяжении 671 дня (с июня г. по декабрь 2003 г., с перерывами). Всего были получены данные для пользователей, выполнивших более 23 млн. команд.

В качестве обучающей выборки были приняты все сессии, выполненные за 2001-2002 год (всего 403 дня), в качестве тестовой – сессии 2003 года ( дней). Роль обучающей выборки здесь играет множество подпоследовательностей логов сессий. В отличие от задачи поиска генов, где кодирующие экзоны редки и разделены длинными интронами, все команды в логе несут определенную семантическую нагрузку. Поэтому в данной задаче проводилась «нарезка»

и обучающего, и тестового логов на окна одинаковой длины (п. 4.3.2).

5.2.4.3. Методика классификации сессий Обучающий лог x пользовательской сессии разбивался на пересекающиеся окна вида x[i, i + n 1], i = 1,..., |x| n + 1 фиксированной длины n, распределенные представления которых сохраняются для каждого пользователя u в отдельном LSH-лесе Fu. На этапе тестирования создается массив счетчиков Cu для каждого пользователя u. Каждое окно y[j, j +n1], j = 1,..., |y|n+ тестового лога y пользователя u является запросом в Fu для всех присутствовавших в обучающей сессии пользователей u. Обозначим lmax (u, y[j, j +n1]) максимальное значение уровня строк, возращенных в ходе процедуры LSHлес для леса Fu при запросе y[j, j + n 1]. Если lmax (u, y[j, j + n 1]) = K, то значение счетчика Cu увеличивается на единицу. Пусть U – множество пользователей, таких, что Cu имеет максимальное значение для всех пользователей:

U = arg maxu (Cu ). Если u U, то считалось, что пользователь определен правильно. Иначе, пользователь определен неправильно и имеет место аномалия.

Доля правильно классифицированных сессий для значений ширины окна 5.2.4.4. Результаты Доля правильно классифицированных сессий для разных значений ширины окна n = 10, 20, 30, 40 и параметров K = 5, 7, L = 1, 5, 10 представлена в табл. 5.10. Видно, что при увеличении L достигается точность классификации практически 100%. Затраты времени в среднем составляют от 3 до сек. (в зависимости от параметров) на проверку одной сессии. Таким образом, предложенный метод является перспективным в качестве предварительной онлайн-обработки логов.

Результаты данного раздела отражены в публикациях [78, 108, 123, 144, 130, 146, 147].

5.3. Выводы по разделу 1. Разработаны базовые программные библиотеки, которые реализуют оригинальные методы распределенного представления последовательностей, поиска приближенных ближайших последовательностей и классификации в прикладных задачах:

• библиотечный модуль VectorComparer – унифицированное средство сравнения векторов по множеству стандартных метрик и мер;

• мультиплатформенная программная библиотека LSH, реализующая разработанные методы представления и методы поиска приближенных ближайших символьных последовательной произвольной природы;

• библиотека форматированного ввода TextInputTools, содержащая модули форматированного ввода данных для баз генетических последовательностей, электронных писем, ряда популярных текстовых баз, аудит-последовательностей UNIX-систем.

Модули дают основу для использования в системах искусственного интеллекта, применяющих поиск символьных последовательностей для классификации в прикладных задачах.

2. Разработаны специализированные программные системы DuplClassier, EmailClassier, NuclClassier, SessionClassier для поиска текстовых дубликатов, спама, кодирующих участков генетических последовательностей и классификации сессий пользователей UNIX-системы. Созданные программные системы позволили проверить эффективность заложенных в них методов представления и поиска приближенных ближайших для решения задач классификации по примерам.

3. Разработанны модули и подсистемы программного нейрокомпьютера SNC (Software NeuroComputer), который является средством визуальной разработки, реализации и использования нейросетевых технологий обработки информации, задания потоков данных, алгоритмов их обработки. Использование средств визуального конфигурирования, средств сохранения результатов в базе и последующей обработки значительно упростили исследование методов векторного представления последовательностей в прикладных задачах классификации.

4. Созданные программные библиотеки, системы и средства подтвердили эффективность заложенных в них методов распределенного представления последовательностей для решения задач поиска и классификации по примерам.

5. Разработанные методы поиска сходных последовательностей за счет использования распределенных представлений и локально-чувствительного хеширования обеспечивают поиск последовательностей разной длины в реальных базах данных и решение прикладных задач поиска дубликатов и спама на основе рассуждений по примерам. При поиске дубликатов в базе РОМИП результат улучшен на 20-40%, на базе Reuters-21578 – на уровне известных. Перспективность применения методов для обнаружения спама в крупных почтовых серверах показана на примере оценки количества спама в коллекциях электронных писем TREC Spam Track 2006, где обнаружено до 80% спама при уровне неправильно классифицированных легальных сообщений 5-10%.

6. Разработанные методы представления и поиска последовательностей обеспечивают решение прикладных задач классификации участков ДНК и обнаружения вторжений, что подтверждает эффективность использования рассуждений на основе примеров для обработки последовательностей в реальных базах данных. В задаче классификации участков ДНК поиск экзонов ускорен в 750 раз при сохранении качества на уровне известных результатов в этой области, использующих подход на основе рассуждений по примерам. Разработанный метод поиска последовательностей может применяться при более широкой области значений параметров, чем следует из теоретического анализа, что экспериментально показано на примере задачи поиска некодирующих участков бета-глобина при обработке коротких строк. Метод перспективен для применения в реальных системах обнаружения вторжений, что подтверждается результатом классификации аудит-последовательностей компьютерных систем, где получена точность классификации на уровне более 90%.

ВЫВОДЫ

Совокупность полученных в диссертации результатов обеспечивает решение актуальной научной задачи разработки методов нейросетевого распределенного представления последовательностей, а также их поиска и классификации для эффективной оценки сходства и использования информации о последовательностях в системах искусственного интеллекта, применяющих модели рассуждений человека на основе примеров. Разработаны, аналитически исследованы, а также программно реализованы методы распределенного представления и поиска последовательностей. Эффективность разработанных методов подтверждена экспериментальными исследованиями на тестовых и реальных данных при решении задач поиска сходных последовательностей и классификации информации различного рода (тексты, ДНК, аудит-последовательности).

По результатам проведенного исследования сделаны следующие выводы:

1. Разработанный метод векторного представления обеспечивает сохранение сходства данных с последовательной структурой по расстоянию редактирования и возможность анализа с помощью теории метрических вложений, что позволяет оценивать характеристики поиска и классификации последовательностей в прикладных задачах.

2. Предложенное векторное представление последовательностей обеспечивает более высокую точность аппроксимации расстояния редактирования по сравнению с известными результатами, что показано аналитически с помощью теории метрических вложений и путем численных экспериментов на искусственных данных.

3. Разработанные, проанализированные и реализованные методы распределенного представления последовательностей за счет использования локально-чувствительного хеширования обеспечивают малую ресурсоемкость и сублинейное относительно размера базы примеров время поиска приближенно ближайших последовательностей. Экспериментальное исследование качества поиска на искусственных данных показало достаточность использования на практике меньших, чем определенных аналитически, значений параметров метода, что позволяет уменьшить ресурсоемкость поиска.

4. Предложенный метод нейросетевого распределенного представления последовательностей, использующий рандомизацию векторных представлений и связывание элементов последовательности с их позициями, обеспечивает унификацию формата представления и возможность использования мер сходства векторных представлений для оценки сходства последовательностей.

5. Разработанные методы поиска сходных последовательностей с помощью кластеризации по длине последовательностей и выравнивания длины, за счет использования распределенных представлений и локальночувствительного хеширования обеспечивают поиск последовательностей разной длины в реальных базах данных и решение прикладных задач поиска дубликатов и спама на основе рассуждений по примерам. Эффективность и практическая значимость методов подтверждена сравнением полученных результатов с известными. Так, при поиске дубликатов в базе РОМИП результат улучшен на 20-40%, на базе Reuters-21578 - на уровне известных. Перспективность применения методов для обнаружения спама в крупных почтовых серверах показана на примере оценки количества спама в коллекциях электронных писем TREC Spam Track 2006 и 2005, где обнаружено до 80% спама при уровне неправильно классифицированных легальных сообщений 5-10%.

6. Разработанные методы представления и поиска последовательностей обеспечивают решение прикладных задач классификации участков ДНК и обнаружения вторжений, что подтверждает эффективность использования рассуждений на основе примеров для обработки последовательностей в реальных базах данных. В задаче классификации участков ДНК поиск экзонов ускорен в 750 раз при сохранении качества на уровне известных результатов в этой области, использующих подход на основе рассуждений по примерам. Разработанный метод поиска последовательностей может применяться при более широкой области значений параметров, чем следует из теоретического анализа, что экспериментально показано на примере задачи поиска некодирующих участков бета-глобина при обработке коротких строк. Метод перспективен для применения в реальных системах обнаружения вторжений, что подтверждается результатом классификации аудит-последовательностей компьютерных систем, где получена точность классификации на уровне более 90%.

7. Разработанные методы представления и поиска приближенных ближайших последовательностей, реализованные в виде программных средств, могут быть использованы в качестве компонентов информационных технологий, либо как самостоятельные модули, в системах классификации и поиска последовательностей. Практическая значимость разработок подтверждается 3 актами внедрения.

ПРИЛОЖЕНИЕ А

АКТЫ ВНЕДРЕНИЯ

СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ

[1] Achlioptas D. Database-friendly random projections: Johnson-lindenstrauss with binary coins / D. Achlioptas // J. Comput. Syst. Sci., 2003. — V. 66, № 4. — P. 671–687.

[2] Alon N. Tracking join and self-join sizes in limited storage / N. Alon, P. B. Gibbons, Y. Matias, M. Szegedy // Proc. of the 18th ACM SIGMODSIGACT-SIGART symposium on Principles of database systems. — New York, NY, USA: ACM Press, 1999. — P. 10–20.

[3] Alon N. The space complexity of approximating the frequency moments / N. Alon, Y. Matias, M. Szegedy // J. of Computer and System Sciences, 1999. — № 58. — P. 137–147.

[4] Amosov N. Modelling of Thinking and the Mind / N. Amosov. — New York:

Spartan Books, 1967. — 304 p.

[5] Andoni A. Lower bounds for embedding edit distance into normed spaces / A. Andoni, M. Deza, A. Gupta, P. Indyk, S. Raskhodnikova // Proc. of the 14th annual ACM-SIAM symposium on Discrete algorithms. — Philadelphia, PA, USA: Society for Industrial and Applied Mathematics, 2003. — P. 523– [6] Andoni A. Efcient algorithms for substring near neighbor problem / A. Andoni, P. Indyk // Proc. of the 17th annual ACM-SIAM symposium on Discrete algorithms. — New York, NY, USA: ACM, 2006. — P. 1203–1212.

[7] Azenkot S. An evaluation of the edit-distance-with-moves similarity metric for comparing genetic sequences: Tech. Rep. 2005-39 / S. Azenkot, T.-Y. Chen, G. Cormode: Center for Discrete Mathematics and Theoretical Computer Science, DIMACS, 2005. — 18 p.

[8] Badoiu M. Fast approximate pattern matching with few indels via embeddings / M. Badoiu, P. Indyk // Proc. of the 15th annual ACM-SIAM symposium on Discrete Algorithms. — Philadelphia, PA, USA: Society for Industrial and Applied Mathematics, 2004. — P. 651–652.

[9] Baeza-Yates R. Modern Information Retrieval / R. Baeza-Yates, B. RibeiroNeto. — Addison Wesley, 1999. — 544 p.

[10] Bar-Yossef Z. Approximating edit distance efciently / Z. Bar-Yossef, T. S. Jayram, R. Krauthgamer, R. Kumar // Proc. of the 45th Annual IEEE Symposium on Foundations of Computer Science. — Washington, DC, USA:

IEEE Computer Society, 2004. — P. 550–559.

[11] Batu T. A sublinear algorithm for weakly approximating edit distance / T. Batu, F. Erg n, J. Kilian, A. Magen, S. Raskhodnikova, R. Rubinfeld, R. Sami // Proc. of the 35th annual ACM symposium on Theory of computing. — New York, USA: ACM, 2003. — P. 316–324.

[12] Batu T. Oblivious string embeddings and edit distance approximations / T. Batu, F. Ergun, C. Sahinalp // Proc. of the 17th annual ACM-SIAM symposium on Discrete Algorithms. — New York, USA: ACM, 2006. — P. 792–801.

[13] Bawa M. LSH forest: self-tuning indexes for similarity search / M. Bawa, T. Condie, P. Ganesan // Proc. of the 14th Int. Conf. on WWW. — New York, NY, USA: ACM, 2005. — P. 651–660.

[14] Benson D. Genbank / D. Benson, I. Karsch-Mizrachi, D. Lipman, J. Ostell, B. A. Rapp, D. L. Wheeler // Nucleic Acids Research, 2000. — V. 28, № 1. — [15] BNC. — The British National Corpus. — http:// www.natcorp.ox.ac.uk/.

[16] Borodin A. Lower bounds for high dimensional nearest neighbor search and related problems / A. Borodin, R. Ostrovsky, Y. Rabani // Proc. of the 31-st annual ACM symposium on Theory of computing. — New York, NY, USA:

ACM, 1999. — P. 312–321.

[17] Brin S. Copy detection mechanisms for digital documents / S. Brin, J. Davis, H. Garca-Molina // Proc. of the ACM SIGMOD international conference on Management of data. — New York, NY, USA: ACM, 1995. — P. 398–409.

[18] Brinkman B. On the impossibility of dimension reduction in l1 / B. Brinkman, M. Charikar // J. ACM, 2005. — V. 52, № 5. — P. 766–788.

[19] Broder A. On the resemblance and containment of documents / A. Broder // Proc. of the Conf. on Compression and Complexity of Sequences. — Washington, DC, USA: IEEE Computer Society, 1997. — P. 21–29.

[20] Broder A. Z. Syntactic clustering of the web / A. Z. Broder, S. C. Glassman, M. S. Manasse, G. Zweig // Proc. of the 6th Int. Conf. on WWW. — 1997. — P. 1157–1166.

[21] Buhler J. Efcient large-scale sequence comparison by locality-sensitive hashing / J. Buhler // Bioinformatics, 2001. — V. 17, № 5. — P. 168–173.

[22] Burset M. Evaluation of gene structure prediction programs / M. Burset, R. Guig // Genomics, 1996. — V. 34. — P. 353–367.

[23] Charikar M. S. Similarity estimation techniques from rounding algorithms / M. S. Charikar // Proc. of the 34th annual ACM symposium on Theory of Computing. — New York, NY, USA: ACM, 2002. — P. 380–388.

[24] Chaudhuri S. Robust and efcient fuzzy match for online data cleaning / S. Chaudhuri, K. Ganjam, V. Ganti, R. Motwani // SIGMOD ’03: Proc. of the 2003 ACM SIGMOD Int. Conf. on Management of data. — New York, NY, USA: ACM Press, 2003. — P. 313–324.

[25] Cormack G. TREC 2006 spam track overview / G. Cormack // Proc.

of the 15th Text REtrieval Conf. — Gaithersburg, MD: NIST, 2006. — http:// trec.nist.gov/ pubs/ trec15/ papers/ SPAM06.OVERVIEW.pdf.

[26] Cormack G. TREC 2005 spam track overview / G. Cormack, T. Lynam // Proc. of the 14th Text REtrieval Conf. / Ed. by E. M. Voorhees, L. P. Buckland. — Gaithersburg, MD: NIST, 2005. — http:trec.nist.gov/ pubs/ trec14/ papers/ SPAM.OVERVIEW.pdf.

[27] Cormode G. Sequence Distance Embeddings: Ph.D. thesis / University of Warwick. — 2003. — 174 p.

[28] Cormode G. Comparing data streams using hamming norms (how to zero in) / G. Cormode, M. Datar, P. Indyk, S. Muthukrishnan // IEEE Transactions on Knowledge and Data Engineering, 2003. — V. 15, № 3. — P. 529–540.

[29] Cormode G. Fast mining of tabular data via approximate distance computations / G. Cormode, P. Indyk, N. Koudas, S. Muthukrishnan // Int. Conf. on Data Engineering. — 2002. — P. 605–616.

[30] Cormode G. The string edit distance matching problem with moves / G. Cormode, S. Muthukrishnan // Proceedings of the thirteenth annual ACM-SIAM symposium on Discrete algorithms. — Philadelphia, PA, USA: Society for Industrial and Applied Mathematics, 2002. — P. 667–676.

[31] Cormode G. Communication complexity of document exchange / G. Cormode, M. Paterson, S. C. Sahinalp, U. Vishkin // Proc. of the 11th annual ACM-SIAM symposium on Discrete algorithms. — Philadelphia, PA, USA:

Society for Industrial and Applied Mathematics, 2000. — P. 197–206.

[32] Costello E. A case-based approach to gene nding / E. Costello, D. C. Wilson // Proc. Workshop CBR Health Sci. — 2003. — P. 19–28.

[33] Damerau F. J. A technique for computer detection and correction of spelling errors / F. J. Damerau // Commun. ACM, 1964. — V. 7, № 3. — P. 171–176.

[34] Dasgupta S. An elementary proof of the johnson-lindenstrauss lemma: Tech.

Rep. TR-99-006 / S. Dasgupta, A. Gupta. — Berkeley, CA, USA: U.C. Berkeley, 1999. — 6 p.

[35] Datar M. Locality-sensitive hashing scheme based on p-stable distributions / M. Datar, N. Immorlica, P. Indyk, V. S. Mirrokni // Proc. of the 20th annual symposium on Computational geometry. — New York, NY, USA: ACM, 2004. — P. 253–262.

[36] de Bruijn N. A combinatorial problem / N. de Bruijn // Koninklijke Nederlandsche Akademie van Wetenschappen. — V. 49. — 1946. — P. 758–764.

[37] Dhamdhere K. Approximation algorithms for minimizing average distortion / K. Dhamdhere, A. Gupta, R. Ravi // STACS. — 2003. — P. 234–245.

[38] Duda R. Pattern Classication / R. Duda, P. Hart, D. Stork. — 2nd ed. edition. — New York: John Wiley & Sons, 2000. — 680 p.

[39] Email metrics program: The network operators’ perspective: Tech. Rep.

1 - 4th Quarter: Messaging Anti-Abuse Working Group, 2005. — 3 p. — http:// www.maawg.org/ about/ FINAL_4Q2005_Metrics_Report.pdf.

[40] Fagin R. Comparing top k lists / R. Fagin, R. Kumar, D. Sivakumar // Proc. of the 14th annual ACM-SIAM symposium on Discrete algorithms. — Philadelphia, PA, USA: Society for Industrial and Applied Mathematics, 2003. — P. 28–36.

[41] Feigenbaum J. An approximate L1-difference algorithm for massive data streams / J. Feigenbaum, S. Kannan, M. Strauss, M. Viswanathan // Proc. of the 40th Annual Symposium on Foundations of Computer Science. — IEEE Computer Society, 1999. — P. 501–511.

[42] Forrester W. Evidence for a locus activation region: the formation of developmentally stable hypersensitive sites in globin-expressing hybrids / W. Forrester, S. Takegawa, T. Papayannopoulou, G. Stamatoyannopoulos, M. Groudine // Nucl. Acids Res., 1987. — V. 24, № 15. — P. 10159–10177.

[43] Garofalakis M. Correlating XML data streams using tree-edit distance embeddings / M. Garofalakis, A. Kumar // Proc. of the 22nd ACM SIGMODSIGACT-SIGART symposium on Principles of database systems. — ACM Press, 2003. — P. 143–154.

[44] Genbank. — National Center for Biotechnology Information, National Institutes of Health. — ftp:// ftp.ncbi.nih.gov/ genbank/.

[45] Geneid. — Genome BioInformatics Research Lab, Institut Municipal d’Investigaci M` dica. — http:// genome.imim.es/ software/ geneid/.

[46] Gionis A. Similarity search in high dimensions via hashing / A. Gionis, P. Indyk, R. Motwani // Proc. of the 25th Int. Conf. on Very Large Data Bases. — San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 1999. — P. 518–529.

[47] Gmail. — Google Mail: Google Inc. — http:// www.gmail.com.

[48] Graham-Cummings J. The spammers’ compendium / J. Graham-Cummings // Proc. of the Spam Conf. — 2003. — P. 1–17. — http:// www.jgc.org/ tsc.html.

[49] Grossman D. A. Information Retrieval: Algorithms and Heuristics / D. A. Grossman, O. Frieder. — Norwell, MA, USA: Kluwer Academic Publishers, 1998. — 276 p.

[50] Guig R. Prediction of gene structure / R. Guig, S. Knudsen, N. Drake, T. F. Smith // J. of Molecular Biology, 1992. — V. 226. — P. 141–157.

[51] Guseld D. Algorithms on strings, trees, and sequences: computer science and computational biology / D. Guseld. — New York, NY, USA: Cambridge University Press, 1997. — 554 p.

[52] Halperin E. Detecting protein sequence conservation via metric embeddings / E. Halperin, J. Buhler, R. Karp, R. Krauthgamer, B. Westover // Bioinformatics, 2003. — V. 1, № 1. — P. 1–8.

[53] Hawking D. Overview of the TREC8 web track / D. Hawking, E. Voorhees, N. Craswell, P. Bailey // Proc. of the 8th Text REtrieval Conf. — Gaithersburg:

[54] Henzinger M. R. Computing on data streams / M. R. Henzinger, P. Raghavan, S. Rajagopalan // External memory algorithms, 1999. — P. 107–118.

[55] Hoeffding W. Probability inequalities for sums of bounded random variables / W. Hoeffding // J. of American Statistical Association, 1963. — V. 58, №301. — P. 13–30.

[56] Ilyinsky S. An efcient method to detect duplicates of web documents with the use of inverted index / S. Ilyinsky, M. Kuzmin, A. Melkov, I. Segalovich // Proc. 11th Int. Conf. on WWW. — 2002. — http:// www2002.org/ CDROM/ poster/ 187/.

[57] Indyk P. Algorithmic aspects of geometric embeddings / P. Indyk // Proc. of the 42nd Annual IEEE Symposium on Foundations of Computer Science. — Washington, DC, USA: IEEE Computer Society, 2001. — 10 p.

[58] Indyk P. Open problems / P. Indyk // Workshop on Discrete Metric Spaces and their Algorithmic Applications / Ed. by J. Matouek. — Haifa: 2002. — http:// kam.mff.cuni.cz/ ~matousek/ metrop.ps.gz.

[59] Indyk P. Stable distributions, pseudorandom generators, embeddings, and data stream computation / P. Indyk // J. ACM, 2006. — V. 53, № 3. — P. 307–323.

[60] Indyk P. Approximate nearest neighbors: towards removing the curse of dimensionality / P. Indyk, R. Motwani // Proc. of the 30th annual ACM symposium on Theory of computing. — New York, NY, USA: ACM Press, 1998. — P. 604–613.

[61] Jaccard P. Etude comparative de la distribution orale dans une portion des alpes et des jura / P. Jaccard // Bulletin del la Soci t Vaudoise des Sciences Naturelles, 1901. — № 37. — P. 547–579.

[62] Johnson W. Extensions of Lipschitz maps into a Hilbert space / W. Johnson, J. Lindenstrauss // Contemp. Math., 1984. — № 26. — P. 189–206.

[63] Jokinen P. Two algorithms for approximate string matching in static texts (extended abstract) / P. Jokinen, E. Ukkonen // Proc. of the 16th Int. Symposium on Mathematical Foundations of Computer Science / Ed. by A. Tarlecki. — Berlin, Heidelberg: Springer, 1991. — P. 240–248.

[64] Kanerva P. Binary spatter-coding of ordered K-tuples / P. Kanerva // Proc. of Int. Conf. on Articial Neural Networks. — Berlin: Springer, 1996. — P. 869– [65] Karp R. M. Efcient randomized pattern-matching algorithms / R. M. Karp, M. O. Rabin // IBM J. Research and Development, 1987. — V. 31, № 2. — P. 249–260.

[66] Khot S. Nonembeddability theorems via fourier analysis / S. Khot, A. Naor // Proc. of the 46th Annual IEEE Symposium on Foundations of Computer Science. — Washington, USA: IEEE Computer Society, 2005. — P. 101–112.

[67] Knuth D. E. Seminumerical Algorithms / D. E. Knuth. — Second edition. — Reading, Massachusetts: Addison-Wesley, 1981. — V. 2 of The Art of Computer Programming. — 688 p.

[68] Kolcz A. The impact of feature selection on signature-driven spam detection / A. Kolcz, A. Chowdhury, J. Alspector // Proc. of the 1st Conf. on Email and Anti-Spam. — Mountain View, CA, USA: 2004. — http:// www.ceas.cc/ papers-2004/ 147.pdf.

[69] Kolodner J. Case-based Reasoning / J. Kolodner. — San Mateo, CA: Morgan Kaufmann Publishers, Inc., 1993. — 668 p.

[70] Krauthgamer R. Improved lower bounds for embeddings into L1 / R. Krauthgamer, Y. Rabani // Proc. of the 17th annual ACM-SIAM symposium on Discrete algorithm. — NY, USA: ACM, 2006. — P. 1010–1017.

[71] Kushilevitz E. Efcient search for approximate nearest neighbor in high dimensional spaces / E. Kushilevitz, R. Ostrovsky, Y. Rabani // Proc. of 30th annual ACM symposium on Theory of computing. — 1998. — P. 614–623.

[72] Kussul E. Associative-projective neural networks: Architecture, implementation, applications / E. Kussul, D. Rachkovskij, T. Baidyk // 4th Int. Conf.

Neural Networks & their Applications. — 1991. — P. 463–476.

[73] Kussul M. A visual solution to modular neural network system development / M. Kussul, A. Riznyk, E. Sadovaya, A. Sitchov, T.-Q. Chen // Int. Joint Conf.

on Neural Networks. — V. 1. — 2002. — P. 749–754.

http:// www.daviddlewis.com/ resources/ testcollections/ reuters21578.

[75] Lopresti D. Block edit models for approximate string matching / D. Lopresti, A. Tomkins // Theor. Comput. Sci., 1997. — V. 181, № 1. — P. 159–179.

[76] Masek W. J. A faster algorithm computing string edit distances / W. J. Masek, M. Paterson // J. Comput. Syst. Sci., 1980. — V. 20, № 1. — P. 18–31.

[77] Maurer H. Plagiarism - a survey / H. Maurer, F. Kappe, B. Zaka // J. of Universal Computer Science, 2006. — V. 12, № 8. — P. 1050–1084.

[78] Misuno I. SNC: The software neurocomputer with modular architecture / I. Misuno, D. Rachkovskij, E. Revunova, A. Sokolov // Междунар.

конф. "Проблемы нейрокибернетики". — Т. 2. — Ростов-на-Дону, Россия:

2002. — С. 109–113.

[79] Muthukrishnan S. Data Streams: Algorithms and Applications / S. Muthukrishnan. — http:// www.cs.rutgers.edu/ ~muthu/ stream-1-1.ps.

[80] Muthukrishnan S. Approximate nearest neighbors and sequence comparison with block operations / S. Muthukrishnan, S. C. Sahinalp // Proc. of the 32nd annual ACM symposium on Theory of computing. — New York, NY, USA:

ACM, 2000. — P. 416–424.

[81] Myers E. W. An O(ND) difference algorithm and its variations / E. W. Myers // Algorithmica, 1986. — V. 1, № 2. — P. 251–266.

[82] Narayanan M. Gapped local similarity search with provable guarantees / M. Narayanan, R. M. Karp // Algorithms in Bioinformatics, 4th Int. Workshop / Ed. by I. Jonassen, J. Kim. — V. 3240 of Lecture Notes in Computer Science. — Bergen, Norway: Springer, 2004. — P. 74–86.

[83] Navarro G. A guided tour to approximate string matching / G. Navarro // ACM Computing Surveys, 2001. — V. 33, № 1. — P. 31–88.

[84] Needleman S. B. A general method applicable to the search for similarities in the amino acid sequence of two proteins / S. B. Needleman, C. D. Wunsch // J. of Molecular Biology, 1970. — V. 48, № 3. — P. 443–453.

[85] Nolan J. P. Stable Distributions - Models for Heavy Tailed Data / J. P. Nolan. — Boston: Birkh user, 2007. — 352 p.

[86] Ostrovsky R. Low distortion embeddings for edit distance / R. Ostrovsky, Y. Rabani // Proc. of the 37th annual ACM symposium on Theory of computing. — New York, NY, USA: ACM Press, 2005. — P. 218–224.

http:// www.paulgraham.com/ stopspam.html.

[88] Plate T. Holographic reduced representations / T. Plate // IEEE Transactions on Neural Networks, 1995. — V. 6, № 3. — P. 623–641.

[89] Plate T. Holographic Reduced Representation: Distributed Representation for Cognitive Structures / T. Plate. — CSLI Publications, 2003. — 300 p.

[90] Pugh W. Detecting duplicate and near-duplicate les / W. Pugh, M. R. Henzinger // 2003. — United States Patent 6,658,423, granted on Dec 2, 2003.

[91] Rachkovskij D. Representation and processing of structures with binary sparse distributed codes / D. Rachkovskij // IEEE Transactions on Knowledge and Data Engineering, 2001. — V. 13, № 2. — P. 261–276.

[92] Rachkovskij D. A. Binding and normalization of binary sparse distributed representations by context-dependent thinning / D. A. Rachkovskij, E. M. Kussul // Neural Computation, 2001. — V. 13, № 2. — P. 411–452.

[93] Rogic S. Evaluation of gene-nding programs on mammalian sequences / S. Rogic, A. K. Mackworth, F. B. Ouellette // Genome Res, 2001. — V. 11, [94] Sahinalp S. C. Symmetry breaking for sufx tree construction / S. C. Sahinalp, U. Vishkin // Proc. of the 26th annual ACM symposium on Theory of computing. — New York, NY, USA: ACM, 1994. — P. 300–309.

[95] Sakharkar M. K. Distributions of exons and introns in the human genome / M. K. Sakharkar, V. T. K. Chow, P. Kangueane // In Silico Biology, 2004. — [96] Salton G. Automatic Text Processing - The Transformation, Analysis, and Retrieval of Information by Computer / G. Salton. — Addison-Wesley, 1988. — [97] Salton G. Term-weighting approaches in automatic text retrieval / G. Salton, C. Buckley // Inf. Process. Manage., 1988. — V. 24, № 5. — P. 513–523.

[98] Salton G. A vector space model for automatic indexing / G. Salton, A. Wong, C. S. Yang // Commun. ACM, 1975. — V. 18, № 11. — P. 613–620.

[99] Sanderson M. Duplicate detection in the Reuters collection: Tech. Rep. TRM. Sanderson: Department of Computing Science, University of Glasgow, 1997. — 11 p.

[100] Shamir R. Lecture Notes in Analysis of Gene Expression Data, DNA Chips and Gene Networks: Sequencing by Hybridization / R. Shamir. — http:// cs.tau.ac.il/ ~rshamir/ ge/ 04/ scribes/ lec02.pdf.

[101] Shapira D. Generalized edit distance with move operations / D. Shapira, J. A. Storer // 13th Symposium on Combinatorial Pattern Matching. — [102] Shastri L. From simple associations to systematic reasoning: Connectionist representation of rules, variables, and dynamic bindings using temporal synchrony / L. Shastri, V. Ajjanagadde // Behavioral and Brain Sciences, 1993. — [103] Smith T. Identication of common molecular subsequences / T. Smith, M. Waterman // J. of Molecular Biology, 1981. — V. 147, № 1. — P. 195–197.

[104] Sokolov A. An adaptive detection of anomalies in user’s behavior / A. Sokolov // Proc. of the Int. Joint Conf. on Neural Networks. — V. 4. — Portland, Oregon,US: 2003. — P. 2443–2447.

[105] Sokolov A. Nearest string by neural-like encoding / A. Sokolov // Proc. of 12th Int. Conf. Knowledge-Dialogue-Solution. — Varna, Bulgaria: FOI BG, 2006. — P. 101–106.

[106] Sokolov A. Searching for nearest strings with neural-like string embedding / A. Sokolov // Information Theories and Applications, 2007. — V. 14, № 3. — [107] Sokolov A. Approaches to sequence similarity representation / A. Sokolov, D. Rachkovkij // Information Theories and Applications, 2005. — V. 13, [108] Sokolov A. On handling replay attacks in intrusion detection systems / A. Sokolov, D. Rachkovskij // Information Theories & Applications, 2003. — [109] Sokolov A. Some approaches to distributed encoding of sequences / A. Sokolov, D. Rachkovskij // Proc. of 11th Int. Conf. Knowledge-DialogueSolution. — V. 2. — Varna, Bulgaria: FOI BG, 2005. — P. 522–528.

[110] Spink A. Searching the web: a survey of excite users / A. Spink, J. Bateman, B. J. Jansen // Internet Research: Electronic Networking Applications and Policy, 1999. — V. 9, № 2. — P. 117–128.

[111] Thorpe S. Localized versus distributed representations / S. Thorpe // Handbook of Brain Theory and Neural Networks / Ed. by M. A. Arbib. — Cambridge, MA: MIT Press, 1995. — P. 549–552.

[112] Tichy W. The string-to-string correction problem with block moves / W. Tichy // ACM Trans. Comput. Syst., 1984. — V. 2, № 4. — P. 309–321.

[113] Ukkonen E. On approximate string matching / E. Ukkonen // Proc. Int. Conf.

on Foundations of Comp. Theory. — V. 158. — Springer-Verlag, Lecture Notes on Comp. Sci., 1983. — P. 487–495.

[114] Ukkonen E. Approximate string-matching with q-grams and maximal matches / E. Ukkonen // Theoretical Computer Science, 1992. — V. 92, № 1. — [115] van Gelder T. Distributed Versus Local Representation / T. van Gelder. — New York: The MIT Press, 1999. — P. 235–237.

[116] van Rijsbergen C. J. Information Retrieval, 2nd edition / C. J. van Rijsbergen. — London: Butterworths, 1979. — 208 p.

[117] Vipul’s razor. — Sourceforge. — http:// razor.sourceforge.net/.

[118] Wagner R. An extension of the string-to-string correction problem / R. Wagner, R. Lowrance // J. of the ACM, 1975. — V. 22, № 2. — P. 177–183.

[119] Wagner R. A. The string-to-string correction problem / R. A. Wagner, M. J. Fischer // J. of the ACM, 1974. — V. 21, № 1. — P. 168–173.

[120] Zhang M. Q. Computational prediction of eukaryotic protein-coding genes / M. Q. Zhang // Nat. Rev. Genet., 2002. — V. 3, № 9. — P. 698–709.

[121] Бокс Д. Сущность технологии COM / Д. Бокс. — Санкт-Петербург: Питер, 2001. — 400 с.

[122] Веб-коллекция Narod.Ru. — Российский семинар по оценке методов информационного поиска. — http:// romip.ru/ ru/ collections/ narod.html.

[123] Винцюк Т. Распознавание устной речи методами динамического программирования / Т. Винцюк // Кибернетика, 1968. — № 1. — С. 81–88.

[124] Гриценко В. Концепция и архитектура программного нейрокомпьютера SNC / В. Гриценко, И. Мисуно, Д. Рачковский, Е. Ревунова, С. Слипченко, А. Соколов // Управляющие системы и машины, 2004. — № 3. — [125] Джексон П. Введение в экспертные системы / П. Джексон. — Издательский дом «Вильямс», 2001. — 624 с.

[126] Косинов Д. Использование статистической информации при выявлении схожих документов / Д. Косинов // Интернет-математика 2007: сб. работ участников конкурса науч. проектов по информ. поиску / Под ред.

П. Браславский. — Екатеринбург: Изд-во Урал. ун-та, 2007. — С. 84–90.

[127] Круглов В. Искусственные нейронные сети. Теория и практика / В. Круглов, В. Борисов. — М.: Горячая линия, 2002. — 382 с.

[128] Куссуль Н. Адаптивное обнаружение аномалий в поведении пользователей компьютерных систем с помощью марковских цепей переменного порядка. Часть 2. Методы обнаружения аномалий и результаты экспериментов / Н. Куссуль, А. Соколов // Проблемы управления и информатики, [129] Куссуль Э. М. Ассоциативные нейроподобные структуры / Э. М. Куссуль. — Киев: Наукова думка, 1992. — 144 с.

[130] Кузнецов С. Порождение кластеров документов дубликатов: подход, основанный на поиске частых замкнутых множеств / С. Кузнецов, Д. Игнатов, С. Объедков, М. Самохин // Сб. работ стипендиатов. — Яндекс, 2005. — http:// company.yandex.ru/ grant/ 2005/ 07_Kuznetsov_102820.pdf.

[131] Левенштейн В. И. Двоичные коды с исправлением выпадений, вставок и замещений символов / В. И. Левенштейн // Докл. АН СССР. — Т. 163, [132] Мисуно И. Модульный программный нейрокомпьютер SNC: реализация и применение / И. Мисуно, Д. Рачковский, Е. Ревунова, С. Слипченко, А. Соколов, А. Тетерюк // Управляющие системы и машины, 2005. — [133] Мисуно И. С. Обработка текстовой информации с помощью векторных представлений / И. С. Мисуно, Д. А. Рачковский, С. В. Слипченко, А. М. Соколов // Международный семинар по индуктивному моделированию. — Киев: 2005. — С. 230–236.

[134] Мисуно И. С. Поиск текстовой информации с помощью векторных представлений / И. С. Мисуно, Д. А. Рачковский, С. В. Слипченко, А. М. Соколов // Проблемы программирования, 2005. — № 4. — С. 50–67.

[135] Морозов А. Нейрокомпьютеры и нейротехнологии накануне нового старта / А. Морозов, В. Клименко, А. Резник // Управляющие системы и машины, 1997. — № 1-2. — С. 1–7.

[136] Наборы данных конкурса «Интернет-Математика» // 2007. — http:// company.yandex.ru/ grant/ datasets_description.xml.

[137] Некрестьянов И. Оценка систем информационного поиска / И. Некрестьянов // Курс лекций «Алгоритмы для Интернет» / Под ред. Ю. Лифшиц. — ИТМО, 2006.

[138] Рачковский Д. Концепция и методы нейросетевого распределенного представления информации в задачах ИИ / Д. Рачковский, И. Мисуно, Е. Ревунова, С. Слипченко, А. Соколов // Междунар. конф. "Проблемы нейрокибернетики". — Т. 2. — Ростов-на-Дону, Россия: 2005. — С. 30–33.

[139] Рачковский Д. Разреженное бинарное распределенное кодирование скалярных величин / Д. Рачковский, С. Слипченко, Э. Куссуль, Т. Байдык // Проблемы управления и информатики, 2005. — № 3. — С. 89–102.

[140] Резник А. Нейросетевая идентификация пользователей компьютерных систем / А. Резник, Н. Куссуль, А. Соколов // Кибернетика и вычислительная техника, 1999. — Т. 123. — С. 70–79.

[141] Рiзник О. Багатофункцiональний нейрокомп’ютер NeuroLand / О. Рiзник, Е. Калина, О. Садова, О. Дехтяренко, О. Сичов // Математичнi машини i системи, 2003. — № 1. — С. 36–45.

[142] Сегалович И. Некоторые автоматические методы детектирования спама, доступные большим почтовым системам / И. Сегалович // 2004. — http:// company.yandex.ru/ articles/ antispam.xml.

[143] Сегалович И. Принципы и технические методы работы с незапрашиваемой корреспонденцией / И. Сегалович, Д. Тейблюм, А. Дилевский // 2004. — http:// company.yandex.ru/ articles/ spamooborona.html.

[144] Соколов А. Обнаружение аномалий с помощью марковских цепей переменного порядка / А. Соколов // Исскуственный интеллект, 2002. — [145] Соколов А. Современные модели обнаружения аномалий в компьютерных системах / А. Соколов // Управляющие Системы и Машины, 2004. — [146] Соколов А. Векторные представления для эффективного сравнения и поиска похожих строк / А. Соколов // Кибернетика и системный анализ, [147] Соколов А. Исследование ускоренного поиска близких текстовых последовательностей с помощью векторных представлений / А. Соколов // Кибернетика и системный анализ, 2008. — № 4. — С. 32–47.

[148] Соколов А. Рандомизированное вложение расстояния редактирования в задачах поиска генов и обнаружения вторжений / А. Соколов // Системные технологии, 2008. — № 2. — С. 126–139.

[149] Шлезингер М. Десять лекций по статистическому и структурному распознаванию / М. Шлезингер, В. Главач. — Наукова думка, 2004. — 535 с.

[150] Яндекс. — Yandex Inc., 2008. — 2008. — http:// company.yandex.ru.



Pages:     | 1 | 2 ||


Похожие работы:

«БУРДУКОВСКИЙ МАКСИМ ЛЕОНИДОВИЧ ВЛИЯНИЕ ДЛИТЕЛЬНОЙ ХИМИЗАЦИИ ПОЧВ ЮГА ДАЛЬНЕГО ВОСТОКА НА БИОЛОГИЧЕСКИЙ КРУГОВОРОТ И СОДЕРЖАНИЕ МАКРО– И МИКРОЭЛЕМЕНТОВ 03.02.08 – экология Диссертация на соискание ученой степени кандидата биологических наук Научный руководитель : доктор биологических наук, старший научный сотрудник Голов Владимир Иванович...»

«Потапов Дмитрий Юрьевич Клинико-экспериментальное обоснование лигатурных методов гемостаза при резекции почки 14.01.23 - урология Диссертация на соискание ученой степени кандидата медицинских наук Научный руководитель Попков В.М, доктор медицинских наук,...»

«Мозговой Максим Владимирович Машинный семантический анализ русского языка и его применения Специальность 05.13.11 — математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей Диссертация на соискание ученой степени кандидата физико-математических наук Научный руководитель — доктор физико-математических наук, профессор Тузов В.А. Санкт-Петербург – 2006 2 Оглавление ОГЛАВЛЕНИЕ ВВЕДЕНИЕ О...»

«ИЗ ФОНДОВ РОССИЙСКОЙ ГОСУДАРСТВЕННОЙ БИБЛИОТЕКИ Лейн, Александр Феликсович Сравнительная оценка опасности и уровня риска для населения при авариях на химических, взрывопожароопасных и энергетических объектах Москва Российская государственная библиотека diss.rsl.ru 2006 Лейн, Александр Феликсович Сравнительная оценка опасности и уровня риска для населения при авариях на химических, взрывопожароопасных и энергетических объектах : [Электронный ресурс] : Дис. . канд. техн. наук  : 05.26.02,...»

«УДК: 618.146-006.5-02 Ирена ДИГОЛ ФАКТОРЫ РИСКА ИНФИЦИРОВАНИЯ ШЕЙКИ МАТКИ ОНКОГЕННЫМИ ТИПАМИ ВИРУСА ПАПИЛЛОМЫ ЧЕЛОВЕКА 14.00.14 – Онкология и радиотерапия Диссертация на соискание ученой степени доктора медицинских наук КИШИНЕВ – 2005 Содержание Введение.. 4 Глава I. Возбудители инфекций, передаваемых половым путем, и их роль в онкогенезе (Обзор литературы).. Глава 1. 1. Роль...»

«Припутнев Алексей Владимирович ПОВЫШЕНИЕ ПРИВЛЕКАТЕЛЬНОСТИ ИНВЕСТИЦИОННОГО КЛИМАТА РЕГИОНА ( НА МАТЕРИАЛАХ КРАСНОДАРСКОГО КРАЯ) Специальность 08.00.05 - экономика и управление народным хозяйством: региональная экономика Диссертация на соискание ученой степени кандидата экономических наук Научный руководитель д.экон.наук, профессор Жуков Б.М. Краснодар 2014 1 СОДЕРЖАНИЕ ВВЕДЕНИЕ 1 КОНЦЕПТУАЛЬНЫЕ ОСНОВЫ ИССЛЕДОВАНИЯ ИНВЕСТИЦИОННОГО КЛИМАТА РЕГИОНАЛЬНОЙ ЭКОНОМИКИ 1.1 Сущностная...»

«БАЛОВА Елена Александровна ЭКСТРЕМАЛЬНЫЕ ЗАДАЧИ ИНТЕРПОЛЯЦИОННОГО ТИПА И ВОССТАНОВЛЕНИЕ РЕШЕНИЙ ЭЛЛИПТИЧЕСКИХ УРАВНЕНИЙ (01.01.01 математический анализ) Диссертация на соискание ученой степени кандидата физико-математических наук Научный руководитель доктор физико-математических наук, профессор К. Ю. Осипенко Москва 2009 Оглавление Глава 1. Введение 1.1. Исторический обзор 1.2. Краткое...»

«Пучков Илья Александрович РАЗРАБОТКА, ОПТИМИЗАЦИЯ И МАСШТАБИРОВАНИЕ БИОТЕХНОЛОГИЧЕСКОГО ПРОИЗВОДСТВА ПЭГИЛИРОВАННОЙ ФОРМЫ РЕКОМБИНАНТНОГО ГРАНУЛОЦИТАРНОГО КОЛОНИЕСТИМУЛИРУЮЩЕГО ФАКТОРА Специальность 03.01.06 – Биотехнология (в том числе бионанотехнологии) Диссертация на...»

«КОЛОГРИВОВА Ирина Вячеславовна ИММУНОРЕГУЛЯТОРНЫЙ ДИСБАЛАНС У ПАЦИЕНТОВ С АРТЕРИАЛЬНОЙ ГИПЕРТЕНЗИЕЙ, АССОЦИИРОВАННОЙ С НАРУШЕНИЯМИ УГЛЕВОДНОГО ОБМЕНА 14.03.03 – патологическая физиология 14.01.05 – кардиология Диссертация на соискание ученой степени кандидата медицинских наук Научные руководители: доктор медицинских наук,...»

«ИЗ ФОНДОВ РОССИЙСКОЙ ГОСУДАРСТВЕННОЙ БИБЛИОТЕКИ Беляков, Артем Александрович Актуализация концептов VERSTAND и VERNUNFT на материале художественной литературы и публицистики Москва Российская государственная библиотека diss.rsl.ru 2007 Беляков, Артем Александрович.    Актуализация концептов VERSTAND и VERNUNFT на материале художественной литературы и публицистики [Электронный ресурс] : дис. . канд. филол. наук  : 10.02.04. ­ Барнаул: РГБ, 2007. ­ (Из фондов Российской...»

«Сучков Евгений Александрович МЕТОД КОЛИЧЕСТВЕННОГО ОПРЕДЕЛЕНИЯ В БИОЛОГИЧЕСКОМ МАТЕРИАЛЕ И ФАРМАКОКИНЕТИЧЕСКИЕ СВОЙСТВА НОВОГО ПРОИЗВОДНОГО АДЕНИНА, ОБЛАДАЮЩЕГО ПРОТИВОВИРУСНОЙ АКТИВНОСТЬЮ 14.03.06 – фармакология, клиническая фармакология 14.04.02 – фармацевтическая химия, фармакогнозия Диссертация на соискание ученой степени кандидата биологических наук Научный...»

«КОЖЕВНИКОВ Дмитрий Николаевич Создание и использование комплекса моделей атомов и молекул для изучения строения вещества в курсе химии средней школы 13.00.02 – теория и методика обучения и воспитания (химии в общеобразовательной школе) (по педагогическим наук ам) Диссертация на соискание ученой степени кандидата педагогических наук Научный руководитель :...»

«Коротеев Михаил Юрьевич Вихретоковый контроль качества паяных соединений стержней статорных обмоток турбогенераторов Специальность 05.11.13 – Приборы и методы контроля природной среды, веществ, материалов и изделий Диссертация на соискание ученой степени кандидата...»

«БЕЗНИН ГЛЕБ ВЛАДИМИРОВИЧ СТРУКТУРНО-ФУНКЦИОНАЛЬНЫЕ ОСНОВЫ НАРУШЕНИЙ ПОВЕДЕНИЯ НА МОДЕЛИ ПОСТТРАВМАТИЧЕСКОГО СТРЕССОВОГО РАССТРОЙСТВА У КРЫС 03.03.01 – Физиология; 03.03.04 – Клеточная биология, цитология, гистология ДИССЕРТАЦИЯ на соискание учёной степени кандидата медицинских наук Научные руководители: доктор медицинских наук, профессор...»

«Александрова Татьяна Львовна ХУДОЖЕСТВЕННЫЙ МИР М. ЛОХВИЦКОЙ Диссертация на соискание ученой степени кандидата филологических наук специальность 10.01.01 – русская литература Научный руководитель – доктор философских наук И.Ю. Искржицкая Москва 2004 2 ОГЛАВЛЕНИЕ ВВЕДЕНИЕ.. ГЛАВА 1. ВЕХИ БИОГРАФИИ И ПЕРИОДИЗАЦИЯ ТВОРЧЕСТВА. ГЛАВА 2. ХУДОЖЕСТВЕННЫЙ МИР I. СЕМАНТИЧЕСКИЙ УРОВЕНЬ I. 1 Мироощущение,...»

«МИХАЙЛОВ АНТОН ИГОРЕВИЧ УДК 543.427.4: 543.422.3 МЕТОДЫ КОНТРАСТИРОВАНИЯ СПЕКТРОВ РЕНТГЕНОВСКОЙ ФЛУОРЕСЦЕНЦИИ И ИХ АППАРАТУРНАЯ РЕАЛИЗАЦИЯ 01.04.01 – физика приборов, элементов и систем Диссертация на соискание ученой степени кандидата физико-математических наук Научный руководитель Мамалуй Андрей Александрович доктор физико-математических наук, профессор Харьков - СОДЕРЖАНИЕ СПИСОК УСЛОВНЫХ ОБОЗНАЧЕНИЙ...»

«Феллер Екатерина Николаевна ПРОГНОЗИРОВАНИЕ ИЗМЕНЕНИЯ ИНЖЕНЕРНОГЕОЛОГИЧЕСКИХ УСЛОВИЙ ПРИ ВЕДЕНИИ ОЧИСТНЫХ РАБОТ НА ЯКОВЛЕВСКОМ РУДНИКЕ (ЯКОВЛЕВСКОЕ МЕСТОРОЖДЕНИЕ БОГАТЫХ ЖЕЛЕЗНЫХ РУД, КМА) Специальность 25.00.08 – Инженерная геология, мерзлотоведение и грунтоведение...»

«Бат-Эрдэнэ Сэлэнгэ НАРУШЕНИЕ ФОСФОРНО-КАЛЬЦИЕВОГО ОБМЕНА У БОЛЬНЫХ IIIIV СТАДИЕЙ ХРОНИЧЕСКОЙ БОЛЕЗНИ ПОЧЕК 14.01.04. – Внутренние болезни Диссертация на соискание ученой степени кандидата медицинских наук Научный руководитель : профессор, д.м.н., В.М. Ермоленко Москва   Оглавление СПИСОК ПРИНЯТЫХ СОКРАЩЕНИЙ ВВЕДЕНИЕ Глава 1. ОБЗОР ЛИТЕРАТУРЫ 1.1....»

«Варюшина Елена Анатольевна ПРОВОСПАЛИТЕЛЬНЫЕ ЦИТОКИНЫ В РЕГУЛЯЦИИ ПРОЦЕССОВ ВОСПАЛЕНИЯ И РЕПАРАЦИИ 03.03.03 – иммунология Диссертация на соискание ученой степени доктора биологических наук Научные консультанты: доктор медицинских наук, профессор А.С. Симбирцев доктор биологических наук Г.О. Гудима...»

«МОХАММАДИ ЛЕЙЛА НАСРОЛЛАХ ИЗМЕНЕНИЕ ЖЕСТКОСТИ СОСУДИСТОЙ СТЕНКИ И ФУНКЦИИ ЭНДОТЕЛИЯ У БОЛЬНЫХ АРТЕРИАЛЬНОЙ ГИПЕРТЕНЗИЕЙ С ФИБРИЛЛЯЦИЕЙ ПРЕДСЕРДИЙ 14.01.05.- кардиология Диссертация на соискание ученой степени кандидата медицинских наук Научный руководитель – доктор...»








 
2014 www.av.disus.ru - «Бесплатная электронная библиотека - Авторефераты, Диссертации, Монографии, Программы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.