WWW.DISUS.RU

БЕСПЛАТНАЯ НАУЧНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА - Авторефераты, диссертации, методички

 

Pages:     || 2 | 3 | 4 | 5 |

«А. Г. Додонов, Д. В. Ландэ, В. В. Прищепа, В. Г. Путятин КОНКУРЕНТНАЯ РАЗВЕДКА В КОМПЬЮТЕРНЫХ СЕТЯХ Киев – 2013 УДК 004.5 ББК 22.18, 32.81, 60.54 C95 А.Г. Додонов, Д.В. Ландэ, В.В. Прищепа, В.Г. Путятин Конкурентная ...»

-- [ Страница 1 ] --

НАЦИОНАЛЬНАЯ АКАДЕМИЯ НАУК УКРАИНЫ

ИНСТИТУТ ПРОБЛЕМ РЕГИСТРАЦИИ ИНФОРМАЦИИ

А. Г. Додонов, Д. В. Ландэ,

В. В. Прищепа, В. Г. Путятин

КОНКУРЕНТНАЯ РАЗВЕДКА

В КОМПЬЮТЕРНЫХ СЕТЯХ

Киев – 2013

УДК 004.5

ББК 22.18, 32.81, 60.54

C95

А.Г. Додонов, Д.В. Ландэ, В.В. Прищепа, В.Г. Путятин

Конкурентная разведка в компьютерных сетях. – К.: ИПРИ НАН Украины, 2013. – 250 с.

Книга посвящена рассмотрению вопросов интернет-разведки – сегменту конкурентной разведки, охватывающему процедуры сбора и обработки информации, проводимые с целью поддержки принятия управленческих решений, повышения конкурентоспособности исключительно из открытых источников в компьютерных сетях – веб-пространства, блогосферы, форумов, социальных сетей. Рассматриваются различные вопросам информационно-аналитической деятельности в сетевой среде, ориентированной на задачи конкурентной разведки. В качестве теоретических основ конкурентной разведки в сетевой среде рассматриваются элементы теорий сложных сетей, анализа социальных сетей, информационного и математического моделирования, социологии.

Для широкого круга специалистов в области информационных технологий и безопасности.

Рекомендовано к изданию ученым советом Института проблем регистрации информации НАН Украины (протокол № 9 от 3 сентября 2013 года) Рецензенты:

д.т.н., профессор В.В.Мохор д.т.н., профессор А.Я. Матов д.ю.н., профессор К.И. Беляков А.Г. Додонов, Д.В. Ландэ, ISBN 978-966-00-1087- В.В. Прищепа, В.Г. Путятин, Оглавление Введение

1. Цели, задачи и проблемы интернет-разведки

2. Системы и технологии конкурентной разведки

2.1. Средства поиска информации в Интернет

2.2. Концепция глубинного анализа текстов

2.3. Мониторинг информационного пространства................. 2.4. Определение взаимосвязей

2.5. Технологии конкурентной разведки

2.6. Примеры применения технологий конкурентной разведки

3. Источники информации

3.1. Веб-пространство

3.2. Глубинный веб

3.3. Специальные базы данных

3.4. Социальные медиа

4. Социальные сети

4.1. Анализ социальных сетей

4.2. Основные социальные сети

4.3. Мониторинг социальных сетей

5. Управление репутацией в сетях

5.1. Проблема управления репутацией компаний

5.2. Моделирование репутации в сетях

5.3. Живучесть информации в Интернете

6. Правовые вопросы конкурентной разведки

6.1. Конкурентная разведка в правовом поле

6.2. Конкурентная разведка и защита коммерческой тайны

6.3. Конкурентная разведка и защита персональных данных

7. Информационные операции

7.1. Информационное влияние

7.2. Этапность информационных операций

7.3. Моделирование информационных операций.................. 7.4. Выявление информационных операций

7.5. Противодействие информационным операциям............ 7.6. Конкурентная разведка в антимонопольной деятельности

Краткий глоссарий

Литература

Веб-сайты по тематике конкурентной разведки

Адреса упоминаемых веб-ресурсов

Конкурентная разведка (Competitive Intelligence) в компьютерных сетях охватывает процедуры сбора и обработки информации, проводимые с целью поддержки принятия управленческих решений, повышения конкурентоспособности коммерческих организаций исключительно из открытых источников из компьютерных сетей, большинство из которых являются надстроенными над сетью Интернет, так называемыми, оверлейными. Поэтому часто в качестве синонима конкурентной разведки в дальнейшем будет использоваться термин интернет-разведка. Таким образом, данная книга фактически посвящена проблематике конкурентной разведки, но с одним существенным ограничением – все источники информации, необходимые для проведения разведывательной деятельности, являются открытыми и доступными в компьютерных сетях. Более того, большая часть инструментария, программ обработки информации, также доступна через современные компьютерные сети. В англоязычной литературе такой вид конкурентной разведки принято называть разведкой по открытым источникам (Open Sources INTelligence, OSINT) [Берд, 2007].

Разведывательная информация может быть получена из официальных источников, неофициальных открытых источников, СМИ, объявлений, рекламы, внутрифирменных, банковских, правительственных отчетов, баз данных, от экспертов, путем анализа или специальной обработки данных, текстов по прямым или косвенным признакам. Правда, при этом количество разнородных сведений, которые необходимо переработать, чтобы получить крупицы знаний огромно, а потому в настоящее время конкурентная разведка немыслима без использования специализированных информационных технологий.

По мнению бывшего директора Центрального разведывательного управления США (ЦРУ) Р. Хилленкерта «80 % разведывательной информации получается из таких источников как книги, журналы, научно-технические обзоры, фотографии, коммерческих аналитических отчетов, газет, теле- и радиопередач…».

По другим оценкам, в любой разведке от 35 до 95 % всей информации добывается из открытых источников. При этом доля затрат на работу с открытыми источниками, например, в разведывательном бюджете США, составляет лишь около 1 %.

Значимость такой разведки по открытым источникам отметил еще президент США Линдон Джонсон (Lyndon Baines Johnson) Конкурентная разведка в компьютерных сетях июня 1966 г., когда произнес речь на церемонии принятия присяги директором ЦРУ Ричардом М. Хелмсом (Richard McGarrah Helms):

«Высшие достижения не являются результатом потихоньку пересказанной тайной информации, а происходят из терпеливого, ежечасного изучения печатных источников».

Общеизвестно, что основное отличие конкурентной разведки от промышленного шпионажа – это легитимность и соблюдение этических норм [Дудихин, 2004]. В интернет-разведке данное положение доведено до абсолюта – исключительно все источники информации в этом случае доступны и легальны.

Интернет-разведка, как, впрочем, и вся конкурентная разведка, представляет собой особый вид информационно-аналитической работы, позволяющей собирать разностороннюю бизнес-информацию без применения тех специфических методов оперативно-розыскной деятельности, которые являются исключительной прерогативой правоохранительных органов.

Вместе с тем, методы ведения интернет-разведки, методики и технологии ее проведения весьма близки к используемым в традиционной разведывательной деятельности спецслужбами.

Применение интернет-разведки в коммерческой компании оправдывается не только соображениями информационной безопасности, но важно и для решения задач менеджмента и маркетинга тем, что обеспечивает:

– наблюдение за репутацией компании (с точки зрения клиентов, конкурентов, госорганов);

– активное участие в формировании имиджа компании, информационного поля вокруг компании;

– отслеживание появления нового конкурента, технологии или канала сбыта;

– выявление возможных слияний и поглощений;

– оценка потенциальных рисков при инвестициях;

– опережение шагов конкурентов в рамках маркетинговых кампаний;

– опережение конкурентов в тендерах;

– выявление каналов утечки информации.

Зыбкая грань между понятиями конкурентная разведка и промышленный шпионаж, состоит в легитимности или законности методов и средств, используемых в процессе сбора целевой информации [Ландэ, Прищепа, 2007]. Следует отметить также весьма тонкую разницу между бизнес-разведкой (business intelligence, BI) и конкурентной разведкой. Из публикаций и описаний систем, где упоминаются эти термины, можно сделать вывод, что бизнесВведение разведка направлена больше на изучение «внутренней» маркетинговой, финансовой, экономической информации и информации о клиентах, в то время как конкурентная разведка чаще охватывает процессы, связанные с добыванием «внешней» информации и знаний непосредственно о конкурентах. Однако на практике в постсоветском пространстве, где еще окончательно не сформировалась понятийная база, не делают разницы между терминами «деловая», «конкурентная» или «экономическая» разведка, и под конкурентной разведкой понимают весь комплекс мероприятий, связанный с информационно-аналитическим обеспечением управления предпринимательскими рисками, выявления угроз, возможностей и других факторов, влияющих на получение конкурентных преимуществ в бизнесе.

Родоначальником современной конкурентной разведки считается компания Ксерокс (Xerox), столкнувшаяся с конкуренцией со стороны японских производителей [Прескотт, 2003]. В начале 70-х годов ХХ века, после выхода японцев на американский рынок, менеджеры Ксерокс заметили, что компания стала утрачивать позиции на рынке. Ситуацию исправили изменения, основанные на сборе актуальной информации о рынке и конкурентах. Ксерокс, благодаря своему японскому филиалу, создал систему работы (бенчмаркинг), а затем адаптировал и применил к бизнесу разведывательные технологии. При этом одним из основных условий организации этого процесса было неотступное соблюдение закона, так как репутация компании могла рухнуть гораздо раньше, чем можно было бы воспользоваться экономическими преимуществами промышленного шпионажа. Вскоре эти методы работы начали применяться и другими американскими компаниями. Затем конкурентная разведка стала применяться в Европе, а в дальнейшем и во всем мире.

Игнорирование возможностей конкурентной разведки на начальном этапе дорого обходилось даже для крупнейших компаний [Джилад, 2010]. Так после создания фотоаппарата, который выдавал готовый снимок, компания Polaroid стала почивать на лаврах.

Когда аналитический отдел компании представил отчет, в котором указал на перспективы развития фотоиндустрии и зарождении цифровой эры, руководство компании назвали эту информацию «футуристической чепухой». Прошло некоторое время и в октябре 2001 года компания Polaroid начала первую процедуру банкротства.

Аналогично в 70-х годах XX века «Большая тройка» американских производителей автомобилей не прореагировала на появление на рынке японских производителей автомобилей. Однако, сами Конкурентная разведка в компьютерных сетях американцы выбрали небольшие, экономичные и надежные японские автомобили, и американские корпорации понесли значительные убытки.

Конкурентные разведчики из корпорации Samsung узнали из открытой прессы, что последний американский завод по производству гитар может закрыться из-за более дешевых корейских инструментов, и американское правительство готовится защитить своих производителей с помощью таможенных пошлин. Вовремя узнав это, представители Samsung успел ввезти в США большое количество гитар, а в результате введения ввозных пошлин, еще и поднять цены на этот музыкальный инструмент.

По устоявшемуся ошибочному мнению, вся полезная разведывательная информация добывается из секретных источников агентурным или оперативным путем – на самом деле это не так. Известное признание адмирала Захариаса – заместителя начальника разведки Военно-морских сил США в годы Второй мировой войны, опровергает это. Так, по его оценке 95 % информации разведка военно-морских сил черпала из открытых источников, 4 % – из официальных, и только 1 % – из конфиденциальных источников.

Справедливости ради надо сказать, что часто именно этот один процент является тем золотым недостающим звеном, который позволяет сложить целостную картину разрозненной мозаики всех разведданных. И если такое соотношение справедливо для военной разведки, то тем более оно будет правильным для конкурентной разведки бизнес-структур.

В то же время, анализ рассекреченного отчета ЦРУ за 1987 год «Enterprise-Level Computing in Soviet Economy» (SOV С87-10043) дает представление о том, какой колоссальный объем данных необходимо было обрабатывать аналитикам. Для составления отчета постоянно на протяжении года сканировалось 347 открытых источников; для создания сводки объемом в одну страницу ежедневно обрабатывался информационный массив объемом примерно 7 млн.

слов.

Сегодняшнее развитие информационных технологий сделало компьютерную разведку доступной даже для относительно небольших компаний, сегодня она распространена на всех уровнях экономики.

В арсенале тех, кто сегодня полноценно занимается конкурентной разведкой, нет специальной аппаратуры, шпионской техники. Их основной инструмент – компьютер, подключенный к сети Интернет. Деятельность подразделений конкурентной разведки компаний все больше основывается на последних достижениях в области искусственного интеллекта в сочетании с наработками в областях психологии, социологии, экономики.

Ощутимые преимущества, получаемые за счет использования конкурентной разведки, подтверждают результаты опроса, проведенного еще в 1999 г. среди 500 крупнейших компаний США. Почти 90 % компаний подтвердили, что создали у себя подразделения конкурентной разведки. При этом затраты корпораций на разведку составляют в среднем 1–1,5 % от оборота и вполне рентабельны [Ландэ, Прищепа, 2007].

В настоящее время создаются многочисленные профессиональные объединения (сообщества) специалистов в области конкурентной разведки. Наиболее известные из таких сообществ, занимающихся организацией конференций, тренингов, – это Strategic and Competitive Intelligence Professionals, SCIP (www.scip.org, рис. 1) в США и Competia (www.competia.com) в Канаде.

Рис. 1 – Фрагмент веб-сайта организации SCIP (www.scip.org) В России известны Российское общество профессионалов конкурентной разведки, РОПКР (www.rscip.ru) и Сообщество Практиков Конкурентной разведки, СПКР (razvedka-open.ru), в Украине – Харьковская областная общественная организация «Общество аналитиков и профессионалов конкурентной разведки». В Украине ведется подготовка специалистов в области конкурентной разведки Конкурентная разведка в компьютерных сетях в Харьковском национальном университете радиоэлектроники, где готовят магистров по специальности «Консолидированная информация».

В настоящее время конкурентная разведка не ограничивается изучением конкурентов, а проводит анализ всей среды, окружающей организацию или предприятие. Изучается политическая обстановка, особенности законодательства, кадровые перемещения, новые технологии, собственные клиенты и поставщики компании и т.п., подбираются эксперты по специальным вопросам.

1. Цели, задачи и проблемы интернет-разведки Основными целями интернет-разведки, как сегмента конкурентной разведки [Кочергов, 2009], являются:

1. Информационное обеспечение процесса выработки управленческих решений на стратегическом и тактическом уровнях;

2. Выявление, прогноз и предотвращение потенциальных угроз бизнесу;

3. Выявление (совместно со службой безопасности) попыток конкурентов получить доступ к закрытой информации компании.

4. Определение благоприятных возможностей для бизнеса;

5. Управление рисками, обеспечение эффективного реагирования компании на быстрые изменения окружающей среды, интернет-пространства;

6. Промышленная контрразведка, предупреждение разведывательной деятельности конкурентов в сетевой среде, аналитическая поддержка службы безопасности компании.

Для достижения перечисленных целей в рамках интернетразведки должны быть решены следующие задачи:

– сбор и своевременное обеспечение руководства и бизнесподразделений компаний надежной и всесторонней информацией из сетевых источников о «внешней» и «внутренней» среде предприятия;

– выявление факторов риска, угроз, которые могут затронуть экономические интересы бизнеса или помешать его нормальному функционированию;

– выявление новых возможностей и других факторов, влияющих на получение конкурентных преимуществ;

– усиление благоприятных и локализация неблагоприятных факторов конкурентной среды на деятельность бизнес-структуры;

– выработка прогнозов и рекомендаций по влиянию конкурентной среды на деятельность бизнес-структуры.

Конкурентная разведка становится современным направлением исследования поведения конкурентов на рынке, позволяющим создавать модели рынка, его участников, определения характеристик и оптимизации тактики и стратегии развития субъектов хозяйствования на определенных рынках. Для достижения таких целей требуется использование эффективных приемов работы с информацией и ее элементами. Информация в этом смысле становится как объектом исследования рынка, так и основой для создания его модели.

Конкурентная разведка в компьютерных сетях Выше сформулированы цели и задачи интернет-разведки, рассчитанные на легитимную деятельность соответствующих структур.

Вся система конкурентной разведки должна позволять руководству, аналитическому, маркетинговому отделам компании не только оперативно реагировать на изменения ситуации на рынках, но и оценивать дальнейшие возможности своего развития. Конкурентная разведка обеспечивает переход от традиционного интуитивного принятия решений на основе недостаточной информации к управлению, основанному на знаниях. При этом она также обеспечивает снижение рисков, безопасность бизнеса, а также приобретение конкурентных преимуществ. Современная система конкурентной разведки позволяет не только осуществлять мониторинг информации, но и моделировать стратегию конкурентов, выявлять их партнеров, поставщиков, понимать условия сотрудничества.

Основные задачи систем конкурентной разведки заключаются в нахождении и обобщении информации о конкурентах, рынках, товарах, бизнес-тенденциях и операциях по таким основным объектам:

– партнеры, акционеры, смежники, союзники, контрагенты, клиенты, конкуренты (личности и компании);

– объединения компаний, слияния, поглощения, кризисные ситуации и т.п.;

– кадровый состав, как своей компании, так и партнеров, конкурентов и т.д., а также кадровые изменения, их динамика;

– торговый оборот, бюджет и его распределения по пунктам;

– заключенные договора, соглашения или договоренности.

Интерес при проведении конкурентной разведки вызывает не только непосредственная сфера деятельности компаний, но и сферы их влияния и интересов. Эти знания могут применяться, например, для оказания влияния на позиции партнеров и оппонентов в ходе деловых переговоров. Большое значение имеет информация, относящаяся к политике конкурентов, их намерениям, сильным и слабым сторонам, продукции и услугам, ценам, рекламным кампаниям, другим параметрам рынка.

Современные открытые сетевые ресурсы, веб-сайты, социальные сети превращается в настоящее время в основной источник и эффективный инструмент для конкурентной разведки. Они позволяют в режиме реального времени не только отслеживать действия компаний-конкурентов, но и выявлять последние тенденции по интересующей тематике. Назовем лишь некоторые способы использования интернет-ресурсов для решения задач конкурентной разведки:

1. Получение новостей по целевой тематике.

Современные сетевые сервисы, такие как Google News, Яндекс.Новости, социальные сети типа Twitter, FaceBook позволяют получать новости, отобранные в соответствии с информационными потребностями пользователей. Например, при использовании социальной сети Twitter, можно воспользоваться поисковым режимом, и ввести запрос, например «банкротство». После этого пользователь получит список сообщений, в некоторых случаях снабженных аккаунтами пользователей, чьи сообщения релевантны введенному запросу. Таким образом, можно определить экспертов, которых можно сгруппировать в соответствии со своими информационными потребностями. Затем, следуя за группой экспертов, можно получить достаточно широкий охват проблемы, несколько точек зрения, новые информационные ресурсы.

2. Выявление тенденций.

По выбранным с помощью поисковых возможностей информационным ресурсам (веб-сайтам, блогам, форумам) можно вручную или с использованием специальных аналитических инструментов выявлять тенденции в выбранной сфере.

3. Получение рассылки целевых документов по электронной почте.

Многие из новостных агрегаторов и социальных сетей (в частности, Twitter) предоставляют возможность качественных персонифицированных периодических рассылок, охватывающих сообщения, комментарии, блоги экспертов.

4. Построение сетей информационных связей Для задач конкурентной разведки важно не только получение целевой информации (сообщений), но и понимание связей, которые обнаруживаются при анализе информации. Важен не только объект анализа, но и связанные с ним информационные ресурсы, профили в социальных сетях, «друзья», группы обсуждений и т.п. В некоторых случаях можно посмотреть, кто является подписчиком данных профилей, кто интересуется той же тематикой и, следовательно, может стать новым источником для получения целевой информации.

5. Получение ответов на вопросы.

Социальные сети можно использовать как способ получения ответов на конкретные вопросы, в том числе и по вопросам методологии конкурентной разведки. Если вопрос поставлен корректно, то с большой вероятностью можно получить ответ на него от других пользователей.

6. Фильтрация мусора.

Конкурентная разведка в компьютерных сетях Для конкурентной разведки не всегда интересны общеизвестные, зачастую ложные данные и информация, интересные большинству, а ведь именно на такие данные ориентированы социальные сети. При использовании сетевых ресурсов в качестве мощнейшей базы для конкурентной информации особое внимание следует уделять отработке запросов, выбору источников, экспертов, установлению связей.

Отметим некоторые проблемы, связанные с конкурентной разведкой в веб-пространстве.

Первой и наиболее существенной проблемой является то, что колоссальные объемы информации в Интернет затрудняют поиск и выбор действительно необходимых сведений. Сами по себе необработанные, необобщенные и непроверенные данные не могут обеспечить качественную поддержку при принятии решений.

По оценкам специалистов, охваченные в настоящее время поисковыми системами веб-ресурсы составляют свыше триллиона документов и постоянно растут. По словам Эрика Шмидта (Eric Emerson Schmidt) – председателя совета директоров Google, даже такая мощная поисковая система как Google сможет проиндексировать всю имеющуюся сегодня информацию лишь примерно через 300 лет.

Традиционные поисковые системы в Интернет отлично справляются с простыми однократными запросами, однако, как правило, слабо применимы для нужд конкурентной разведки. По некоторым оценкам [Ландэ, Прищепа, 2007], более 97 % критичной для конкурентной разведки онлайновой информации невозможно найти с помощью традиционных информационно-посковых систем.

Второй проблемой конкурентной разведки в Интернет является то, что информация в Интернет имеет явно выраженный динамичный характер: информация размещается, модифицируется и удаляется. Частичное решение этих проблем возможно при применении систем контент-мониторинга информационных потоков в Интернет.

Третья проблема, которую необходимо решить в целях конкурентной разведки, – автоматическое извлечение понятий из формализованных массивов информации (таблиц, баз данных) и неструктурированных текстов. Перспективным направлением решения этой проблемы в системах конкурентной разведки является использование технологий Knowledge Discovery, Data Mining и Text Mining [Ландэ, 2005], [Печенкин, 2004].

Четвертой проблемой является выявление неочевидных закономерностей и связей. В настоящее время известно несколько пуЦели, задачи и проблемы интернет-разведки тей решения проблем извлечения понятий из текстов и выявления их взаимосвязей, как практических, так и теоретических. Одним из этих путей является построение матриц и графов взаимосвязей, к которым можно применять соответствующие математические методы. Как правило, узлы этих графов – коэффициенты, которые пропорциональны количеству документов из входного информационного потока, которые одновременно соответствуют исследуемым понятиям.

Пятой проблемой является поиск информации в «скрытом»

веб-пространстве, где содержится несравнимо большее количество данных, потенциально интересных для конкурентной разведки, чем в открытой части сети Интернет. Не вся потенциально открытая «несекретная» информация является хорошо доступной, скорее – наоборот. Извлечение необходимой в каждом конкретном случае информации является сложной задачей. По мнению экспертов, только порядка 10-15% необходимой информации имеется в Интернете в готовом виде, остальные 85-90% можно получить в результате сравнения, интеграции и анализа многочисленных разрозненных данных.

Итак, в Интернет содержится большая часть информации, необходимой для проведения конкурентной разведки, однако остается открытым вопрос ее нахождения и эффективного использования. Причина – присущие сети Интернет недостатки [Ландэ, 2005]:

– непропорциональный рост уровня информационного шума;

– засилье паразитной информации;

– слабая структурированность и связность информации;

– динамичность информации;

– отсутствие целостности информации;

– многократное дублирование информации;

– отсутствие возможности смыслового поиска;

– ограниченность доступа к «скрытому» веб.

Несмотря на это возможности Интернета оцениваются экспертами в области конкурентной разведки достаточно высоко.

Конкурентная разведка использует в своем арсенале различные средства, наиболее развитыми из которых являются специализированные информационно-аналитические системы (ИАС). Типовая ИАС конкурентной разведки (рис. 2) включает следующие компоненты:

– комплексы контент-мониторинга информации из открытых сетей (веб-пространства, социальных, пиринговых сетей и т.п.);

– средства экстрагирования понятий (компаний, персон, событий и т. п.) из полнотекстовых документов;

– средства выявления и визуализации информационных связей, выявления аномалий, неочевидных закономерностей;

– средства формирования аналитических документов, которые предоставляются лицам, принимающим решения (ЛПР).

Содержательная часть, информационная база информационноаналитической системы конкурентной разведки формируется комплексом контент-мониторинга. Особенности современных комплексов контент-мониторинга заключаются в том, что они должны охватывать огромные объемы информации из динамически возрастающих информационных потоков в сетях при наличии шумовой информации, большой части слабодоступных ресурсов, так называемого «скрытого Интернета» [Ландэ, 2010]. При этом с помощью комплексов контент-мониторинга в рамках конкурентной разведки, как правило, решаются следующие задачи:

– мониторинг деятельности партнеров, конкурентов, регулирующих органов;

– контроль медиаприсутствия и медиаактивности участников рынков;

– нахождение информации об участниках рынков;

– выявление новых продуктов на рынках;

– выявление новых игроков на рынках;

– организация ретроспективного информационного фонда документов для их последующего использования в аналитической деятельности.

Процесс превращения сырых данных в знания и доведение их до конечных потребителей принято называть разведывательным циклом. В своем классическом понимании разведывательный цикл (разведцикл) принято разделять на пять основных этапов:

– целеуказание, планирование, определение источников информации;

– сбор, добывание данных;

– обработка разведывательных данных (разведданных) – превращение их в разведывательную информацию;

– анализ и синтез разведывательной информации – превращение ее в знания – выводы, рекомендации, решения;

– доведение информации до конечных потребителей.

Рис. 2 – Типовые компоненты системы конкурентной разведки Не вдаваясь в подробности, следует также отметить некоторые ключевые особенности указанных выше этапов, a именно:

– целеуказание и планирование целесообразно делить на три уровня – стратегический, тактический и оперативный;

– на этапе сбора информации крайне важно задействовать как можно большее количество независимых и первичных источников;

– процесс обработки данных предполагает учет, классификацию, отбор, верификацию и оценку добытых сведений;

Конкурентная разведка в компьютерных сетях – разведцикл, в некоторых случаях может не требовать глубокой проработки, например, в условиях ограниченного времени, может быть не полным и заканчиваться выдачей потребителям не знаний в виде окончательных выводов, рекомендаций или проектов решений, а просто обработанной информации в виде информационных справок;

– в разведывательном документе не должно быть ссылок на конфиденциальные источники информации, поскольку это может привести к их расшифровке;

– выводы и рекомендации должны быть четкими, краткими и однозначными, а прогнозы носить вероятностный характер;

– доведение информации до конечных потребителей должно быть в виде, адаптированном к восприятию заказчика и форме, легко доступной их пониманию (любопытно заметить, что ЦРУ, например, предоставляло Р. Рейгану ежедневную информацию в виде видеофильма, который снимали каждый день, поскольку бывший киноактер воспринимал такую подачу информации более адекватно).

Итак, открытые источники являются наиболее используемым каналом информации, при их использовании возрастает объективность добываемой информации, однако, резко возрастают трудозатраты на извлечение нужной информации. Следовательно, для их использования в конкурентной разведке нужны специализированные методики и системы. Такие специализированные методики и системы создавались учеными в интересах спецслужб на протяжении многих лет, как на Западе, так и в бывшем Советском Союзе.

Перевод в последние 10–20 лет значительного объема мировой информации из бумажного вида в электронный, широкое использование и рост сети Интернет, новые информационные технологии сделали интернет-разведку одним из самых перспективных направлений разведывательной деятельности. Тот факт, что так поступают практически все спецслужбы мира, лишь подтверждает перспективность этого направления для конкурентной разведки.

Для поиска и сбора информации в компьютерных сетях в интересах разведки по всему миру используются специальные мониторинговые системы сбора данных, т.н. «процессоры сбора данных». На компьютерном сленге их еще называют «роботами» или «пауками». Такая программа-робот сама обходит по заданному графику указанные URL-ссылки в сети Интернет, скачивает с них данные, а затем извлекает из них нужную информацию, используя целый арсенал средств лингвистического, семантического и статистического анализа. Такие системы автоматически перехватывают любую поставленную на мониторинг информацию, как только она появится в доступном сегменте Сети.

При организации конкурентной разведки в сети Интернет широкое распространение получило использование направления науки, возникшего на стыке искусственного интеллекта, статистики и теории баз данных, как Knowledge Discovery (обнаружение знаний), использующего концепции Data Mining (добыча знаний в формализованных базах данных) и Text Mining (добыча знаний в неструктурированных текстах). Уникальными особенностями концепции и технологий Data и Text Mining, является то, что с их помощью можно добывать из «сырых» данных ранее неизвестные, неочевидные, полезные на практике и доступные для интерпретации знания, необходимые для принятия решений в различных сферах деятельности. Одним из первых рассекреченных подобных комплексов стала французская система «TAIGA» (Traitement Automatique de l’Information Geopolitique d’Actualite – автоматическая система обработки актуальной геополитической информации) [Доронин, 2003]. Этот программный комплекс на протяжении 11 лет использовался в интересах французской разведки, после чего был заменен более современным, рассекречен и разрешен к коммерческому использованию. Новый более совершенный комплекс Noemic, поставленный на вооружение французской разведки, способен обрабатывать информацию со скоростью более 1 миллиарда знаков в секунду. Американский аналог этих программных комплексов Topic, что в переводе значит «Тема», также уже рассекречен и передан для коммерческого использования.

Аналогичные системы создавались в бывшем Советском Союзе. Достаточно вспомнить такие системы как «Барометр», «Эльбрус» и другие. Продолжается создание и использование таких систем в России и других странах постсоветского пространства.

На первый взгляд может показаться, что все перечисленные примеры – это системы, которые либо используются государственными структурами, либо слишком дороги, чтобы их могли использовать «среднестатистические» компании. На самом деле все не совсем так. На современном рынке представлен целый ряд, как западных коммерческих продуктов, так и продуктов производства стран бывшего СССР, способных в том или ином объеме выполнять подобные задачи в интересах конкурентной разведки коммерческих структур.

Конкурентная разведка в компьютерных сетях 2.1. Средства поиска информации в Интернете Для того, чтобы получить крупицы необходимой пользователю информации в Сети необходимо обработать огромные массивы сырых данных. Естественно, что для облегчения этой задачи нужны некие поисковые инструменты.

Поиск информации в сети Интернет без использования поисковых средств, только путем просмотра отдельных веб-сайтов, вопервых, носит выборочный и/или случайный характер (к тому же информация на отдельных сайтах может носить весьма субъективный или даже заказной характер), во-вторых, крайне не продуктивен – вряд ли можно обойти и просмотреть более сотни веб-сайтов за день непрерывной работы, даже если знать их адреса.

Все имеющиеся средства поиска информации в Интернете могут быть условно разделены на несколько подгрупп, а именно:

– средства поиска информации на отдельных сайтах;

– подборки ссылок;

– каталоги;

– поисковые системы;

– метапоисковые системы;

– системы мониторинга и контент-анализа;

– экстракторы объектов, событий и фактов;

– системы Knowledge Discovery, Data Mining, Text Mining;

– специализированные системы конкурентной разведки;

– интегрированные системы.

По своей сути каталоги, поисковые системы и метапоисковые системы являются веб-сайтами со специализированными базами данных, в которых хранится информация о других веб-ресурсах и документах, хранящихся на них. В результате запроса к таким системам выдается список адресов, а иногда и краткое описание документов (сниппеты), где может присутствовать запрашиваемая информация. Как правило, поиск может производиться только по ключевым словам и фразам. Активизируя на ссылку, найденную в результате запроса, пользователь попадает на оригинал документа, размещенного на некотором веб-сайте. Естественно, что если документ со временем изменился или веб-сайт прекратил свое существование, то и первоначально заиндексированный поисковой системой документ через некоторое время может быть не найден.

Основное отличие поисковых систем от каталогов – наличие автоматического «робота», постоянно сканирующего веб-пространство и накапливающего новую информацию в индексных файлах базы данных. В каталоги же информация заносится вручную – либо владельцами сайтов, либо обслуживающим персоналом самих каталогов. Пользование такими системами, как правило, бесплатное, это самые популярные поисковые инструменты в сети Интернет.

Метапоисковые системы являются поисковыми системами по поисковым системам. Так как отдельные поисковые системы различным образом индексируют хотя и обширные и часто пересекающиеся, но все-таки разные сегменты Сети, то, естественно, и результат поиска с помощью метапоисковой системы будет, априори, более полным, чем с помощью одной отдельно взятой поисковой системы. Считать это плюсом или минусом поисковой работы зависит от поставленных целей и количества найденных документов. Если в результате поиска найдены тысячи или миллионы документов, то «вручную» все равно вряд ли можно просмотреть свыше нескольких сотен.

Вторым поисковым преимуществом таких систем является то, что одним запросом обеспечивается поиск во многих поисковых системах, не требуя многочисленных повторений одного и того же запроса в разных поисковых системах.

Системы мониторинга и контент-анализа обеспечивают регулярный поиск и «скачивание» информации по заданным темам и с заданных сайтов, а также анализ содержания «скачанных» документов. Такие системы, как правило, обладают развитым языком запросов, что позволяет существенно детализировать и конкретизировать запросы по сравнению с обычными поисковыми системами. Во-вторых, такие системы хранят в своих базах данных полные тексты исходных документов, что обеспечивает сохранность этих документов во времени и возможность их обработки и контентанализа, как в текущем времени, так и в ретроспективе. Существенным преимуществом таких систем является также то, что сложные запросы, состоящие из десятков или сотен поисковых слов и выражений, однажды составленные аналитиком-знатоком предметной области, могут быть сохранены в виде каталогизированного запроса или рубрики и в дальнейшем вызываться автоматически или вручную из сохраненного списка для проведения поиска или контент-анализа.

С помощью контент-анализа такие системы позволяют устанавливать пересекающиеся связи между темами, понятиями и объектами, поставленными на мониторинг, выявлять эмоциональную окраску документов, проводить анализ динамики появления во времени тех или иных документов, проводить сравнительный анализ информационной активности по различным тематикам и многое другое.

Конкурентная разведка в компьютерных сетях Если мониторинговые системы как системы фильтрации могут выделять из информационного потока известные объекты, то экстракторы объектов, событий и фактов умеют выделять из потока информации объекты, неизвестные заранее, события или факты, которые лишь соответствуют определенному заранее типу, например, географические понятия, персоны, структуры и организации, события (дорожно-транспортные происшествия, катастрофы, международные встречи). При этом факты могут классифицироваться как обычные или необычные. Примером обычного факта в данном случае можно считать выезд автомобилей за черту города, а примером необычного факта – выезд за ту же городскую черту автомобиля без номерных знаков.

Системы типа Knowledge Discovery, технологии Data Mining и Text Mining, умеют выявлять новые знания и закономерности. Такая система, например, может самостоятельно, без участия человека, сделать вывод о факте знакомства между людьми, основываясь на имеющихся в системе данных об окончании ими одной и той же школы и одного итого же класса в одном и том же населенном пункте. Правда, сами правила, по которым такая система делает выводы, все-таки создаются и задаются пока что людьми.

Специализированные системы для конкурентной разведки могут включать в себя одно или несколько из перечисленных выше поисковых средств, специально «заточенных» под эти специфические задачи. Кроме того, потребности конкурентной разведки предполагают использование в качестве источников информации, кроме полнотекстовых документов, еще и доступных в сети Интернет баз данных (БД), собственных, принадлежащих компании, документов, таблиц и баз данных, а также формализованных и неформализованных документов и БД, добытых из других источников.

В странах Европейского союза (ЕС) обычный, ничем не выдающийся из общей массы человек зарегистрирован в более базах данных, таких как прописка (место жительства), страховка, водительские права, банки, кредитные бюро, информационные, рейтинговые, рекрутинговые агентства, бюро по трудоустройству, медицинские и полицейские учеты, супермаркеты, клубы, системы управления взаимоотношений с клиентами коммерческих фирм (так называемые CRM-системы) и т.п. В интересах конкурентной разведки и маркетинга анализируются не только рынки товаров и услуг, но и вкусы и предпочтения отдельных клиентов. Хранящаяся в различных базах данных информация о юридических лицах еще более обширна.

В целях конкурентной разведки необходимо анализировать данные из всех доступных источников информации, но, так как эти вопросы выходят за рамки данной работы, мы не будем касаться других источников информации кроме Интернета.

Под интегрированными средствами конкурентной разведки мы здесь понимаем интегрированную систему, включающую в себя не только все доступные поисковые средства, но также интегрированный банк выявленных (добытых) и логично правильно связанных между собой данных, информации и знаний.

С точки зрения создания информационно-аналитических систем такая система концептуально должна предполагать реализацию следующих трех принципов:

– единое информационное пространство взаимосвязанных объектов и фактов независимо от типа их источников или контента;

– сохранение связи объектов и фактов с релевантными данными и источниками информации (аргументированность);

– исторически-пространственная модель банка данных системы, что предполагает наличие у всех объектов учета атрибутов времени и места, а также невозможность их безвозвратного удаления из системы.

Справедливости ради следует отметить, что, согласно отчету Fuld’s Intellgense Software Report 2006, известных коммерческих версий полноценных интегрированных систем, позволяющих решать весь комплекс задач конкурентной разведки, пока не существует, по крайней мере на Западе.

Перефразируя девиз одной из самых популярных российских поисковых систем Яндекс «Найдется все!», можно сказать, что для конкурентной разведки «все» равнозначно ничего, если не хуже.

Поэтому правильным девизом для систем конкурентной разведки могли бы стать слова «Найдется только то, что нужно и ничего более!».

По словам российского эксперта в области конкурентной разведки А. Масаловича « … из 23 видов поисковых задач, интересующих аналитика спецслужб «Яндекс» удовлетворительно решает одну».

В этом легко убедиться, задав реальный, требуемый в рамках информационно-аналитической деятельности запрос любой из традиционных сетевых поисковых систем, будь-то Google, Яндекс, Bing. Поисковые системы отлично справляются с простыми однократными запросами. Когда же предметная область сложна или слишком широка (например – «политика», «экономика»), или, наоборот, предельно узка и отдалена во времени (например, услоКонкурентная разведка в компьютерных сетях вия бартерной сделки некоторых компаний пятилетней давности), а требуется обобщить все информационные темы и поводы по данной тематике, оценить их во временной динамике, найти взаимосвязи с другими объектами, составить целостную картину об интересующем объекте, выделить нестандартное событие из общего массива, то можно убедиться, что:

– выдача поисковых систем либо перегружена тысячами бесполезных ссылок, либо наоборот недостаточна;

– информация в сети Интернет не хранится долго, необходимую информацию, присутствующую на целевом сайте месяц назад, сегодня можно там не обнаружить;

– поисковая система не сохраняет просмотренные аналитиком ссылки и ему каждый раз приходиться начинать рутинную работу с нуля после вынужденного перерыва;

– поисковая система не всегда отличает действительно важную информацию от информационного шума;

– поисковая система не всегда способна обобщать или сравнивать информацию по смыслу или другим содержательным критериям;

– поисковые системы не охватывают некоторые веб-ресурсы или отдельные виды информации (например, информацию из баз данных), а некоторые веб-ресурсы, наоборот, всегда показываются на первых страницах выдачи, хотя их содержание не интересно авторам запросов;

– поисковые системы могут выполнять поиск информации только по непосредственно введенному запросу и не всегда могут повторять их автоматически в заданное время без участия пользователя;

Не всегда у пользователя есть возможность объединять результаты поиска разных сетевых поисковых систем – в этом случае страдает полнота полученной информации.

По оценкам экспертов [Кузнецов, 2006] большую часть критичной для бизнеса информации из сети Интернет невозможно найти с помощью традиционных информационно-поисковых систем. Точнее традиционные сетевые информационно-поисковые системы не в полной мере справляются с задачами конкурентной разведки. Поэтому разрабатываются специализированные информационно-поисковые системы, ориентированные на задачи сетевой аналитики, конкурентной разведки. Список таких общедоступных систем приведен по адресу (http://hrazvedka.ru/category/poisk_soft).

Приведем описание некоторых из них:

Website-Finder (www.softpedia.com/get/Internet/Search-enginetools-submiting/Website-Finder.shtml) – программа, которая дает возможность поиска веб-сайтов, плохо индексируемых поисковой системой Google. Для каждого ключевого слова ищется 30 вебсайтов. Программа проста в использовании, есть бесплатна версия.

Global Supplier Directory by Solusource (www.worldindustrialreporter.com/solusource) – веб-интерфейс для конкурентной разведки от компании Thomas. Позволяет найти информацию, имеющуюся в ретроспективных базах данных Thomas (охват – более 100 лет) по компаниям, продуктам и отраслям.

dtSearch (www.dtsearch.com) – поисковая программа, позволяющая обрабатывать терабайты текста, как на локальном диске, так и в сетевом окружении. Поддерживает статические и динамические данные. Позволяет искать во всех форматах MS Office.

Strategator (www.strategator.com) – программа, осуществляющая поиск, фильтрацию и агрегацию информации о компаниях из десятка тысяч веб-источников. Ищет по данным из США, Великобритании, стран Европейского союза.

InfoNgen (www.infongen.com) – агрегатор, охватывающий в режиме просмотра свыше 35 тысяч онлайновых источников, легко настраиваемый на уникальные темы. Объединяет мониторинг, фильтрацию и агрегацию информации по запросам конкретного пользователя. Предоставляет информацию на восьми языках, обеспечивает перевод на английский язык.

Visual.ly (visual.ly) – система поиска инфографики в вебпространстве.

Quixey (www.quixey.com) – англоязычная функциональная поисковая система, обеспечивающая вывод ссылок на программы, сервисы и расширения для браузеров, соответствующих запрашиваемой задаче.

Поиск mail.ru (go.mail.ru/realtime) – поиск в mail.ru по обсуждениям тем, событий, объектов, субъектов в режиме реального времени.

Weblib (weblib.in.ua) – экспериментальная, эффективно работающая метапоисковая система по документам, представленным в формате PDF.

Zanran (www.zanran.com/q) – поисковая система для данных, извлекаемых из PDF-файлов, таблиц Excel, веб-страниц в формате HTML.

CIRadar (www.ciradar.com/Competitive-Analysis.aspx) – коммерческая англоязычная система поиска информации для конкурентной разведки в «глубинном» веб. Реализована как веб-сервис.

Конкурентная разведка в компьютерных сетях Мультитендер (multitender.ru/tenders) – специализированная поисковая система по госзакупкам, тендерам и аукционам в Российской Федерации (РФ).

Public.Ru (public.ru) – интернет-библиотека СМИ, профессиональный анализ информации, архив СМИ с 1990 года (70 млн.

статей из 4600 источников).

РосГосЗатраты (www.rosspending.ru) – поисковая система, обеспечивающая мониторинг российских государственных контрактов на федеральном и региональном уровнях, имеется возможность поиска по ключевым словам, организациям, продуктам в базах данных госзаказчиков, поставщиков и контрактов.

Cluuz (cluuz.com) – поисковая система с расширенными возможностями для применения в конкурентной разведке, в том числе и на русском языке. Позволяет не только находить, но и визуализировать, устанавливать связи между людьми, компаниями, доменами, e-mail, адресами и т.п. (рис. 3).

Рис. 3 – Фрагмент страницы поиска системы Cluuz (cluuz.com) 2.2. Концепция глубинного анализа текстов Задача, которую необходимо постоянно решать при проведении конкурентной разведки – автоматическое извлечение понятий и фактов из формализованных массивов информации (таблиц, БД) и неструктурированных текстов, представленных в веб-пространстве, выявление глубинных связей между отдельными понятиями.

Для этого предполагается использование в системах конкурентной разведки технологий Knowledge discovery, концепции глубинного анализа данных и текстов (Data Mining, Text Mining).

Важная задача технологии Text Mining связана с извлечением из текста его характерных элементов или свойств, которые могут использоваться в качестве метаданных документа, ключевых слов, аннотаций. Другая важная задача заключается в отнесении документа к некоторым категориям из заданной заранее схемы классификации. Text Mining также обеспечивает новый уровень семантического поиска документов.

Согласно сложившейся в настоящее время методологии, к основным элементам Text Mining относятся [Ландэ и др., 2009]: классификация (Classification), кластеризация (Clustering), построение семантических сетей, извлечение фактов, понятий (Feature Extraction), реферирование (Summarization), ответы на запросы (Question Answering), тематическое индексирование (Thematic Indexing) и поиск по ключевым словам (Keyword Searching). Также в некоторых случаях этот набор дополняется средствами поддержки и создания таксономии (Taxonomies), тезаурусов (Thesauri) и онтологий (Ontology).

При классификации текстов используются статистические корреляции для создания правил размещения документов в определенные категории. Задача классификации – это классическая задача распознавания, где по некоторой контрольной выборке система относит новый объект к той или иной категории. Особенность же концепции Text Mining заключается в том, что количество объектов и их атрибутов могут быть очень большими – предусматривается применение интеллектуальных механизмов оптимизации процесса классификации.

Кластеризация базируется на признаках документов, применении лингвистических и математических методов без использования заданных заранее категорий. Результатом кластеризации может быть таксономия или визуальная карта, которая обеспечивает эффективный охват больших объемов данных. Кластеризация в Text Mining рассматривается как процесс выделения компактных подгрупп объектов с близкими свойствами. Средства кластеризации позволяют находить признаки и разделять объекты по подгруппам на базе этих признаков. Кластеризация, как правило, предшествует классификации, поскольку позволяет определить группы объектов.

При построении семантических сетей предполагается анализ связей между понятиями, экстрагируемыми из документов. Понятиям соответствует появление определенных дескрипторов (ключеКонкурентная разведка в компьютерных сетях вых фраз) в документах. Связи между понятиями могут устанавливаться в простейшем случае путем учета статистики их совместного упоминания в различных документах.

Извлечение или экстрагирование фактов (понятий) предназначено для получения некоторых фактов из текста с целью улучшения классификации, поиска, кластеризации и построения семантических сетей.

Автоматическое реферирование (Automatic Text Summarization) [Хан, 2000] – это составление кратких изложений материалов, аннотаций или дайджестов, т.е. извлечение наиболее важных сведений из одного или нескольких документов и генерация на их основе лаконичных, понятных и информационно наполненных отчетов.

На основе методов автоматического реферирования возможно формирование поисковых образов документов. По автоматически построенным аннотациям больших текстов – поисковым образам документов – может проводиться поиск, характеризуемый высокой точностью (естественно, за счет полноты). В некоторых случаях вместо поиска в полных текстах массива больших по размеру документов оказывается целесообразным поиск в массиве специально созданных аннотаций. Хотя поисковые образы документов часто оказываются образованиями, лишь отдаленно напоминающими исходный текст, не всегда воспринимаемый человеком, но за счет вхождения наиболее весомых ключевых слов и фраз, они помогают приводить к вполне адекватным результатам при проведении полнотекстового поиска.

Уникальными особенностями концепции и технологий Text Mining, является то, что с их помощью можно извлекать из «сырых» данных неочевидные, полезные на практике и доступные для интерпретации знания, необходимые для принятия решений в различных сферах деятельности, в том числе в области экономической конкуренции.

На современном рынке представлен целый ряд, как западных продуктов, так и систем производства постсоветских стран, способных в той или иной объеме осуществлять глубокий анализ текстов.

В последнее время все основные западные бренды, специализирующиеся на разработке информационных хранилищ и баз данных, корпоративных систем управления расширили свои линейки продуктов системами или модулями Text Mining. О наличии таких модулей заявляют SAP, Oracle, SAS, IBM и другие компании.

Процесс конкурентной разведки можно рассматривать как построение сети из исследуемых объектов и связей меду ними. РеСистемы и технологии конкурентной разведки зультаты должны представлять собой аналитическую информацию, которая может быть использована для принятия решений.

Аналитическая информация может быть представлена в виде наглядных схем – семантических сетей, дайджестов, наборов сюжетных линий, взаимосвязей ключевых понятий, компаний, лиц, технологий и т.п.

Задачи конкурентной разведки породили спрос на специальные информационные технологии, обеспечивающие возможность извлечения и обработки необходимой информации, что в свою очередь вызвало поток предложений систем со стороны разработчиков программного обеспечения.

Сегодня решать задачи конкурентной разведки на основе информации из сети Интернет помогают общедоступные и специальные программы и сервисы, например, в последнее время приобрели популярность так называемые «персонализированные разведпорталы», способные отбирать информацию по самым узким, специфическим вопросам и темам и предоставлять ее заказчикам.

В настоящее время декларированы технологии и системы «компьютерной конкурентной разведки», идея которых заключается в автоматизации и ускорении процессов извлечения необходимой для конкурентной борьбы информации из открытых источников и ее аналитической обработки.

При ведении конкурентной разведки находят все более широкое применение новые направления науки и технологий, получившие названия: «управления знаниями» (Knowledge Mana-gement) и «обнаружение знаний в базах данных» (Knowledge Discovery in Databases) или иначе, Data и Text Mining – «глубинный анализ данных или текстов».

Если системы управления знаниями реализуют идею сбора и накопления всей доступной информации, как из внутренних, так и из внешних источников, то Data и Text Mining, как уже было показано, позволяют выявлять неочевидные закономерности в данных или текстах – так называемые латентные (скрытые) знания. В целом эти технологии еще определяют как процесс обнаружения в «сырых» данных ранее неизвестных, но полезных знаний, необходимых для принятия решений. Системы этого класса позволяют осуществлять анализ больших массивов документов и формировать предметные указатели понятий и тем, освещенных в этих документах.

Характерная задача конкурентной разведки, обычно включаемая в системы Text Mining – это нахождение исключений, то есть поиск объектов, которые своими характеристиками сильно выделяются из общей массы.

Конкурентная разведка в компьютерных сетях Еще один класс важных задач, решаемых в рамках технологии Text Mining – это моделирование данных, ситуационный и сценарный анализ, а также прогноз [Ланде, Фурашев, 2012].

Для обработки и интерпретации результатов Text Mining большое значение имеет визуализация. Часто руководитель компании не всегда адекватно воспринимает предлагаемую ему аналитическую информацию, особенно если она не вполне совпадает с его пониманием ситуации. В связи с этим служба конкурентной разведки должна стремиться представлять информацию в виде, адаптированном к индивидуальному восприятию заказчика.

Визуализация обычно используется как средство представления контента всего массива документов, а также для реализации навигации по семантическим сетям при исследовании, как отдельных документов, так и их классов.

2.3. Мониторинг информационного пространства Современные методы контент-мониторинга – это адаптация концепции глубинного анализа текстов (Text Mining) и классических методов контент-анализа к условиям формирования и развития динамических информационных массивов, например, потоков информации в сети Интернет. Типовая задача контент-мониторинга – построение диаграмм динамики появления понятий (отражения событий) во времени. Рассмотрим, как в системе контентмониторинга InfoStream [Григорьев, 2007] отслеживаются публикации, относящиеся к российско-украинскому газовому кризису 2008–2009 годов. Для этого был составлен запрос «газов~криз & geo.UA», введенный через веб-интерфейс системы (рис. 4).

На этой диаграмме видно, что пик кризиса пришелся на середину января 2009 года и был связан с подписанием соответствующего договора в Кремле и реакцией на это Секретариата Президента Украины (рис. 5).

На примере рынка нефтепродуктов рассмотрим, как из массивов текстовой информации из сети Интернет могут быть выявлены документы, содержащие максимальное количество ценовой информации по данному рынку.

Для получения списка основных сюжетов, относящихся к рынку нефтепродуктов, был введен запрос «(нефтепродукт|бензин) & цены», который уточнялся специальными признаками «numb.medium|numb.large», означающие в системе InfoStream средний или высокий уровень присутствия в документах цифровой информации (рис. 6). После этого достаточно перейти в режим просмотра и проанализировать документы, ссылки на которые выданы системой (рис. 7).

Рис. 4 – Диаграмма динамики понятия во времени Рис. 5 – Основная сюжетная цепочка по запросу Конкурентная разведка в компьютерных сетях Рис. 6 – Фрагмент цепочки основных сюжетов 2.4. Определение взаимосвязей Важной задачей конкурентной разведки является выявление неочевидных закономерностей и связей из текстов веб-страниц и выявление их взаимосвязей, построение матриц и графов взаимосвязей.

Существующие доступные фактографические базы данных структурированной информации не всегда могут прийти на помощь исследователю-аналитику. Для оперативного определения фактов и сущностей, моделирования информационных связей между ними наиболее перспективным подходом оказывается учет информации, знаний, которые содержатся в неструктурированных текстовых документах, в частности, в Интернет.

Сегодня, когда практически у всех заинтересованных пользователей уже накоплен большой опыт работы с традиционными информационно-поисковыми системами, оказалось очевидным, что факты или понятия, которые ищутся с помощью таких систем, сами по себе зачастую бессмысленны. Например, если пользователя интересуют информационные связи Сбербанка России с другими банками или частными лицами, то он не знает, какие банки или фамилии ему указать в запросе, а все документы, содержащие словосочетание «Сбербанк России», указать физически невозможно. В таких случаях информационные связи, количество которых выходит за рамки статистического фона, как правило, отражают реальность.

Интерпретируют обычно не сами понятия или факты, а взаимосвязи между ними. Важным оказывается не столько исследование самих понятий, сколько исследование их взаимосвязи. Известно, что именно взаимосвязь способствует пониманию мотивационно-целевых особенностей, то есть пользователя интересует не понятие само по себе, а понятие в окружении, чтобы сразу иметь представление о предметной области, при необходимости направить уточняющий поиск в нужном направлении. Элементы такого подхода можно видеть, например, в «облаках» системы Quintura (www.quintura.ru), но там отображаются не понятия/сущности, а наиболее часто используемые слова. Подобные решения, реализованные в виде «информационных портретов», содержащих опорные слова, используются в таких системах, как «RCO Zoom»

(www.rco.ru), на веб-сайте интегратора новостей Webground (webground.su).

База данных практически любой традиционной информационно-поисковой системы может рассматриваться в виде графа, вершинами которого выступают объекты – термы, понятия, дескрипторы и др., а ребрами – их связи. Вместе с тем, основа поиска в этих случаях – поиск вершин, то есть поиск объектов. Поиск по взаимосвязям, ребрам, кажется на первый взгляд менее эффективКонкурентная разведка в компьютерных сетях ным. Действительно, если предположить, что в графе N вершин, то число ребер теоретически может составлять N(N – 1)/2, то есть, если предположить, что вершин всего 100 тыс., то ребер может оказаться около 5 млрд., что соответствует достаточно большой базе данных даже по современным понятиям. Вместе с тем, если в качестве вершин графа использовать такие понятия, как имена людей и названия компаний из новостных документов, то оказывается, что соответствующая матрица инцидентности оказывается очень разреженной. Измерения показали, что при количестве отдельных понятий, извлеченных из 5 млн. новостных документов, равном примерно N = 1,5 млн., количество связей составило всего лишь v = = 4 млн.

Кроме того, как показали эксперименты, распределение степеней вершин (степень вершины – количество исходящих из нее ребер) в подобных графах – степенное, что свидетельствует о, так называемой, безмасштабности, то есть о том, что многие характеристики (в частности, соотношение количества вершин и ребер), должно оставаться на одном уровне. Поэтому в качестве основы построения базы данных связей оказывается технически возможным использование ребер рассматриваемого графа – связей между отдельными понятиями.

В качестве массивов документальной информации для такой системы могут использоваться данные, поступающие от систем контент-мониторинга, таких как InfoStream, Webscan или «Яндекс.Новости» а также результаты мониторинга специализированных веб-служб, таких как базы данных биографий людей (например, peoples.ru, file.liga.net/person, openua.net), организаций (например, www.yellowpages.kiev.ua, ypag.ru, baza.kompass.ua), служб трудоустройства и т.п.

Информационные взаимосвязи между понятиями выявляются путем обработки документальных массивов и, могут храниться в специальной базе данных. Набор понятий, используемый при построении базы данных связей, формируется путем экстрагирования данных из доступного пользователю текстового массива, что придает системе целостность.

В корпоративной информационной инфраструктуре база данных связей может использоваться различным образом, например, отдельно, либо ее возможности могут быть дополнены возможностями существующих полнотекстовых и/или фактографических баз данных (рис. 8). При этом основным результатом работы является построение так называемых «карт связей», а в качестве побочного эффекта, реализующего «режим доказательства», может рассматриваться извлечение самих документов как источников связей.

При проектировании баз данных связей используются перспективные решения в области создания информационно-аналитических систем, в частности, теория и технологии глубинного анализа тестов – Text Mining, в том числе методы экстрагирования информации (Information Extraction), технологии баз данных сверхбольших объемов (Big Data), концепция «сложных сетей»

(Complex Networks).

В рамках теории сложных сетей изучаются характеристики, связанные с топологией сетей, но и статистические феномены, распределение весов отдельных вершин (в качестве которых можно рассматривать сущности, понятия, факты) и ребер, эффекты протекания и проводимости в сетях и т.п.

На рис. 9 схематически представлены возможные технологические этапы формирования базы данных связей [Ландэ, Брайчевский, 2010].

Конкурентная разведка в компьютерных сетях С помощью программы-робота осуществляется сканирование выбранных веб-ресурсов, содержащих информацию, относящуюся к объектам исследований.

После этого осуществляется экстрагирование необходимых пользователям понятий, например, наименований брендов, компаний, электронных адресов и т.п.

Рис. 9 – Схема формирования базы данных связей Отобранные понятия и соответствующие отношения между ними загружаются в базу данных связей, которая также содержит ссылки на документы-первоисточники. Средства экстрагирования понятий, как правило, ориентированы на обработку документов, сканируемых из сети Интернет, представленных на различных языках.

Предложенный подход к поиску, естественно, влечет за собой некоторые особенности в реализации архитектуры базы данных связей понятий. Кроме того, архитектура базы данных связей должна быть ориентирована на такие возможные применения, как выявление неявных связей (не выявленных явно комплексом экстрагирования понятий), поиск отдельных объектов, а также взаимосвязь с существующими фактографическими базами данных.

Можно назвать несколько систем, в которых частично реализован данный подход:

– PolyAnalyst (www.megaputer.ru) – позволяет решать проблемы прогнозирования, классификации, группирования объектов, проводить анализ связей, многомерный анализ и интерактивное создание отчетов. Система PolyAnalyst (и ее компонента – система TextAnalyst) обеспечивает лингвистический и семантический анализ текста, выявление сущности, визуализацию связей, систематизацию документов, резюмирование и обработку запросов на естественном языке;

– Businessobjects Text Analysis (www.businessobjects. com/ product/catalog/text_analysis/features.asp) – программа, позволяющая извлекать информацию о 35-типах объектов и событий, включая людей, географические названия (топонимы), компании, даты, денежные суммы, email-адреса и выявлять связи между ними;

– Attensity suite (www.attensity.com) – технология извлечения информации из неструктурированных текстов. Она позволяет выявлять информацию, содержащуюся в неструктурированном тексте и превращать ее в структурированные данные, имеющие связи, которые могут быть проанализированы.

Вариант такой системы в настоящее время реализован и используется в качестве компоненты системы конкурентной разведки X-SCIF украинской компании «Информационная корпоративная служба», которая позволяет пользователю в онлайн-режиме получать карты связей для выбранных объектов и помогает интерпретировать результаты. Предусматривается, что пользователь вводит в качестве запроса объект. Запрос направляется к базе данных связей, откуда выбираются соответствующие ему фрагменты – карты связей (уровень детализации и временная ретроспектива должны указываться параметрически).

После выявления релевантных объектов и связей выполняются процедуры их автоматической группировки (кластеризации) и визуализации, результаты предъявляются пользователю в виде карт связей, которые представляются в виде динамических (чаще всего, Java-диаграмм) графов связей.

В частности, в системе конкурентной разведки X-SCIF граф связей строится с помощью апплетов Java и представляет собой графический объект, который содержит в своем составе узлы и ребра.

Каждый элемент графа связей имеет контекстное меню, которое является дополнительным элементом управления в интерфейсе пользователя (рис. 10).

Конкурентная разведка в компьютерных сетях Объекты, которые имеют большее количество связей, изображаются с помощью большего шрифта. Ребра, соответствующие большему количеству связей, изображаются более темными линиями. Построенная сеть имеет собственные средства управления:

изменение масштаба (с помощью меню «масштаб» или полосы прокрутки в верхней части экрана); перемещение всего графа; перемещение объекта; изменение конфигурации; подсветка связей выбранного узла и т.п.

Рис. 10 – Граф информационных связей понятия «Сбербанк России»

На рис. 10 приведен пример использования базы данных связей, случай, когда пользователя интересуют информационные связи Сбербанка России. Разумеется, для запроса «Сбербанк России»

может быть выявлено множество различных связей, но при этом существует простой и надежный критерий ранжирования результатов, состоящий в отсечении статистического фона. В рассматриваемом случае, задав соответствующий запрос можно получить граф наиболее связанных со Сбербанком России объектов (персон и компаний). И если нахождение фамилий руководителей банка (председателя правления, первого заместителя председателя правления и руководителя дочернего банка) является достаточно очевидным результатом, то связи между отдельными банками позвоСистемы и технологии конкурентной разведки лили выявить (после обращения к документам-первоисточникам) неочевидные на первый взгляд факты, например, то, что УкрСиббанк и УкрСоцбанк являются банками-партнерами.

Представленный подход может рассматриваться как основа построения так называемых «вертикальных» (предметно-ориентированных) информационно-поисковых систем, в которых изначально решены вопросы оперативности, отсеивания информационного шума. Рассматриваемая реализация имеет свойство масштабирования по трем параметрам: объему баз данных, составу понятий, которые используются, и по инфраструктурному окружению.

Анализируя связи в сети, можно определить многие неочевидные свойства, например, выявить наличие кластеров, определить их состав, различия в связности внутри и между кластерами, идентифицировать ключевые элементы, которые связывают кластеры между собой и т.п. Серьезным препятствием при анализе является неполнота информации о связях между отдельными узлами сети.

Вместе с тем сегодня уже существуют алгоритмы, с помощью которых становится возможным с высокой вероятностью восстановить отсутствующие фрагменты связей. Даже не имея полного описания информационной сети, можно получать репрезентативную выборку «реальных» связей и по ней достроить всю сеть. Представленный подход реализует связующее звено между полнотекстовыми и фактографическими базами данных.

2.5. Технологии конкурентной разведки Система конкурентной разведки должна позволять руководству, аналитическому, маркетинговому отделам компании не только оперативно реагировать на изменения ситуации на рынках, но и оценивать риски и возможности, прогнозировать их и принимать решения о дальнейших путях развития, обеспечить переход от традиционного интуитивного принятия решений на основе недостаточной информации к управлению, основанному на достоверных прогнозах и знаниях.

Одним из основных общих требований к системе конкурентной разведки должно быть соответствие цикла обработки информации в такой системе классическому информационному разведывательному циклу. Т.е. система должна самостоятельно или с участием оператора обеспечивать:

– выбор тематики и направлений разведки (целеуказание);

– выбор источников информации (веб-сайты, блоги, форумы и т.д.);

Конкурентная разведка в компьютерных сетях – автоматический поиск и скачивание информации по заданным направлениям мониторинга и указанным источникам по запланированному расписанию (планирование и сбор данных);

– обработку собранных данных и превращение их в информацию;

– контент анализ и синтез информации – превращение ее в знания;

– своевременную доставку информации к конечным потребителям.

Так как в целях конкурентной разведки необходимо анализировать данные из всех доступных источников информации, в которых эта информация может быть представлена в различных видах и форматах, то крайне важным требованием к системе является обеспечение ею единого информационного пространства взаимосвязанных объектов и фактов независимо от типа их источников или контента. Два других требования касаются сохранения связи объектов и фактов с релевантными данными и источниками информации (аргументированность) и обеспечения историческипространственной модели банка данных системы, что предполагает наличие у всех объектов атрибутов времени, места и источника данных, а также невозможность их безвозвратного удаления из системы с течением времени.

Основными объектами учета и мониторинга в системах конкурентной разведки, как правило, являются:

– источники информации (официальные сайты, интернетиздания, персональные сайты организаций или лиц, Интернет представительства печатных СМИ, информагентств, теле- и радиоканалов, открытые базы данных, объекты учета и т.д.);

– географические регионы;

– рынки и направления бизнеса;

– структуры (предприятия, организации и т.д.);

– персоны (конкуренты, контрагенты, партнеры, сотрудники, кандидаты и т.д.);

– нормативно-законодательная база и факты ее нарушения;

– политико-экономическая ситуация;

– криминальная обстановка;

– другие специализированные индивидуальные тематики.

Безусловно, система конкурентной разведки, использующая Интернет как один из источников информации, должна настраиваться под специфику деятельности компании. Она должна включать в себя соответствующую классификацию, гибкие механизмы поиска, оперативной доставки данных, а также качественной оценСистемы и технологии конкурентной разведки ки информации. Одной из самых важных задач анализа информации является определение ее достоверности, т.е. задача анализа и фильтрации шума и ложной информации. Без таких оценок всегда есть риск принять неверные решения. После анализа достоверности информации должны следовать оценки ее точности и важности. Главным критерием достоверности данных на практике является подтверждение информации другими источниками, заслуживающими доверия.

Даже поверхностный анализ основных требований к системам конкурентной разведки в Сети, показывает, что традиционные поисковики в системе Интернет не могут считаться полноценными инструментами конкурентной разведки в Интернет.

Информационные системы конкурентной разведки можно также условно классифицировать по наличию в них модулей автоматического и экспертного извлечения фактов. Соотношение между автоматически извлекаемыми системой и вручную (с помощью экспертов) фактами, событиями, объектами учета в разных системах разное. Автоматически извлекаемые системой факты называют А-фактами, факты, извлекаемые экспертами, – Э-фактами [Киселев, 2005].

Существующие на рынке системы конкурентной разведки отличаются как по своей полноте и соответствию полному разведциклу, так и своему инструментарию и соответственно своей цене.

Кроме того, системы могут быть предназначены для использования в качестве инструментария исключительно собственными силами внутреннего подразделения конкурентной разведки предприятия, либо предполагать вынесение части задач на аутсорсинг специализированными структурами конкурентной разведки. Выбор систем, подходов и методик конкурентной разведки остается за потребителем, и в каждом случае индивидуален. Да это и понятно, нельзя же сравнивать потребности и выполняемые задачи аналитика спецслужбы и сотрудника, к примеру, маркетингового отдела малого предприятия.

В настоящее время в мире существует ряд систем, которые частично реализуют решения приведенных выше задач мониторинга субъектов, извлечения фактов, построения связей, однако некоторые из них не выдерживают критики по функциональности, некоторые имеют слишком высокую цену. Кратко остановимся на возможностях некоторых подобных систем, реализованных в настоящее время.

Система RCO (www.rco.ru) – основное назначение – выявление фактографической информации из неструктурированных текКонкурентная разведка в компьютерных сетях стов. Обладает широким спектром алгоритмов и технологий интеллектуальной обработки текстов, представленных на естественном языке. В частности, технологии RCO позволяют решать задачи выявления именованных объектов, связей и фактов из массивов неструктурированных данных. RCO Fact Extractor – это персональное приложение для Windows, которое предназначено для аналитической обработки текста на русском языке и выявления фактов, связанных с заданными объектами – лицами и организациями. Основная сфера применения программы – это задачи из области конкурентной разведки, требующие высокоточного поиска информации.

RCO Zoom (рис. 11) – поисково-аналитическая система с функциями контент-анализа в реальном времени и транзакционного хранилища документов. RCO Zoom обладает инструментарием для проведения эффективного оперативного поиска и аналитических исследований информации.

Рис. 11 – Фрагмент веб-сайта с описанием возможностей Система RCO Zoom позволяет работать с огромными массивами текстовой информации в реальном времени (объем базы – до сотен гигабайт, время поиска и обработки – секунды). Средство отображения – информационный портрет дает возможность полуСистемы и технологии конкурентной разведки чить ключевые слова, формулировать и проверять гипотезы, разделять объекты, выделять статистические инварианты в первом приближении.

«Медиалогия» (www.mlg.ru) – сервис, обеспечивающий онлайновый доступ к базе СМИ с возможностью производить самостоятельный мониторинг СМИ и экспресс-анализ полученных сообщений. С помощью «Медиалогии» можно осуществлять оперативный мониторинг СМИ компании, ее топ-менед-жеров, брендов, конкурентов и др. Возможности фильтров позволяют настроить мониторинг и оценивать тональность прессы, журналов, ТВ и интернет-изданий практически под любые информационные задачи.

PolyAnalyst (www.megaputer.ru) – основной продукт компании Megaputer Intelligence, который позволяет получить полезные знания из массивов текстовых и структурированных данных, передает эти знания в доступной форме и в виде оперативно применяемых моделей для поддержки принятия решений. Система PolyAnalyst охватывает весь традиционный цикл анализа данных, начиная с импорта и предварительной обработки, и заканчивая отчетами. Функциональность PolyAnalyst, в частности, включает возможности создания многоступенчатых сценариев анализа данных и формы отчетов посредством простого drag-and-drop интерфейса, формировать аналитические прогнозы, предоставлять клиентам результаты, полученные из прогнозов, в доступных для понимания формах.

RetrievalWare (www.verticalsearchworks.com) – система, обеспечивающая поиск, анализ и выявление информации с помощью задания пользователем поисковых запросов на естественном языке как к массивам информации, хранящихся в неструктурированном виде, так и в формализованных базах данных. В RetrievalWare реализована возможность выявления семантической связи для понятий, например, слова синонимы или антонимы, слова связанные отношениями «род-вид» и т.д. Данное свойство обеспечивает высокую точность выявления понятий и семантическое расширение запросов пользователей. В настоящее время компания Convera, известная как поставщик этого аналитического продукта, объединилась с Firstlight ERA, образовав специализирующуюся на семантическом поиске в веб-пространстве компанию Vertical Search Works.

Autonomy IDOL Server (www.autonomy.com) был создан в компании Autonomy (рис. 12), купленной недавно корпорацией Hewlett-Packard. Идеологическая основа Autonomy IDOL (Intelligent Data Operating Layer) — это Meaning-Based Computing (MBC), Конкурентная разведка в компьютерных сетях что переводится как «компьютерные системы, основанные на смысле». В Autonomy принята определенная иерархия технологий работы с текстами, где на нижнем уровне стоит простой поиск по ключевым словам, а верхний уровень занимают интеллектуальные технологии MBC. Autonomy IDOL включает в себя свыше 500 различных функций для извлечения смысла из текстов и более коннекторов к различным источникам данных, поддерживает работу со встроенными узлами Hadoop и СУБД Vertica. Для визуализации результатов используются как собственные средства пользовательского интерфейса, так и технологии компаний QlikView или Tableau.

Рис. 12 – Фрагмент веб-ресурса Autonomy IDOL Endeca Latitude (docs.oracle.com/cd/E29220_01) – технология, реализующая концепцию Text Mining, приобретенная корпорацией Oracle. Ядром технологии Endeca Latitude является MDEX Engine – гибридная аналитическо-поисковая система управления базами данных (СУБД), для которой характерна высокая масштабируемость. С помощью СУБД Oracle Essbase входные данные проходят предварительную обработку и агрегируются, а MDEX нацелена на поиск и обнаружение знаний и является гибридом поискоСистемы и технологии конкурентной разведки вой и аналитической СУБД, рассчитанной на работу с динамическими данными. Принципиальное отличие MDEX от обычных СУБД состоит в приближении хранящихся в ней записей к реальностям окружающего мира. Таким образом, Endeca сфокусирована на раскрытии содержимого данных (Data Discovery) в противоположность традиционному анализу.

Vivisimo (www-01.ibm.com/software/data/information-optimization) – технология, включающая три взаимосвязанных продукта, объединенных в платформу IBM InfoSphere Data Explorer (ранее известную как Velocity Platform): Search Engine – многофункциональная поисковая система, роботы которой способны собирать и обрабатывать файлы различных типов (HTML, TXT, RTF, PDF, MS Word, Excel, PowerPoint, WordPerfect и т.д.), а также извлекать информацию из реляционных СУБД; Clustering Mashine – машина кластеризации, группирующая результаты работы поисковых машин в Google, Autonomy, FAST и Ultraseek, а также тексты в различных форматах; Content Integrator – интегратор, обеспечивающий объединение результатов поиска (федерализацию), умеющий работать с метаданными.

Attensity suite (www.attensity.com) – технология выявления понятий, фактографической информации из неструктурированных текстов. Технология Attensity suite позволяет выявлять информацию, скрытую в неструктурированном тексте, и переводить ее в структурированные данные, имеющие связи, которые могут быть проанализированы теми же методами, что и другие виды структурированных данных. В настоящее время технология ориентирована на обработку так называемых «больших данных» (Big Data) и информации из социальных сетей.

Statistica Text Miner (www.sas.com/text-analytics/ text-miner) – расширение известной программы Statistica Data Miner, предназначенное для перевода неструктурированных текстов в информацию, пригодную для принятия решений. Кроме того, система Statistica Text Miner позволяет устанавливать принадлежность документов к той или иной смысловой категории, идентифицировать группы сходных по смыслу документов, устанавливать связи между полученными характеристиками документов и другими индикаторами и т. д. Программное обеспечение для Text Mining полностью интегрируемо с любым другим программным обеспечением, принадлежащим линии продуктов Statistica.

Rocket AeroText (www.rocketsoftware.com/products/rocketaerotext) – программа, позволяющая выявлять элементы информации, такие как сущность (Entities), взаимные связи (RelationКонкурентная разведка в компьютерных сетях ships) и события (Events), в неструктурированных текстах, а также выявлять неявные взаимосвязи и события в текстах.

В последнее время все основные западные бренды, специализирующиеся на разработке хранилищ и баз данных, корпоративных системах управления, расширили свои линейки продуктов модулями Business Intelligence (BI) или, дословном переводе – деловой разведки. О наличии таких модулей заявляют Oracle, SAS, SAP, IBM и другие бренды.

По заказу группы аналитиков Гарвардского университета российские разработчики из «Инфорус» создали информационно-аналитическую систему (ИАС) Avalanche (www.tora-centre.ru/avl3.

htm), предназначенную для мониторинга изменений, происходящих в Интернете. Она собирает информацию с веб-страниц по заданному алгоритму и складывает эту информацию в собственную базу данных.

Технология Avalanche базируется на трех компонентах: автономном интеллектуальном поисковом роботе, создании «умных»

папок и встроенной базе данных, позволяющей преобразовать их в «персональную энциклопедию». При работе с ИАС Avalanche формируется модель, требуемой пользователю области в виде набора «умных папок», каждая из которых «знает», что должно в нее попадать, и обеспечивает отсутствие дублирования. Наполнением «умных» папок занимается специализированный поисковый робот, который запускается с компьютера в соответствии с установленными, требуемыми пользователю настройками. Робот может запускаться и автоматически в определенное установленное для него время. В Avalanche предусмотрены «тонкие» настройки, которые позволяют производить более детальный мониторинг.

Информационно-аналитическая система «Семантический архив» (www.anbr.ru/products/semarchive) представляет собой инструмент для создания интегрированного хранилища информации с возможностью хранения досье на объекты мониторинга, происходящие события, а также текстовые документы.

Гибко настраиваемая онтологическая модель данных позволяет работать с разными тематиками и сферами деятельности. ИАС «Семантический архив» позволяет хранить информацию, импортированную из различных реляционных баз данных, вводить информацию из любых других источников: Интернет, СМИ, базы данных, онлайн библиотеки и системы (Спарк, Интегрум и др.), любой документ, собственные сведения экспертов.

Созданное хранилище служит аналитикам для поиска информации, добавления конфиденциальных собственных данных, выСистемы и технологии конкурентной разведки явления взаимосвязи между объектами и событиями, получения аналитических отчетов, визуализации: схем, графиков и карт.

«Семантический архив» имеет модульную структуру, что позволяет легко подобрать и настроить нужную конфигурацию системы.

Российская система управления досье XFiles предназначена для решения задачи выделения достоверных фактов из различных источников, заполнения ими досье на объекты мониторинга и их последующей аналитической обработки. Она используется для обеспечения процессов принятия решений при наличии большого объема «сырого» контента, что характерно для деятельности органов государственной власти, правоохранительных органов, крупных коммерческих компаний.

Система XFiles предполагает реализацию трех принципов:

1) единое информационное пространство взаимосвязанных фактов или гипотез независимо от типа их контента (содержимого источников информации);

2) связь фактов или гипотез с релевантными источниками информации (аргументированность фактов и гипотез);

3) исторически-пространственная информационная модель базы данных фактов и гипотез. Это означает наличие атрибутов времени и места для каждого факта, а также невозможность их безвозвратного удаления из системы.

Система XFiles применяется и как аналитический инструмент, и как система поддержки корпоративной безопасности подразделений, занимающихся бизнес-разведкой. Система позволяет извлекать факты из сети Интернет, корпоративных источников документов, из учетных баз данных и других. Система Xfiles имеет вебинтерфейс для работы пользователей. В Xfiles реализована семантическая сеть, отражающая лишь взаимосвязи между объектами. В системе отсутствует направление мониторинга СМИ, интернетроботов и др. Базируется на средствах портала управления знаниями Hummingbird.

Среди самых развитых порталов управления знаниями, применяемых для решения задач конкурентной разведки, нельзя не назвать систему Hummingbird Enterprise канадской компании Hummingbird (www.hummingbirdenterprisegroup.com). Среди множества компонент системы можно выделить Hum-mingbird Portal – платформу, позволяющую интегрировать информацию из информационного хранилища и приложения в едином веб-интерфейсе.

Эта платформа является полнофункциональным порталом знаний.

Конкурентная разведка в компьютерных сетях Основной особенностью системы i2 Analyst Notebook корпорации IBM (www-01.ibm.com/software/industry/i2software/support.html) является возможность визуального проектирования структуры данных для хранения данных о различных персонах и организациях.

В базе данных предусматривается возможность хранения определенных событий, происходящих с ними и имеющиеся взаимосвязи. Система i2 Analyst’s Notebook позволяет быстро и эффективно проводить анализ системы взаимосвязанных объектов и динамики последовательных событий, отображая результаты исследования в виде удобных для понимания схем и диаграмм.

Информация отображается на диаграмме в виде объектов, к которым при необходимости можно добавить дополнительные атрибуты и карточки данных с комментариями. Объекты на диаграмме могут представляться не только в виде пиктограмм, но и в виде фотографий, файлов, аудиозаписей, видеозаписей и т.д.

Программа позволяет создавать диаграммы с помощью запросов к реляционным базам данных, а также импорта данных из внешних файлов. При помощи имеющихся в Analyst’s Notebook функций можно объединять элементы диаграмм, искать существующие между ними связи, использовать систему поиска элементов, прослеживать «путь», объединяющий объекты, и т.п.

Analyst’s Notebook снабжен редактором, позволяющим в графической форме сформулировать запрос для поиска объектов и выявления их связей, создавать шаблоны интересующих событий.

Analyst’s Notebook предоставляет целый ряд удобных форматов визуализации, каждый из которых по-своему проясняет смысл информации и демонстрирует связи между объектами.

Систему Analyst’s Notebook можно интегрировать в уже работающие у пользователя приложения.

Система Analyst’s Notebook обеспечивает:

– поиск общих элементов и взаимосвязей, скрытых в данных;

– простоту интерпретации сложной информации;

– графическое отображение результатов;

– создание динамичных диаграмм;

– распространение диаграмм в печатном и электронном виде.

Говоря о западных продуктах, лидирующих в области Business Intelligence, следует отметить, что под этим термином, как правило, понимается набор инструментальных средств анализа статистических цифровых данных и других корпоративных отчетов и их визуализации, в отличие от Competitive Intelligence (конкурентной разведки), которая является гораздо более широким направлением информационной деятельности.

На российском рынке, кроме упомянутых выше, в сегменте инструментальных средств конкурентной разведки в Интернет, представлено довольно много подобных систем. Перечислим только наиболее известные из них. К российским системам, заслуживающим внимания, можно отнести такие информационно-аналитические системы, как «Интегрум», «Аналитический курьер», «Астарта», «информационно-программные комплексы Intellectum.BIS, «Арион», Х-files, Cronos, CronosPlus, T2 BANC и др.

На украинском рынке в этом сегменте представлены такие системы, как «Сфера», X-SCIF, «Энциклопедия деловой информации», «ICEBERG», «Пиранья», «Страбис» и др.

Хотелось бы отметить, что далеко не все из названных систем имеют полный функционал и соответствующие модули, обеспечивающие выполнение всего спектра задач конкурентной разведки.

В качестве одной из наиболее полнофункциональных отечественных систем, обработка информации в которой соответствует классическому информационному разведывательному циклу, можно назвать систему X-SCIF.

Рассмотрим, как реализуются этапы разведцикла с помощью данной системы, для чего остановимся на описании возможностей системы X-SCIF чуть подробней.

Онлайновая инструментальная корпоративная система мониторинга, агрегации и анализа информации X-SCIF (далее – ИКС XSCIF) представляет собой программно-технический комплекс, предназначенный для решения задач автоматизированного сбора, обработки, создания интегрированного банка данных и анализа разнообразной информации.

Система обеспечивает:

– мониторинг информации с заданных пользователем веб-сайтов (веб-страниц) в сети Интернет (Интранет) по заданным темам;

– поиск новых источников информации в сети Интернет по заданным пользователем тематикам и их последующую постановку на мониторинг;



Pages:     || 2 | 3 | 4 | 5 |


Похожие работы:

«МИНИСТЕРСТВО КУЛЬТУРЫ САХАЛИНСКОЙ ОБЛАСТИ ГБУК САХАЛИНСКАя ОБЛАСТНАя УНИВЕРСАЛЬНАя НАУчНАя БИБЛИОТЕКА ОТдЕЛ КРАЕВЕдЕНИя КАЛЕНдАРЬ знаменательных и памятных дат по Сахалинской области на 2014 год Южно-Сахалинск 2013 ББК 92.5 (2Рос-4Сах) К 17 Календарь знаменательных и памятных дат по Сахалинской области на 2014 год / Сахалин. обл. универс. науч. б-ка, Отд. краеведения ; сост. Н. Н. Толстякова ; ред. Г. М. Нефёдова. – Южно-Сахалинск : ГУП Сахалинская областная типография, 2013. – 268 с. : ил....»

«Михаил Мальцев Руководитель Департамента туризма Самарской области Дорогие друзья! Приглашаем вас совершить путешествие по Самарской области – региону, где есть все необходимое для любителей самых разнообразных видов отдыха. Десятки фестивалей ждут поклонников самой разнообразной музыки, акватория Волги является идеальной площадкой для яхтсменов, серферов и любителей других видов водного спорта. Наш регион обладает всем необходимым для развития туризма. Поклонников неспешного пляжного отдыха...»

«МСФО в кармане 2009 Вступительное слово Представляем вам очередной выпуск брошюры МСФО в кармане, в который вошли изменения МСФО по состоянию на март 2009 года. Наша публикация охватывает материал, сделавший данное издание популярным во всем мире: общие сведения о структуре и проектах КМСФО; анализ применения МСФО в мире; краткое описание всех действующих стандартов и интерпретаций; последняя информация о проектах, разрабатываемых КМСФО и КИМСФО. Настоящее издание является незаменимым...»

«Suzuki Swift Модели 2WD&4WD с 2004 года выпуска с бензиновыми двигателями М13 (1,3 л DOHC) и М15 (1,5 л DOHC) Устройство, техническое обслуживание и ремонт Москва Легион-Автодата 2009 УДК 629.314.6 ББК 39.335.52 С 89 Сузуки Свифт. Модели 2WD&4WD с 2004 года выпуска с бензиновыми двигателями М13 (1,3 л DOHC) и М15 (1,5 л DOHC). Устройство, техническое обслуживание и ремонт. - М.: Легион-Автодата, 2009. - 408 с.: ил. ISBN 978-5-88850-394-2 (Код 3575) В руководстве дается пошаговое описание...»

«Ученье - свет, а неученье - тьма народная мудрость. Да будет Свет! - сказал Господь божественная мудрость NataHaus - Знание без границ: Скромное воплощение народной и божественной мудрости.:-) библиотека форум каталог Евтушенко В.Г. ЭНЦИКЛОПЕДИЯ ГИПНОТИЧЕСКИХТЕХНИК ББК88 УДК 159.9.072 Е 27 Евтушенко В.Г. Е 27 ЭНЦИКЛОПЕДИЯ ГИПНОТИЧЕСКИХТЕХНИК. - М.: Издательство Института психотерапии, 2005. - 400 с. В книге собраны многочисленные техники гипнотизирования, применявшиеся разными школами гипноза в...»

«WWW.ELREMONT.RU Форум Статьи по ремонту Вызвать мастера Ремонт холодильников Ищете руководство по ремонту холодильника? Ваше мороженое тает? Молоко прокисает? Течет вода из вашего холодильника? Вода капает на пол кухни? Ваш холодильник издает свист, трели, чириканье при включении, появилось жужжание или другие странные звуки? Не так холодно, как обычно? Ваш ледогенератор перестал работать? Нет необходимости вызывать дорогого мастера, а затем ждать несколько часов (или дней) чтобы аппарат...»

«MITSUBISHI PAJERO Модели 1991-2000 гг. выпуска с бензиновыми двигателями V6 6G72-SOHC 12 valve (3,0 л) 6G72-SOHC 24 valve (3,0 л) 6G74-DOHC 24 valve (3,5 л) 6G74-SOHC 24 valve (3,5 л) Устройство, техническое обслуживание и ремонт Москва Легион-Автодата 2012 УДК 629.314.6 ББК 39.335.52 М70 МИЦУБИСИ ПАДЖЕРО. Модели 1991-2000 гг. выпуска с бензиновыми двигателями V6. Устройство, техническое обслуживание и ремонт. - М.: Легион-Автодата, 2012.- 384 с.: ил. ISBN 5-88850-140-9 (Код 2064) В руководстве...»

«Форум пока без названия Форумы сайтов lugovsa.net => Семитология => Тема начата: alex от Август 09, 2004, 07:47:38 am Название: Правила форума Отправлено: alex от Август 09, 2004, 07:47:38 am Здравствуйте все, Не хочу писать много ненужных вещей, поэтому давайте договоримся сразу: 1. За нецензурщину 2. За офф-топик 3. За рекламу своих ресурсов (для этого есть другой раздел!) БУДУ БАНИТЬ СРАЗУ!!! В остальном Давайте говорить, друг другом наслаждаться SMF 2.0.7 | SMF © 2013, Simple Machines Форум...»

«Донецкий национальный технический университет №10 ИНСТИТУТ МЕЖДУНАРОДНОГО СОТРУДНИЧЕСТВА (178) 2013 г. Информационный бюллетень ВИЗИТ ПОСЛА НИГЕРИИ В ДОННТУ 22 октября ДонНТУ посетил Чрезвычайный и Полномочный Посол Федеративной Республики Нигерии в Украине господин Френк Нгози Иссох в сопровождении представителей посольства. В ходе визита состоялись встреча господина Посла с руководством института. Во время встречи ректор А.А.Минаев рассказал высокому гостю об университете, условиях обучения и...»

«в номере АкАдемик СкулАчев w w w.ek smo.ru АриАднА бориСовА издАтельСтво ЭкСмо — утверждАет: новый Автор в извеСтной победитель конкурСА Серии. душевное тепло продлить молодоСть — ревизор-2013 гАрАнтировАно возможно уже СейчАС 10 ок тябрь 2013 10 октябрь журна л распр ос траняется бесплатно АдреСА регионАльных СодержАние диСтрибуционных центров Новос ти изд ательс тва т орговый д ом ЭкСмо Фи ли А л ЭкСмо Ведущие проек ты изд ательс тва в роС т ове-н А-д он у 142701, Московская область, г....»

«№7 6 А Н Т Р О П О Л О Г И Ч Е С К И Й ФОРУМ В форуме Визуальная антропология приняли участие: Евгений Александров (Московский государственный университет им. М.В. Ломоносова) Андрей Головнёв (Институт истории и археологии УрО РАН, Екатеринбург) Андрей Горных (Европейский гуманитарный университет, Вильнюс, Литва) Виктор Круткин (Удмуртский государственный университет, Ижевск) Ирина Кулакова (Московский государственный университет им. М.В. Ломоносова) Яри Купиайнен (Jari Kupiainen) (Университет...»

«Информационный бюллетень: органическое сельское хозяйство в Центральной и Восточной Европе NO. 29 2011 АВГУСТ ГОДА Уважаемые читатели, Avalon Поддерживает устойчивое Мы рады представить вашему вниманию наш новый информационный бюллетень. развитие сельского Многое произошло со времени последнего выпуска. В этом выпуске мы хотели бы хозяйства на наиболее ознакомить Вас с самыми важными и интересными новостями. уязыимых территориях. Наверное, самая главная новость – это введённая Международной...»

«СТЕНОГРАММА круглого стола Комитета Государственной Думы по образованию на тему Вопросы здоровья в учреждениях профессионального образования: состояние и проблемы отрасли и законодательства Здание Государственной Думы. Зал 706. 7 июня 2012 года. 11 часов. Председательствует Гильмутдинов И.И. Дегтярёв А.Н. Добрый день, уважаемые коллеги, товарищи и друзья, соратники, все участники круглого стола! Комитет по образованию Государственной Думы Федерального Собрания Российской Федерации и подкомитет....»

«НАЦИОНАЛЬНЫЙ ИНФОРМАЦИОННО-АНАЛИТИЧЕСКИЙ ЦЕНТР ПО МОНИТОРИНГУ ИННОВАЦИОННОЙ ИНФРАСТРУКТУРЫ НАУЧНО - ТЕХНИЧЕСКОЙ ДЕЯТЕЛЬНОСТИ И РЕГИОНАЛЬНЫХ ИННОВАЦИОННЫХ СИСТЕМ ( НИАЦ МИИРИС ) www.miiris.ru ИННОВАЦИОННЫЙ ДАЙДЖЕСТ 814 февраля 2010 г. Москва | 2010 Содержание Вкратце Инфраструктура инновационной деятельности 4 Производственно-технологическая Экспертно-консалтинговая Информационная Финансовая Государственная инновационная политика Федеральный уровень Региональный уровень События Примеры новаций...»

«STARTUP BAZAAR UP AZZ S Проекты Сервисы звонков и SMS-сообщений 2 RoboGames Pro 22 для пользователей Интернета Индустрия игр, робототехника Веб-сервисы, мобильные приложения, Композит для ледяной дороги 24 социальные сети Новые материалы AppsGeyser.ru 4 Виртуальный мир “Счастливая 26 Мобильные приложения семья” - где счастливы дети и Разработка систем измерения 6 родители количества и параметров нефти Информационные технологии сырой ITM технология получения кислорода Приборостроение...»

«Список полезных русскоязычных ресурсов Интернет Особая благодарность за работу по составлению сборника: Абдрахманова Жулдыз, Асильбекова Анара, Бордашев Андрей, Ворохта Юрий, Дубиков Александр, Гуляев Павел, Ибрагимова Ирина, Иващенко Владимир, Кожабекова Сауле, Мартынихин Андрей, Муравьевская Юлия, Некрасов Алексей, Парсаданян Армен, Пучкина Наталья, Сегреева Галина, Чернокан Ион, Шевченко Сергей, Шумилова Ирина, Тяпухин Петр, Якимович Марина Содержание 7.17. ПЕДИАТРИЯ 1. МЕДИЦИНСКАЯ...»

«№ 15 8 А Н Т Р О П О Л О Г И Ч Е С К И Й ФОРУМ В форуме Исследования феномена родства приняли участие: Ольга Юрьевна Артемова (Институт этнологии и антропологии РАН / Российский государственный гуманитарный университет, Москва) Юлия Александровна Артемова (Российский государственный гуманитарный университет, Москва) Павел Людвигович Белков (Музей антропологии и этнографии (Кунсткамера) РАН, Санкт-Петербург) Алексей Алексеевич Бурыкин (Институт лингвистических исследований РАН, Санкт-Петербург)...»

«Общероссийская общественная организация медицинских сестер Ассоциация медицинских сестер России МАТЕРИАЛЫ ВСЕРОССЙСКОГО ФОРУМА МЕДИЦИНСКИХ СЕСТЕР 11–13 октября 2012 г.  Санкт-Петербург БУДУЩЕЕ ПРОФЕССИИ СОЗДАДИМ ВМЕСТЕ:  открытость, доступность, информированность Санкт-Петербург 2012 Материалы Всероссийского форума медицинских сестер Общероссийская общественная организация медицинских сестер Ассоциация медицинских сестер России Санкт-Петербург © РАМС, 2012 © Атика, 2012 Уважаемые коллеги,...»

«E-tools of the Aarhus Convention Урановые хвостохранилища в Центральной Азии: местные проблемы, региональные последствия, глобальное решение Результаты региональной электронной дискуссии Сети CARNet www.uranium.carnet.kg Женева 2009 Урановые хвостохранилища ЦА: примеры несанкционированного использования урановых хвостохранилищ местным населением (из опроса на форуме электронной дискуссии): 1. Большое по площади хвостохранилище в Сумсаре (недалеко от Шекофтара) используется местными жителями в...»

«ЛАБОРАТОРИЯ КАСПЕРСКОГО Антивирус Касперского 6.0 для Windows Servers Enterprise Edition РУКОВОДСТВО АДМИНИСТРАТОРА АНТИВИРУС КАСПЕРСКОГО 6.0 ДЛЯ WINDOWS SERVERS ENTERPRISE EDITION Руководство администратора ЗАО Лаборатория Касперского Тел., факс: +7 (495) 797-8700, +7 (495) 645-7939, +7 (495) 956-7000 http://www.kaspersky.ru/ Дата редакции: июль 2008 г. Содержание ГЛАВА 1. ВВЕДЕНИЕ 1.1. Общая информация об Антивирусе 1.1.1. Постоянная защита и проверка по требованию 1.1.2. Об угрозах, которые...»










 
2014 www.av.disus.ru - «Бесплатная электронная библиотека - Авторефераты, Диссертации, Монографии, Программы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.