«СИСТЕМЫ ПОИСКА И ОБРАБОТКИ ИНФОРМАЦИИ Министерство образования и науки Российской Федерации Федеральное агентство по образованию Федеральное государственное образовательное бюджетное учреждение высшего профессионального ...»
Отвечая на поставленные вопросы, следует подчеркнуть, защите подлежит не вся информация, а только та, которая представляет ценность для предпринимателя. При определении ценности предпринимательской информации необходимо руководствоваться такими критериями (свойствами), как качество информации.
Качество информации — это степень развитости свойств информации, определяющая её практическую пригодность для исследования с целью принятия решения. Качество информации зависит от следующих характеристик:
• Полезность (важность);
• своевременность;
Полезность (важность) информации состоит в том, что она создаёт субъекту выгодные условия для принятия оперативного решения и получения эффективного результата.
В свою очередь, полезность информации зависит от своевременного её доведения (получения) до субъекта предпринимательства. Например, из-за несвоевременного поступления полезных по своему содержанию сведений упускается возможность заключить выгодную торговую или иную сделку. Результат время упущено, информация теряет свою полезность.
Критерии полезности и своевременности тесно взаимосвязаны и взаимозависимы с критерием достоверности оцениваемой информации. Недостоверные сведения сводят к нулевому эффекту своевременность и кажущуюся их полезность для субъекта предпринимательства. При этом сам факт (например, желание конкретного лица заключить договор купли-продажи) может существовать реально, тогда как сведения о нём содержат искажённое представление. Причины возникновения недостоверных сведений различны: неправильное восприятие (в силу заблуждения, недостаточного опыта или профессиональных знаний) источника, факта или умышленное, с определённой целью, искажение о нем сведений. Как правило, сведения, представляющие интерес для предпринимателя, а также источник их поступления должны подвергаться перепроверке.
Полнота информации (необходимый и достаточный её объём) обеспечит получателю возможность быстро сделать необходимые и однозначные выводы.
В итоге, субъект оценки предпринимательской информации, её владелец (собственник), на основании совокупности перечисленных критериев, определяет ценность поступивших сведений для своей хозяйственной деятельности и принимает по ним оперативное решение.
Кстати, в зарубежной экономической литературе предпринимательская информация рассматривается не в качестве средства достижения положительного результата (прибыли), а, прежде всего, как условия, способствующего или препятствующего его наступлению. Особо подчеркивается наличие стоимостного фактора предпринимательской информации, т.е. возможность выступать в качестве предмета купли-продажи.
Желание творить напрочь отшибает желание работать 4. Защита информации 4.1. Правовая защита информации В настоящее время в цивилизованных странах защита ценной информации (интеллектуальной собственности) обеспечивается законодательно, что позволяет ею открыто пользоваться, если при этом не нарушаются статьи авторского или патентного права [8]. Особое место в условиях рыночной экономики и конкуренции между участниками рыночных отношений занимает закрытая информация. Она является весьма важным объектом интеллектуальной собственности, поскольку монопольное обладание этой информацией становится залогом успешной предпринимательской деятельности. История знает немало случаев, когда сохранение секретной информации было существенным преимуществом на рынке товаров и услуг (секрет дамасской стали, состав лака Страдивари…).
В современном российском законодательстве (ст. 1465, 4 часть ГК РФ) секретом производства («ноу-хау») признаются сведения любого характера (производственные, технические, экономические, организационные и другие), в том числе о результатах интеллектуальной деятельности в научно-технической сфере, а также сведения о способах осуществления профессиональной деятельности, которые имеют действительную или потенциальную коммерческую ценность в силу неизвестности их третьим лицам, к которым у третьих лиц нет свободного доступа на законном основании и в отношении которых обладателем таких сведений введен режим коммерческой тайны [50].
Виды объектов интеллектуальной деятельности (по их характеру и области применения) могут быть представлены четырьмя группами профессиональных секретов («ноу-хау»):
1. научно-технического характера;
2. управленческого характера;
3. коммерческого характера;
4. финансового характера.
Проблему отнесения каких-либо сведений к коммерческой тайне решает владелец или собственник информации.
К неправомерным способам получения и использования коммерческой тайны относят:
сбор информации, составляющей коммерческую тайну, посредством похищения документов, подкупа или угроз, дачи взятки;
введение в заблуждение, нарушение или подстрекательства (принуждения) к нарушению обязательств о соблюдении режима коммерческой тайны;
иной способ использования коммерческой тайны без согласия её обладателя на передачу её третьим лицам.
Информация, составляющая коммерческую тайну, будет считаться полученной незаконно, если её получение осуществлялось с умышленным преодолением принятых обладателем информации, составляющей коммерческую тайну, мер по охране конфиденциальности этой информации, а также, если получающее эту информацию лицо знало или имело достаточные основания полагать, что эта информация составляет коммерческую тайну, обладателем которой является другое лицо, и что осуществляющее передачу этой информации лицо не имеет на передачу этой информации законных оснований.
Нарушитель исключительного права на секрет производства, в том числе лицо, которое неправомерно получило сведения, составляющие секрет производства, и разгласило или использовало эти сведения, а также лицо, обязанное сохранять конфиденциальность секрета производства обязано возместить убытки, причиненные нарушением исключительного права на секрет производства, если иная ответственность не предусмотрена законом или договором с этим лицом.
В зависимости от характера нарушения и нарушителя ответственность может быть различная: дисциплинарная, гражданско-правовая и уголовная (ст. 183 УК РФ).
Крупный ущерб или нарушения, совершенные из корыстной заинтересованности, наказываются штрафом в размере до тысяч рублей, либо лишением свободы на срок до пяти лет.
4.2. Обеспечение безопасности и защиты информации [17] Безопасность информационной работы Информация играет особую роль в процессе развития цивилизации. Владение информационными ресурсами и рациональное их использование создают условия оптимального управления обществом. И напротив, искажение информации, блокирование её получения, использование недостоверных данных ведут к ошибочным решениям.
Одним из главных факторов, обеспечивающих эффективность в управлении различными сферами общественной жизни, является правильное использование информации различного характера. Темпы прогресса сегодняшнего, а тем более завтрашнего дня в значительной мере зависят от состояния дел в области информационно-вычислительного обслуживания важнейших сфер деятельности – науки, техники, производства и управления.
Особенно актуальна проблема использования экономической информации в сфере управления материальным производством, где рост информационного потока находится в квадратичной зависимости от промышленного потенциала страны. В свою очередь, быстрое развитие процессов автоматизации, использование компьютеров во всех сферах современной жизни, помимо несомненных преимуществ, повлекли появление ряда специфичных проблем. Одна из них – необходимость обеспечения эффективной защиты информации. Исходя из этого создание правовых норм, закрепляющих права и обязанности граждан, коллективов и государства на информацию, а также защита этой информации становятся важнейшим аспектом информационной политики государства. Защита информации, особенно в экономической сфере, – очень специфический и важный вид деятельности. Достаточно сказать, что в мире средняя величина ущерба от одной банковской кражи с применением электронных средств оценивается в тыс. долларов. Ежегодные потери от компьютерных преступлений в США и Западной Европе достигают 140 млрд. долларов. По мнению американских специалистов, снятие систем защиты информации с компьютерных сетей приведет к разорению 20% средних компаний в течение нескольких часов, 40% средних и 16% крупных компаний потерпят крах через несколько дней, 33% банков лопнут за 2-5 часов, 50% банков – через 2-3 дня.
Бурное развитие и распространение компьютерных систем и информационных сетей, обслуживающих банки и биржи, сопровождается ростом правонарушений, связанных с кражами и неправомочным доступом к данным, хранящимся в памяти компьютеров и передаваемым по линиям связи.
Компьютерные преступления происходят сегодня во всех странах мира и распространены во многих областях человеческой деятельности. Они характеризуются высокой скрытностью, сложностью сбора улик по установленным фактам их совершения и сложностью доказательства в суде подобных дел.
Совершают компьютерные преступления, как правило, высококвалифицированные системные и банковские программисты, специалисты в области телекоммуникационных систем. Нешуточную угрозу информационным ресурсам представляют хакеры и крэкеры, проникающие в компьютерные системы и сети путём взлома программного обеспечения защиты. Крэкеры, кроме того, могут стереть или изменить данные в информационном банке в соответствии со своими интересами.
Что же крадут хакеры? Потенциальным объектом может служить любая информация, заложенная в ЭВМ, проходящая по вычислительным сетям или находящаяся на носителях ЭВМ и способная принести прибыль хакеру или его работодателю. К данной информации относятся практически все сведения, составляющие коммерческую тайну фирм, начиная от разработок и ноу-хау и заканчивая платежными ведомостями, по которым легко «вычислить» оборот фирмы, количество сотрудников и т. д.
Особо ценной является информация по банковским сделкам и кредитам, проводимая по электронной почте, а также сделки на бирже. Большой интерес представляют для хакеров программные продукты, оценивающиеся на современном рынке в тысячи, а то и в миллионы долларов.
Крэкеры — «компьютерные террористы» — занимаются порчей программ или информации с помощью вирусов — специальных программ, обеспечивающих уничтожение информации или сбои в работе системы.
Таким образом, всевозрастающая опасность компьютерной преступности, прежде всего в финансово-кредитной сфере, определяет важность обеспечения безопасности автоматизированных информационных систем.
Информационная безопасность организации (учреждения).
Под безопасностью автоматизированной информационной системы организации (учреждения) понимается её защищённость от случайного или преднамеренного вмешательства в нормальный процесс функционирования, а также от попыток хищения, модификации или разрушения ее компонентов.
Компьютерная безопасность обеспечивается комплексом технологических и административных мер, применяемых в отношении аппаратных средств компьютера с целью обеспечения доступности, целостности и конфиденциальности связанных с ним ресурсов.
Безопасность данных достигается защитой данных от неавторизованных, случайных, умышленных или возникших по халатности модификаций, разрушений или разглашения.
Безопасное программное обеспечение представляет собой общецелевые и прикладные программы и средства, осуществляющие безопасную обработку данных в системе и безопасно использующие ресурсы системы.
Безопасность коммуникаций обеспечивается посредством аутентификации телекоммуникаций за счёт принятия мер по предотвращению предоставления неавторизованным лицам критичной информации, которая может быть выдана системой в ответ на телекоммуникационный запрос.
Элементы системы безопасности.
Типичны следующие виды безопасности:
• Внешняя (в ходе общения с посторонними);
• Внутренняя (при контактировании в своей среде и группе);
• Локальная (в различных ситуациях и действиях).
Внешняя безопасность Различные неприятности могут возникнуть при общении с обычными людьми и госструктурами, но многое здесь можно предвидеть и избежать, используя банальный принцип трех «не»: не раздражать, не связываться, не выделяться.
Необходимо:
• Не привлекать к себе излишнего внимания (тактика «растворения в среде»). Например, не следует проявлять избыточной осведомленности в чём-либо, если, конечно, этого не требует ваша роль («закон» о трех нет: «не знаю», «не слышал», «не понимаю»).
• Не порождать какой-либо неприязни в соседях и знакомых, а вызывать у них симпатию. Надо быть ровным и любезным со всеми окружающими и, по возможности, оказывать им мелкие (но не лакейские!) услуги.
• Тщательно контролировать все свои связи и контакты (помнить, что «опаснее всего тот враг, о коем не подозреваешь»). Например, внимательно относиться ко всем работникам ремонтных служб, рекламы и сервиса, просматривать их документы и вежливо, но обоснованно сверять их идентичность.
• Выяснить собственные уязвимости, свои слабости (хобби, вино, деньги, черты характера...) и помнить, что их всегда могут использовать против Внутренняя безопасность.
Контакты в собственной среде нельзя рассматривать как гарантированно безопасные. Всегда следует помнить, что наибольший вред случается от разглашения тайны и излишней доверчивости. К основным правилам внутренней безопасности следует отнести:
• Сохранение тайны личности: не следует, например, давать кому бы то ни было каких-либо интимных и прочих сведений о собственной персоне.
• Сохранение тайны дела: рассказывать о своей деятельности другим можно только в том случае, если это необходимо для общего дела; помнить, что тайна хранится максимум пятью людьми.
Локальная безопасность Лучшей гарантией успеха является обычно подстраховка, и потому любые действия желательно осуществлять с учётом всех возможных неприятностей со стороны противника или случайно подвернувшихся свидетелей.
Шеф гестапо Мюллер: «…то, что знают двое, знает и свинья!»
4.3. Сохранность информации. Особенности сохранности электронной информации Помимо проблемы хранения информации, связанной с возможностью её быстрого нахождения, сохранности от несанкционированного использования и передачи, коснёмся ещё одного момента. Он связан с возможностью утраты информации из-за небрежности при хранении, отказа технических средств, стихийных бедствий и других непредвиденных случаев.
Наиболее ценная документальная информация должна храниться в надёжном, хорошо защищённом от влаги и огня месте.
Практика показала, что должны создаваться резервные копии информации. Это особенно важно, когда информация записана на электронном носителе.
Важная, в том числе архивная информация не должна храниться только на одном компьютере, сбой в работе которого может привести к необратимым последствиям.
Создавая резервные копии на магнитных носителях, следует также учитывать продолжительность хранения копии. Как известно, магнитные записи под действием внешних магнитных и электрических полей размагничиваются, на них накладываются дополнительные шумы, а сам материал носителя (часто – это различные пластики) стареет и разрушается. Это приводит к полной потере важной информации. Чтобы предотвратить эти потери, резервные копии через определённое время хранения требуется возобновлять.
4.4. Методы и средства обеспечения информационной безопасности организации (фирмы) [17] Методами обеспечения защиты информации являются следующие: препятствие, управление доступом, маскировка, регламентация, принуждение и побуждение.
Препятствие — метод физического преграждения пути злоумышленнику к защищаемой информации (к аппаратуре, носителям информации и т. п.).
Управление доступом — метод защиты информации регулированием использования всех ресурсов автоматизированной информационной системы организации (фирмы). Управление доступом включает следующие функции защиты:
• идентификацию пользователей, персонала и ресурсов информационной системы (присвоение каждому объекту персонального идентификатора);
• аутентификацию (установление подлинности) объекта или субъекта по предъявленному им идентификатору;
• проверку полномочий (проверка соответствия дня недели, времени суток, запрашиваемых ресурсов и процедур установленному регламенту);
• разрешение и создание условий работы в пределах установленного регламента;
• регистрацию (протоколирование) обращений к защищаемым ресурсам;
• реагирование (сигнализация, отключение, задержка работ, отказ в запросе) при попытках несанкционированных действий.
Маскировка — метод защиты информации в автоматизированной информационной системе путем её криптографического закрытия.
Регламентация — метод защиты информации, создающий такие условия автоматизированной обработки, хранения и передачи информации, при которых возможность несанкционированного доступа к ней сводилась бы к минимуму.
Принуждение — такой метод защиты информации, при котором пользователи и персонал системы вынуждены соблюдать правила обработки, передачи и использования защищаемой информации под угрозой материальной, административной или уголовной ответственности.
Побуждение — такой метод защиты информации, который побуждает пользователей и персонал системы не нарушать установленные правила за счёт соблюдения сложившихся моральных и этических норм.
Указанные выше методы обеспечения информационной безопасности организации (фирмы) реализуются на практике применением различных механизмов защиты, для создания которых используются следующие основные средства: физические, программные, организационные, законодательные и другие.
Физические средства защиты предназначены для внешней охраны территории объектов, защиты компонентов автоматизированной информационной системы предприятия и реализуются в виде автономных устройств и систем.
Наряду с традиционными механическими системами при доминирующем участии человека разрабатываются и внедряются универсальные автоматизированные электронные системы физической защиты, предназначенные для охраны территорий, охраны помещений, организации пропускного режима, организации наблюдения; системы пожарной сигнализации; системы предотвращения хищения носителей.
Элементную базу таких систем составляют различные датчики, сигналы от которых обрабатываются микропроцессорами, электронные интеллектуальные ключи, устройства определения биометрических характеристик человека и т. д.
Для нейтрализации утечки информации по электромагнитным каналам используют экранирующие и поглощающие материалы и изделия.
Для обнаружения внедренных «жучков» наиболее эффективным считается рентгеновское обследование.
Программные средства защиты предназначены для выполнения логических и интеллектуальных функций защиты и включаются либо в состав программного обеспечения автоматизированной информационной системы, либо в состав средств, комплексов и систем аппаратуры контроля.
С помощью программных средств защиты решаются следующие задачи информационной безопасности:
• контроль загрузки и входа в систему с помощью персональных идентификаторов (имя, код, пароль и т. п.);
• разграничение и контроль доступа субъектов к ресурсам и компонентам системы, внешним ресурсам;
• изоляция программ процесса, выполняемого в интересах конкретного субъекта, от других субъектов (обеспечение работы каждого пользователя в индивидуальной среде);
• управление потоками конфиденциальной информации с целью предотвращения записи на носители данных несоответствующего уровня (грифа) секретности;
• защита информации от компьютерных вирусов;
• стирание остаточной конфиденциальной информации в разблокированных после выполнения запросов полях оперативной памяти компьютера;
• стирание остаточной конфиденциальной информации на магнитных и оптических дисках, флэш-картах, выдача протоколов о результатах стирания;
• обеспечение целостности информации путем введения избыточности • автоматический контроль над работой пользователей системы на базе результатов протоколирования и подготовка отчетов по данным записей в системном регистрационном журнале.
Следует отметить, что задачу контроля доступа при одновременном обеспечении целостности ресурсов надежно решает только шифрование информации.
Рекомендуемые по теме источники информации 1. В. А. Рыжов, А. В. Корниенко, Р. В. Рыжов. Управление знаниями: работа с информацией - от источников, поиска, сбора и анализа к представлению знаний: Учебный курс [Электронный ресурс]. Режим доступа:
http://vladimir.socio.msu.ru/1_KM/index.htm.
2. Кузнецов, И.Н. Информация: сбор, защита, анализ: Учебник по информационно-аналитической работе / И.Н. Кузнецов. – М.: ООО Изд. Яуза, 2001.
3. Федеральная служба по интеллектуальной собственности, патентам и товарным знакам [Электронный ресурс]. – Режим доступа:
http://www1.fips.ru.
Лекция № Тема «Организация сбора, хранения и передачи информации»
Вопросы 1. Проблема сбора, хранения и передачи информации 2. Классификация информации 3. Носители информации.
4. Классификация документальных источников информации.
5. Универсальный десятичный классификатор (УДК).
6. Библиотечно-библиографическая классификация для научных библиотек 7. Международный стандартный номер книги (ISBN).
8. Международная патентная классификация (МПК).
1. Проблема сбора, хранения и передачи информации [46] Возможности сбора, хранения и передачи информации взаимосвязаны.
Получить сохранить или передать информацию можно только такую, которую знаешь, где она находится, куда её положил владелец.
В настоящее время существует несколько систем хранения знаний, накопленных человечеством (см. ниже).
Так как хранение информации подразумевает возможность её передачи потребителю и получение за это соответствующего вознаграждения, владелец информации вынужден обеспечить в своём информационном архиве решение проблемы информационной навигации, т.е. способности ориентироваться в нём. Роль «компаса» и «карт», при помощи которых обычно осуществляется навигация в информационных массивах данных, в настоящее время играют так называемые таблицы индексов. В качестве таких индексов могут служить ключевые слова, заголовки текстов, названия отдельных файлов, папок и другие элементы. Получила распространение цифровая и буквенно-цифровая индексация информации.
Принцип индексирования и навигации по индексам лежит в основе технологий манипулирования данными, информацией, знаниями.
2. Классификация информации Как известно, всё возникает (рождается), живет и умирает. Это свойственно и информации.
Различают информацию долговременную и кратковременную.
Долговременная – информация фундаментального, стратегического плана.
Этот тип информации стареет, но через достаточно длительный промежуток времени. Примеры: научные знания в области математики, физики, технической механики, производства ряда изделий...
Долговременная информация позволяет принимать долгосрочные стратегические решения, опираясь на которые планируют основное вложение капитала, выбирают основное направление своей деятельности, как в науке, так и в бизнесе. Однако разумный человек (ученый, предприниматель, возможно, студент...) не ограничится одним направлением. Для страховки часть своих сил и средств он постарается вложить в другое направление (пусть, не главное).
Кратковременная информация – это информация тактическая или оперативная (текущая). Она стареет гораздо быстрее. Примеры: знания и достижения в области информационных технологий, компьютеров, электро- и радиотехники.
Кратковременная информация важна для принятия оперативных решений.
По полноте и степени проработки информация подразделяется на:
— общую (даёт общее обзорное представление об интересующей проблеме и участниках проводимой работы);
— конкретную (заполняет выявленные пробелы в данных или отвечает на определенные вопросы);
— косвенную (подтверждает или опровергает некие предположения, будучи состыкованной с последними только опосредованно);
— оценочную (объясняет события и даёт прогноз относительно их развития в будущем; это — оптимально обработанные данные).
3. Носители информации Носители информации классифицируются по следующим признакам:
• По принципам записи (знаковые системы – графические и буквенные;
электромагнитные; оптические; механические; комбинированные) • По видам (мысленные образы; рукописи; печать – книги, журналы, газеты;
пластинки, фото- и кинопленки; магнитные пленки, дискеты, CD и DVD – диски; компьютерные информационные системы).
• По месту хранения (в памяти людей, библиотеки, музеи, галереи, архивы, коллекции, фильмотеки, патентные и др. фонды).
Наиболее ценная информация может быть получена из следующих источников:
— компетентные люди, — документы (документальные источники) – отчёты, обзоры, статьи, книжные издания и др., — средства беспроводной и проводной связи (телефоны, телефаксы, радиостанции, телевизионные каналы), — электронные системы обработки информации (компьютеры, локальные компьютерные сети), — разные отслеживаемые факторы (поведение, разговоры, результаты действий) Выйдя на тот или иной источник информации, необходимо установить:
— его наличные и потенциальные возможности, — допустимые пределы использования, — степень его надёжности.
Наиболее часто приходится пользоваться документальными текстовыми, графическими, аудио-визуальными источниками информации. Часто эти виды информации сведены в системе библиотечных фондов, архивах, предприятиях и фирмах, выпускающих тот или иной вид продукции, оказывающих разного рода услуги. Для того, чтобы сузить объём поиска и уменьшить затраты времени на него, разработано множество способов сбора информации, среди которых важную роль играет классификации источников информации.
4. Классификация документальных источников информации Классификация необходима для того, чтобы распределить всю информацию (даже на этапе её создания) по определенным критериям – по «полкам».
Зная принципы такого распределения, всегда можно обратиться к нужному документу, найти аналогичные ему документы по типу и содержанию затронутых тем.
Во многих случаях для этого применяется каталожный принцип классификации. По такому принципу, например, классифицируется художественная и техническая литература, произведения искусства, как музыкальные, так и художественные, ГОСТы, изобретения и другие.
Сущность каталожного принципа классификации заключается в формировании дерева каталога.
Слова - это посредники между мыслями разных людей (NN).
Никто тебя не слушает, пока не ошибёшься (NN).
Структура дерева каталога:
[Раздел]i [Класс]j [Подкласс]k [Группа]y [Подгруппа]x i, j, k, y, x – количественные значения элементов.
При необходимости глубину классификации можно увеличить, вводя новые элементы.
Количество элементов каждого уровня также может быть изменено.
Находит применение буквенное или цифровое обозначение элементов каждого уровня. Например, латинскими буквами и цифрами обозначают элементы Международной патентной классификации изобретений (МПК).
В соответствие с принятыми согласованными обозначениями легко найти нужную информацию по искомой теме.
Существует порядок, что при подготовке любой продукции к изданию сразу присваивается код.
5. Универсальный десятичный классификатор (УДК) [15] УДК нашёл широкое применение для классификации разного рода печатной продукции: книг, журналов... В соответствии с этой классификационной системой каждое издание имеет цифровой код, включающий область знаний, которую оно освещает, а также более узкие разделы и подразделы соответствующей иерархии. Более подробную информацию по этому вопросу можно почерпнуть в библиотеке, изучая каталоги: алфавитный и тематический.
Наиболее распространенной системой классификации, особенно в библиотеке, является десятеричная система американца Мелвина Дьюи. Много лет назад он разделил накопленные человечеством знания на отрасли и присвоил каждой цифровое значение (см. табл.1). С точки зрения теории всё выглядит прекрасно, но на практике появляются сложности, связанные с новыми научными открытиями. Так, например, во времена Дьюи и не мечтали о космических полетах. Кроме того, не все открытия можно включить в те отрасли знаний, которые обозначил Дьюи.
Между тем система Дьюи оказалась лучше и проще других, и поэтому библиотеки до сих пор ею пользуются. Идея, лежащая в основе этой системы, чрезвычайно проста. Каждая крупная отрасль знаний получила номер от 000 до 999. При этом номера, обозначающие десятки, также имеют своё значение — любой, умеющий считать, может легко научиться пользоваться этой системой.
Если вас не радуют деньги, значит, их у вас нет (NN).
Табл.. 1. Градация отраслей знаний в системе УДК 000 – 099 Книги о знаниях, накопленных человечеством; энциклопедии, справочники и книги по библиотековедению Каждая отрасль знаний разделена на подотрасли. Например, естественные знаки делятся на:
500 — Наука (общие вопросы) 510 — Математика 520 — Астрономия Другими словами, все книги, шифр которых начинается с цифры 54, – о химии. Чем длиннее шифр, тем более специализированной по содержанию является книга. Например, книга «Структурные воздействия на равновесие в органической химии» будет иметь индекс 547.1392. Всюду в библиотеках на полках мы видим шифры Дьюи. Даже самая необычная или специализированная тема обязательно имеёт шифр.
Целесообразно учитывать ещё два положения [15]:
• Если книгу можно отнести к двум отраслям или подотраслям знаний, то каким будет шифр? Например, книга «Геология Йоркшира». Будет ли это шифр «Геологии» или «Йоркшира»? В таких случаях библиотекари пытаются предположить, где будет искать её читатель, и ставят её на соответствующее место. В предметном каталоге учитывается именно эта проблема. Поэтому в каждом конкретном случае необходимо обращаться к каталогу.
• Поскольку книги имеют самый разнообразный формат, их расположение на полках тоже вопрос непростой. Места в библиотеке всегда не хватает. Поэтому, например, книги большого формата хранятся отдельно. Особые пометки на карточке подскажут, где искать подобные книги.
6. Библиотечно-библиографическая классификация для научных библиотек (ББК) В этой классификации науки располагаются в последовательности, объективно присущей явлениям внешнего мира. Классификация начинается с общественных наук.
Далее науки располагаются в последовательности изучаемых ими объектов – сначала изучающие природу, затем изучающие общество и мышление. Прикладные науки – технические, сельскохозяйственные, медицинские, изучающие законы и средства воздействия человека на природу – помещены в раздел Б (естественные науки).
Индекс основных делений классификации состоит из заглавных букв русского алфавита.
А. Общественные науки.
Б. Естественные науки.
В. Физико-математические науки.
Г. Химические науки.
Д. Науки о Земле.
Е. Биологические науки и т. д.
Также как и в десятичной системе, основные таблицы ББК отражают деление целого на части, родовых понятий — на видовые, структуры — на составляющие её элементы. Индексы при этом получают цифровое обозначение. Например:
Е. Биологические науки.
Е5. Ботаника.
Е59. Систематика растений.
Е592. Высшие растения.
Помимо основных, классификация включает в себя систему типовых вспомогательных делений: общих, территориальных и других. Буквенные и цифровые индексы присоединяются к основному тексту отрасли или темы без всякого знака.
7. Международный стандартный номер книги (ISBN) Международный стандартный номер книги или ISBN (англ. International Standard Book Number) – уникальный номер книжного издания, необходимый для распространения книги в торговых сетях и автоматизации работы с изданием. Наряду с индексами ББК, УДК и авторским знаком, ISBN является частью так называемого издательского пакета.
Стандарт был разработан в Великобритании в 1966 году на базе 9значного Стандартного номера книг (англ. Standard Book Numbering (SBN) code) Гордона Фостера. В 1970 году с небольшим изменением был принят как международный стандарт ISO 2108. С 1 января 2007 года введён новый стандарт ISBN – 13-значный, совпадающий со штрихкодом. Существует также подобный стандарт ISSN (International Standard Serial Number) для периодических изданий.
В России ISBN используется с 1987 года.
Идентификаторы изданиям присваивают национальные агентства в области международной стандартной нумерации книг. В России это Российская книжная палата. Номера ISBN, присвоенные книгам до 2006 года издания включительно, состоят из аббревиатуры ISBN (независимо от языка издания) и 10 символов, разделенных дефисом или пробелом на четыре поля переменной длины:
• страна происхождения или группа стран, объединенная языком издания;
присваивается Международным агентством ISBN. Число цифр в идентификаторе группы зависит от объемов выпуска книжной продукции (может быть больше одной), например: 0 и 1 – группа англоязычных стран, 2 – франкоязычных, 3 – немецкий, 4 – японский, 5 – русскоязычные страны (некоторые страны бывшего СССР, Россия), 7 – китайский язык, 80 – Чехия и Словакия, 600 – Иран, 953 – Хорватия, 985 – Беларусь, 9956 – Камерун, 99948 – Эритрея. В целом, группам присвоены номера 0–7, 80–94, 950–993, 9940–9989, и 99900–99999;
• код издательства; присваивается Национальным агентством ISBN, при этом учитывается количество изданий, которое издатель намерен выпустить в свет. Более крупным издателям присваивается более короткий номер, чтобы сделать доступным больше знаков для нумерации изданий (суммарная длина номеров издателя и издания для ISBN, присваиваемого российским агентством, составляет восемь цифр).
• уникальный номер издания (в России – от 6 до 1 знака);
• контрольная цифра (арабская от 0 до 9 или римская X); служит для проверки правильности числовой части ISBN. Расчёт производит национальное агентство ISBN.
С 1 января 2007 года введён новый стандарт ISBN – 13-значный, совпадающий со штрихкодом. Все ранее присвоенные ISBN однозначно конвертируются в новые (978 или 979 + первые 9 цифр старого ISBN + контрольная цифра, рассчитанная по EAN-13).
Для изданий, выходящих малым тиражом, либо для «личного» использования присваивать номер ISBN необязательно.
Присоединение к системе ISBN накладывает на издателя ответственность:
• за использование только тех ISBN, которые даны Национальным агентством ISBN;
• за присвоение, размещение, форму приведения ISBN в издании;
• за несанкционированное использование ISBN другого издательства для своих изданий;
• за несанкционированную передачу ISBN другому издательству;
за информирование Национального агентства ISBN об использованных номерах, об изменении названия, юридического адреса, остановки деятельности;
• своевременное получение нового номера регистранта в случае смены названия издательства и в других случаях, предусмотренных в системе ISBN является обязательным элементом выходных данных. В России по ГОСТ 7.53 его помещают в нижнем левом углу оборота титульного листа или в нижней левой части совмещенного титульного листа. Каждая новая книга, каждое её переиздание, перевод на иной язык или выпуск в новом оформлении должны иметь свой международный стандартный номер.
На издании могут стоять два и более номера ISBN, если это:
• многотомное издание (номер тома и номер издания);
• совместное издание (номера каждого издателя с указанием в круглых скобках их наименования после соответствующего ISBN);
• издание, впервые выходящеё в переводе (номер перевода и номер оригинала с указанием в круглых скобках сведений о языке после соответствующего ISBN);
• комплектное издание, то есть собранное в папку, футляр или заключенное в общую обложку (собственный номер книги и ISBN, общий для всего комплекта).
ISBN позволяет вести оперативный поиск информации о конкретном издании в различных информационных ресурсах, совершенствовать заказ книг, вести контроль за их продажами.
Сведения об издателе (названия, идентификаторы ISBN, адресные данные, специализация) передаются в Международное агентство ISBN для выпуска Международного указателя издательств и издающих организаций.
Международная стандартная нумерация книг не распространяется на • периодические и продолжающиеся (сериальные) издания (журналы, газеты, бюллетени, периодически продолжающиеся сборники, нумерованные ежегодники);
• предназначенные для временного использования печатные издания (рекламные, раздаточные материалы, программы мероприятий, календарные планы, календари, не являющиеся изданиями книжного типа, товаросопроводительные документы);
• издания с любыми ограничительными пометками;
• листовые издания;
• нотные издания;
• изоиздания;
• картографические издания (кроме атласов);
• авторефераты диссертаций;
• препринты;
отдельные издания нормативно-технических документов (патенты, стандарты, прейскуранты);
конспекты лекций, учебные программы и планы, издания в карточной 8. Международная патентная классификация изобретений (МПК) [50] Технические новшества также находят с помощью классификационных систем. Каждому техническому решению присваивается индекс классификации, который служит как бы отраслевым адресом. Если изобретатель хочет узнать, какие патентные документы содержат информацию по интересующему его вопросу, он определяет в системе классификации соответствующие рубрики и находит нужные изобретения.
Сейчас большинство стран мира используют Международную патентную классификацию изобретений (МПК). В МПК изобретения распределяются по восьми разделам, обозначаемым первыми буквами латинского алфавита.
Раздел А – Удовлетворение жизненных потребностей человека.
Раздел B – Различные технологические процессы.
Раздел C – Химия и металлургия.
Раздел D – Текстиль и бумага.
Раздел E – Строительство. Горное дело.
Раздел F – Механика; освещение; отопление; двигатели и насосы; оружие и боеприпасы; взрывные работы.
Раздел H – Электричество.
Классы обозначают цифрами, подклассы буквами, группы цифрами, подгруппы, через дробь – двумя цифрами.
Например, если интересуют изобретения, относящиеся к электричеству, необходимо обратиться к разделу Н, который так и называется «Электричество». Далее изобретения распределяются по классам. В разделе Н пять классов.
Если необходимо знать изобретения по электрической связи — требуется заглянуть в класс Н 04 «Техника электрической связи». Если интересы ограничиваются передачей сигналов, то необходимо ознакомиться с названиями девяти подклассов вышеупомянутого класса Н 04. Среди них есть подкласс Н В «Передача сигналов». Нужно изучить элементы систем связи — необходимо найти среди девяти групп подкласса Н 04 В группу Н 04 В 1/00 «Элементы систем». Самый точный адрес изобретения — подгруппа, например, Н 04 В 1/02 «Передатчики». Всего в МПК около 50 000 подгрупп — этих самых мелких делений.
Но наука и техника не стоят на месте. Появляются новые, не существовавшие ранее направления и даже целые отрасли. Чтобы не отстать от прогресса, МПК каждые пять лет претерпевает изменения. Но и периодически обновляющаяся классификация не успевает за творческой мыслью изобретателей.
Появляются технические решения, не входящие в рамки МПК. Недостаточно опытные изобретатели и эксперты всё же пытаются вогнать эти пионерные достижения первопроходцев в установленные жёсткие рамки классификации, притягивая их за уши в ближайшую более или менее подходящую подгруппу МПК. А между тем, здесь требуется нестандартный подход.
Разработчики МПК предусмотрели правила обозначения объектов техники, которые не могут быть точно проиндексированы по применяемой в данное время редакции МПК. В этом случае производится приближенная классификация, а для того, чтобы отметить неточный характер индекса МПК, в конце его символа ставится знак «X».
Когда будет создан способ передачи управляющих сигналов с помощью электричества, но без проводов, без радиосвязи, без использования электромагнитных, звуковых, ультразвуковых или инфразвуковых волн, он будет обозначен Н 04 ВХ.
Изобретения, индекс которых состоял бы лишь из двух букв — символа раздела (от А до Н) и знака «X»,— пока не появлялись. Но если кто-нибудь придумает технический объект, предназначенный для удовлетворения жизненных потребностей человека, но не предусмотренный классами раздела А, то такое изобретение обозначат индексом АХ, а его автор станет первым в мире изобретателем, открывшим новое направление техники на уровне класса МПК.
Теоретически предвидится возможность употребления знака «X» даже вместо символа раздела. Символ раздела, состоящий из единственного знака «X», обозначит изобретение самого высокого ранга новизны. К настоящему дню даже постановку задачи такого уровня еще никто не осуществил.
При постановке знака «X» в индексе МПК какого-либо изобретения патентные ведомства должны сообщать об этом в Женеву в Международное бюро Всемирной организации по охране интеллектуальной собственности для учета при дальнейшем совершенствовании МПК.
Какие же практические выводы можно сделать из правил употребления знака «X» в МПК?
Прежде всего, следует обращать особое внимание на изобретения с этим знаком в классификации. Ведь он свидетельствует о том, что перед нами решение, открывающеё новую дорогу в технике. Однако такие изобретения нужно внимательно анализировать, т. к. не исключено использование знака «X» и в рекламных целях для фиктивного поднятия ранга новизны.
Но все же наличие рубрики МПК со знаком «X» не только служит сигналом о необходимости дальнейшего пересмотра классификации, но и свидетельствует об определенной повышенной значимости индексируемого этим знаком изобретения. Ведь если в МПК не нашлось нужной рубрики, значит, открыто новое направление в технике. И чем на более высокой ступени иерархии МПК применен знак «X», тем больше значимость изобретения. Не случайно ещё не приходилось применять «X» на уровне класса и раздела. Но тем большей будет слава изобретателя, который достигнет этих рубежей.
Метод классификации изобретений может быть использован для оценки уровня изобретений. Изобретение, которое классифицируется полным индексом вплоть до подгруппы (например, А 61 К 1/02), относится к самому невысокому уровню. Изобретение, для которого нет подходящей подгруппы, но которое точно соответствует какой-либо основной группе (например, А 61 К 1/00), выше рангом. Изобретение, классифицируемое основной группой лишь приблизительно (например, А61К1/00Х), ранжируется выше. Классификация с точностью до подкласса (например, А 61 КХ) повышает ранг еще больше. Далее идут изобретения соответственно на уровне подкласса (А61Х), на уровне класса (АХ) и, наконец, самые пионерные — на уровне раздела (X).
Изобретения, помеченные классификационным индексом «X», важны для технического прогресса. Они открывают принципиально новые пути в технике.
Стоит выявлять такие изобретения, особенно внимательно изучать и распространять. Нужно издавать их отдельными сборниками, популяризировать.
На описаниях отечественных изобретений символ МПК со знаком «X» пока не встречался. Но разве отечественные изобретатели не создают решений, прокладывающих новые, не предусмотренные МПК пути в технике? Просто заявители и эксперты либо не знают правил классификации таких изобретений, либо недооценивают значение простановки символа «X». Ведь престиж наших изобретений, в особенности патентуемых за рубежом, от применения «Х» возрастает. А в настоящеё время потребность в создании и выявлении перспективных изобретений, открывающих новые пути, создающих принципиально новую технику и технологию, огромна.
Рекомендуемые по теме источники информации 1. Кинг, Э. Как пользоваться библиотекой: практическое руководство для учащихся и студентов / Э. Кинг / пер. с англ. – Челябинск: Урал LTD, 1997, – 156 c.: илл.
2. «Книжное обозрение». – 1998. – № 45. – 10 ноября.
3. Федеральная служба по интеллектуальной собственности, патентам и товарным знакам [Электронный ресурс]. – Режим доступа:
http://www1.fips.ru Если вас ничто в жизни не радует, значит у вас насморк… Людские проблемы – вечны, хотя их решений великое множество.
Лекция № Тема «Приёмы и методы отбора информации»
Вопросы 1. Роль информации при решении проблемы.
2. Требования к специалисту, занимающегося поиском информации.
3. Документальные источники информации.
4. Последовательность поиска документальных источников информации.
5. Отбор информации. Критерии отбора. Сортировка по приоритетам.
1. Роль информации при решении проблемы В настоящем пособии воспользуемся следующим определением понятия проблема: ПРОБЛЕМА (от греч. problema — преграда, трудность, задача) – вопрос или целостный комплекс вопросов, возникший в ходе познания.
На примере покажем несколько подходов к решению частной проблемы и отразим роль информации в её решении.
Представим себе условную ситуацию: Река (течение – быстрое, вода – холодная, глубина реки – большая).
К реке на разных участках по течению подходят разные группы людей, информационно не связанные между собой.
Особенности среды (ландшафта):
• Для первой группы – огромный пляж.
• Для второй – лес.
• Для третьей – одиночные деревья, растущие на крутом берегу узкого участка реки.
Проблема, стоящая перед каждой из групп – как перебраться на другой берег.
Как будет решаться данная проблема разными группами? Наиболее вульгарный путь – методом практических проб и, естественно, ошибок.
• Первая группа. Положение серьезное.
Поставлена цель – перебраться на другой берег, ничего не используя из подручных средств, так как их попросту нет.
Выдвинута гипотеза 1 (предположение по устранению проблемы): перейти вброд – неудача.
Выдвинута гипотеза 2: научиться плавать – процедура весьма продолжительная.
Выдвинута гипотеза 3: подождать зимы и перейти по льду – ещё дольше.
• Вторая группа.
Поставлена цель – перебраться на другой берег, используя подручные средства – лес (деревья).
Выдвинута гипотеза 1: срубить дерево и на нём перебраться – неудача – трудно управлять и большое сопротивление движению.
Выдвинута гипотеза 2: Перебраться на бревне, сидя верхом – бревно постоянно переворачивается.
Выдвинута гипотеза 3: построить плот – хорошо, но сложно управлять.
И.т.д.
• Третья группа.
Поставлена цель – перебраться на другой берег, используя подручные средства – деревья.
Выдвинута гипотеза 1: свалить дерево, перекинув его с берега на берег – опасно.
Выдвинута гипотеза 2: Построить мост, используя другие подсобные материалы.
Работу всех трёх рассматриваемых групп можно представить в виде блоксхемы (рис. 2), в которой присутствует всё, кроме внешнего информационного источника, что часто и приводит к увеличению числа циклов, которые проходят субъекты, принимающие решения (блок накопления и обработки информации).
УСТРАНЕНИЕ
ПРОБЛЕМЫ
ПРОБЛЕМА
ПРОВЕРКА ПРАКТИКОЙ
ЗАДАЧИ
ГИПОТЕЗА
БЛОК НАКОПЛЕНИЯ И ОБРАБОТКИ
ИНФОРМАЦИИ
Рис. 2. Схема решения проблемы без учета влияния внешнего потока информации.Из-за отсутствия связи между группами соседние не имеют представления о результатах, достигнутых другими. Возможно, проблема соседями уже решена, а другие продолжают над ней биться.
Данный пример наглядно демонстрирует необходимость внести элемент информативности в решение любой проблемы.
В том же случае, когда появляется возможность воспользоваться готовым решением проблемы (внешний источник информации имеется), схема принятия решения может существенно измениться (рис. 3).
Хорошая мысль всегда имеет подтекст, весомость которого определяет весомость самой мысли
УСТРАНЕНИЕ
ПРОБЛЕМА
ПРОБЛЕМЫ
БЛОК НАКОПЛЕНИЯ И ОБРАБОТКИ
ВНЕШНЯЯ
ИНФОРМАЦИЯ ИНФОРМАЦИИ
Рис. 3. Схема решения проблемы с учетом только внешней информации.Здесь, однако, следует иметь ввиду, что часто положительный результат устранения проблемы, полученный другими исследователями, достигнут ими в условиях, отличных от тех, в которых конкретно приходится иметь дело. Поэтому реально воспользоваться данной схемой не представляется возможным.
Интерпретируя двухконтурную структуру диалектического пути познания, предложенную академиком Р.Ф. Абдеевым [1], можно предложить следующую схему проблемно-информационного взаимодействия.
Оптимальным решением любой проблемы, определяющей существование не только самого разрабатываемого объекта, но и перспектив жизнедеятельности природы в целом, связано во многом с поиском и обработкой информации по разрабатываемому вопросу. Решение проблемы связано с формулированием цели, выдвижением и обоснованием научного предположения (гипотезы), благодаря которому эта проблема может быть решена, и задач предстоящей разработки.
Анализ категорий ПРОБЛЕМА, ЦЕЛЬ, ГИПОТЕЗА, ЗАДАЧА и РЕШЕНИЕ показывает их тесную взаимосвязь как друг с другом, так и с совокупностью внешних и внутренних информационных потоков, постоянный прирост которых предопределяют соответствующее изменение (диалектичность) каждой из отмеченных категорий. Схематично это можно представить в виде блок-схемы (см. рис.4).
Безответное к нам будущее ответит нашим детям.
Умные стремятся владеть информацией, мудрые - результатом её обработки (NN).
УСТРАНЕНИЕ
ПРОБЛЕМЫ
ПРОБЛЕМА
ПРОВЕРКА ПРАКТИКОЙ
ЗАДАЧИ
ГИПОТЕЗА
ВНЕШНЯЯ
ИНФОРМАЦИЯ
БЛОК НАКОПЛЕНИЯ И ОБРАБОТКИ
ФИЛЬТР
ОТБОРА ИНФОР- ИНФОРМАЦИИ
Рис. 4. Комбинированная блок-схема решения проблемы.Внешние потоки информации входят в сферу (область) решаемой проблемы извне (из надсистемы). Их формирует общая непрерывно изменяющаяся информационная система внешней среды. В неё включаются все знания человечества, полученные им в ходе эволюционного развития.
Внутренние информационные потоки определяются двумя взаимосвязанными контурами. Первый (стратегический) поток формируется в голове субъекта-разработчика за весь период его жизни (память, накопленный опыт, способность к мышлению). Подпитка внутреннего стратегического потока осуществляется внешним информационным потоком, например, в процессе длительного обучения (образования). В этом случае стратегический поток протекает по контуру: ВНЕШНЯЯ ИНФОРМАЦИЯ – ФИЛЬТР ОТБОРА ИНФОРМАЦИИ –
БЛОК НАКОПЛЕНИЯ И ОБРАБОТКИ ИНФОРМАЦИИ.
Второй (тактический) поток является следствием анализа и обработки информации, полученной субъектом в результате проверки выдвинутой рабочей гипотезы. Он проходит последовательно по цепочке: ПРОБЛЕМА – БЛОК НАКОПЛЕНИЯ И ОБРАБОТКИ ИНФОРМАЦИИ – ЦЕЛЬ (1) – ГИПОТЕЗА (1) – ЗАДАЧИ (1) – ПРОБЛЕМА. В том случае, когда решение проблемы найдено, цепочка разрывается, преобразуясь в вид: ПРОБЛЕМА – БЛОК НАКОПЛЕНИЯ И ОБРАБОТКИ ИНФОРМАЦИИ – ЦЕЛЬ (1) – ГИПОТЕЗА (1) – ЗАДАЧИ (1) – УСТРАНЕНИЕ ПРОБЛЕМЫ. Если решение проблемы не достигнуто, то цикл повторяется. Выдвигается новая цель, формируется очередная гипотеза и другие задачи. Во всех случаях БЛОК НАКОПЛЕНИЯ И ОБРАБОТКИ ИНФОРМАЦИИ (субъект) является связующим звеном, объединяющим все информационные потоки и обеспечивающим функционирование обратных связей для достижения требуемого проектного результата.Представленная схема деятельности является проектной и приемлема для одного субъекта, вынужденного принимать определенное проектное решение.
В том случае, когда проблема стоит перед несколькими субъектами, работающими параллельно, все атрибуты обратных связей индивидуальны для каждого отдельного субъекта. Количество циклов, проходящих каждым субъектом в связи с разными гипотезами и уровнем имеющегося опыта и знаний, могут существенно отличаться. Решение проблемы в связи с этим протекает с разной скоростью. Всегда кто-то решит проблему раньше других.
Поэтому при наличии взаимной информации продвижение всех к общей цели может существенно ускориться, если остальные воспользуются решением, найденным раньше всех. Однако общий уровень разработок может при этом снизиться или приобрести односторонний характер, из-за того, что в данном случае могут быть отброшены перспективные направления развития. Это проявится позднее, когда ситуация изменится.
Представляет интерес пример поиска решения проблемы несколькими не связанными друг с другом командами, работающими под единым руководством.
Продолжение исследований в случае нахождения первого решения проблемы прекращается.
2. Требования к специалисту, занимающемуся поиском информации Любая проектная деятельность связана с умственным трудом и с поиском информации. Тот факт, что этот поиск становится сейчас все сложнее и сложнее, в доказательствах не нуждается. Усложняется сама система поиска, постепенно она превращается в специальную отрасль знаний. Знания и навыки в этой области становятся все более обязательными для любого специалиста.
Специалист в области поиска информации должен:
• иметь чёткое представление об общей системе научно-технической информации и возможностях её составных элементов;
• знать все возможные источники информации по своей специальности;
• уметь выбрать наиболее рациональную схему поиска в соответствии с его задачами и условиями;
• получить навыки в использовании вспомогательных библиографических и информационных материалов.
3. Документальные источники информации Под «источником научной информации» понимается документ, содержащий какое-то сообщение, а отнюдь не библиотека или информационный орган, откуда он получен. Это часто путают. Документальные источники содержат в себе основной объем сведений, используемых в научной, преподавательской и практической деятельности, и поэтому в этом разделе речь идет именно о них Оценка документальных источников информации включает в себя такие критерии, как полнота и достоверность данных, сроки их опубликования, наличие теоретических обобщений и критических материалов, реальность их получения.
Применительно к задачам конкретного поиска каждый из перечисленных источников имеет свои достоинства и недостатки. Не являются здесь исключением даже такие основные их виды, как книги и журнальные статьи. В большинстве случаев любая книга имеет, например, тот недостаток, что за три-четыре года, которые пошли на ее подготовку и издание, содержащиеся в ней данные могли в какой-то степени устареть.
Далеко не идеальным источником информации может считаться и научный журнал. Каким бы узкоспециальным он ни был, тематика его значительно шире, чем конкретные интересы того или иного специалиста, материалы по теме любого произведения всегда рассеяны по громадному количеству журналов.
Такой же неоднозначной будет оценка и всех других документальных источников информации. Важно здесь, однако, видеть не только недостатки, но и те возможности, которые открываются при использовании каждого их вида. Так, в дополнение к широко распространенным журналам необходимо обращаться к различного рода продолжающимся изданиям («Трудам», «Запискам», «Известиям» и т. д.), в которых часто находятся материалы, интересующие самый узкий круг специалистов и отражающие направление деятельности отдельных учреждений.
Нужно помнить о своеобразии такого источника, как труды различных конференций, содержащие сведения о ведущихся исследовательских и опытноконструкторских работах и их предварительных результатах.
Нужные материалы могут содержаться в специальных технических изданиях, причем некоторые из них, например описания изобретений и авторских свидетельств, содержат не только сведения по определенным техническим устройствам, но могут помочь проследить историю того или иного изобретения или открытия и получить представление о современном направлении научнотехнической мысли в какой-то конкретной области.
Информация, содержащаяся в непубликуемых документах, как правило, новее, чем в любых публикациях, и, что очень важно, всегда значительно полнее, так как она еще не подверглась «сжатию», неизбежному при подготовке к печати.
Характеризуя отдельные виды вторичных документов и изданий, также следует подчеркнуть, что все они различны по своему содержанию и назначению.
Из сказанного нетрудно сделать вывод: насколько важно знать все документальные источники информации в своей области и уметь выбрать те из них, в которых содержатся необходимые для работы данные.
4. Последовательность поиска документальных источников информации При описании каталогов, картотек, библиографических указателей и информационных изданий все время подчёркивалось, насколько важно иметь исчерпывающее представление обо всех их видах и стараться использовать их как можно полнее. Однако нельзя понимать это как универсальный совет и по любому случаю обращаться ко всем библиографическим источникам одновременно. При их большом количестве и многообразии дело это совершенно нереальное.
Поэтому рекомендуется выбрать те из них, которые в наибольшей степени соответствовали бы конкретным задачам поиска. Такая рекомендация совершенно правильна, но сам термин «выбрать» нуждается в некотором уточнении. О выборе чаще всего говорят, когда дело идет о многообразии чего-то, в основном однородного.
В отношении библиографических источников все обстоит значительно сложнее. Здесь можно видеть не простое многообразие, но наличие определённой иерархии по степени их полноты, сложности. Кроме того, все они определённым образом взаимосвязаны друг с другом. Неслучайно поэтому говорится о системе библиотечных каталогов и библиографических указателей. Здесь термином «система» как раз и подчеркивается их взаимосвязь.
Естественно поэтому предположить, что и использование их также должно быть подчинено какой-то системе. Значит, правильнее говорить не о выборе библиографических пособий, а о той последовательности, в которой должен идти поиск документальных источников информации. На этом основании допустимо считать, что заведомо неверным является поиск, ведущийся путем «сплошного» просмотра всех имеющихся библиографических материалов. Практика полностью это подтверждает.
Бессистемный поиск всегда отнимает непомерно много времени и одновременно не дает гарантии его полноты. Между тем, как это ни странно, даже опытные специалисты редко задумываются над тем, насколько рационален их путь в поисках нужной информации.
Цели и условия поиска документальных источников информации настолько различны, что никакой единой схемы быть не может. Необходимость своей особой схемы поиска наглядна уже при одном перечислении тех целей, которые при этом могут преследоваться: в одном случае требуется установить полный перечень литературы по определенной теме, в другом – только наиболее современные или главнейшие публикации по той или иной проблеме; для одних работ требуется добраться до первичных источников информации, для других достаточно информации, содержащейся во вторичных документах, и т. д.
Подход к поиску литературы может зависеть и от того, в какой последовательности её предполагается изучать: в хронологической, когда литературные источники рассматриваются в их прямой хронологической связи, или обратнохронологической, когда знакомятся сначала с новейшими изданиями, а затем уже переходят к более старым по времени публикациям. Совершенно очевидно, что в каждом случае будут различными и сам перечень библиографических материалов, и последовательность обращения к ним.
5. Отбор информации. Критерии отбора. Сортировка по приоритетам Хорошо ориентируясь в библиотечных каталогах и библиографических указателях, можно без особого труда составить схему поиска документальных источников информации применительно к его конкретным целям.
В связи с этим может быть предложен следующий алгоритм отбора информации:
1. Выявление (определение) проблемы, требующей решения.
2. Определение области, к которой относится данная проблема 3. Определение раздела области в соответствии с выбранными критериями отбора.
4. Определение общего количества источников информации (публикаций) по данной проблеме.
5. Сортировка источников информации по организациям, занятым решением проблемы.
6. Оценка организаций по количеству публикаций, затрагивающий данную проблему (расстановка по ранжиру, региональная оценка, выбор приоритета региона).
7. Сортировка по авторам, затрагивающих данную проблему (расстановка по ранжиру: по количеству публикаций).
8. Выделение ведущих авторов, работающих в ведущих организациях по данной проблеме.
9. Составление предварительного отчета, в котором отражается:
• Кто занимается данной проблемой (какая организация, какой регион, ведущие специалисты, что конкретно опубликовано).
• Перечень источников информации (весомость, достоверность каждого Достоверность публикаций может быть оценена косвенным путём по издательству, тиражу, объему источника, переводами на иностранный язык, признанием, выдачей грантов, другими видами финансирования.
Рекомендуемые по теме источники информации 1. Абдеев, Р.Ф. Философия информационной цивилизации / Р.Ф. Абдеев. – М.: ВЛАДОС, 1994.– 336 с.: 58 ил.
2. Галашев, В.А. Информация в системе поиска решения проблемы. // Технологическое образование: теория, методология, практика: Сб. науч. ст./ Под ред. В.П.Овечкина. – Ижевск, 2003. – 135 с., (с.61-64).
3. Кузнецов, И.Н. Информация: сбор, защита, анализ: Учебник по информационно-аналитической работе / И.Н. Кузнецов. – М.: ООО Изд. Яуза, 2001.
«Законы информации Спенсера»:
1. Каждый может принять решение, располагая достаточной информацией.
2. Хороший руководитель способен принять решение, располагая недостаточной информацией.
3. Идеальный руководитель способен принять решение, не зная решительно ничего.
Лекция № Тема: «Поиск информации в Интернете»
Вопросы 1. Интернет, типы ресурсов Интернета 2. Особенности поиска информации в Интернете 3. Поисковые системы Google; Яndех; Апорт; AltaVista.
4. Тематические каталоги 5. Жёлтые страницы 6. Полезные ссылки 1. Интернет, типы ресурсов Интернета Интернет (произносится [интэрнэт]; англ. Internet) — всемирная система объединённых компьютерных сетей, построенная на использовании протокола IP и маршрутизации пакетов данных (Википедия ru.wikipedia.org).
Информация в Интернете представлена в источниках самого разного типа.
Часто Интернет отождествляют со Всемирной Паутиной WWW – самым популярным фрагментом Сети. На самом деле в Сети существует информационная и коммуникационная среда ресурсов самых различных типов [46].
Основные информационные и коммуникационные ресурсы Интернета 1. Электронная почта и почтовые роботы;
2. Глобальная система телеконференций Usenet, региональные и специализированные телеконференции;
3. Списки рассылки;
4. On-line средства коммуникации пользователей;
5. Системы поиска людей и организаций;
6. Базы данных Hytelnet;
7. Система файловых архивов FTP, системы поиска в FTP-архивах глобального и регионального охвата;
8. Базы данных Gopher и поисковая система Veronica;
9. Гипертекстовая информационная система World Wide Web (WWW);
10. Каталоги ресурсов – глобальные, локальные, специализированные (в среде 11. Поисковые машины, или автоматические индексы – глобальные, локальные, специализированные (в среде WWW);
12. Баннерные системы (в среде WWW);
13. Активные информационные каналы (в среде WWW);
Каждый информационный и коммуникационный ресурс Интернета имеет свои особенности доступа, которые можно найти в специальной литературе и руководствах. Множество полезного материала по этому поводу можно найти в специальных компьютерных журналах. Здесь мы ограничимся лишь краткой характеристикой некоторых типов информационного и коммуникационного ресурса Интернета. При этом обратим внимание в основном на особенности проведения информационного поиска в масштабах Сети.
Электронная почта (е-mail) и почтовые роботы Система электронной почты пришла на смену обычным почтовым сообщениям при помощи адресов, бумажных конвертов с письмами, почтового транспорта и почтальонов.
идентификации владельца. В коммуникационных ресурсах Сети: он-лайновых средствах коммуникации пользователей, системы телеконференций и т.п. адрес электронной почты Существуют специальные возможности, которые позволяют вставлять в Web-страницу (см. ниже) гиперссылку на е-mail, автоматически открывающую почтового клиента. В этом виде она широко применяется в Паутине (WWW).
Сами адреса при этом свободно индексируются поисковыми системами и доступны для поиска через поисковые машины общего назначения. Имеется информация (AltaVista – 2000 год), что адреса электронной почты встречаются почти на 100 миллионах Web-страниц из 150 миллионов проиндексированных документов. Адреса е-mail активно накапливаются в специальных системах поиска людей и организаций, о которых пойдет речь ниже. Серьезное неудобство для поиска по e-mail составляет то, что при получении адреса допускается регистрация пользователя под псевдонимом. Эта практика особенно широко распространена на серверах, предоставляющих бесплатные почтовые ящики. Почтовые роботы – это специальные программы, способные отвечать определенными действиями на команды, поступающие им по электронной почте. Их основное назначение – пересылка данных по запросу в случае, когда они не доступны иным способом, а также как альтернатива работы в режиме on-line с каким-либо из известных ресурсов, например, ftp-архивами. При поиске почтовые роботы обычно используются лишь как посредники при получении информации. Иногда возникают ситуации, когда они оказываются единственным средством получения нужных сведений.
Списки рассылки Списки рассылки подразумевают более или менее систематическую рассылку сообщений информации по электронной почте..Небольших по охвату адресов узкоспециальных или рекламных списков рассылки в Сети насчитывается огромное количество. Здесь стоит обратить внимание на те, авторитет которых получил международное признание. Внушительная коллекция почтовых списков, где их несколько тысяч, собрана на узле http://www.NeoSoft.com/internet/paml/. Там же присутствуют указатели на другие списки списков. По адресу http://www.relc.com/tech/all/list.html.ru можно найти страницу, содержащую перечень наиболее известных российских списков рассылки. Если не говорить о каких-то специальных интересах, то они необходимы поисковику, главным образом, для того, чтобы быть в курсе последних событий, происходящих в жизни Интернета. Владение сетевой лексикой по широкому спектру тем и осведомленность о крупнейших проектах, реализуемых в Сети, которые можно почерпнуть из списков рассылки, позволяют более результативно строить поисковые запросы.
On-line средства коммуникации пользователей On-line средства коммуникации пользователей (chat, ICQ и другие) предполагают возможность обмена информацией между двумя или большим количеством пользователей Сети в режиме реального времени с помощью специального чат-сервера. Частью такого обмена может быть текстовый диалог, передача графики прямо в процессе её создания, голосовая и видео связь, обмен файлами.
Долгое время ресурсы этого типа крайне редко использовались в решении поисковых задач, однако ситуацию изменило появление в 1996 году нового сервиса этого типа, а именно службы ICQ, известной среди российских пользователей как «Аська» (http://www.icq.com). В отличие от существовавших ранее чатов, где регистрация участников, как правило, носила анонимный характер и действовала лишь на протяжении сеанса связи, разработчики ICQ предложили каждому пользователю регистрационный номер-идентификатор, который сохранялся бы за ним постоянно. Это решение имело грандиозные последствия в области компьютерного общения людей. При поиске людей и организаций можно с успехом использовать поисковую службу ICQ, которая становится доступной сразу после установки ICQ-клиента на компьютер.
Несколько слов о чат-серверах. Как правило, некоторый их перечень уже зашит в используемую клиентскую программу, как, например, в программе Microsoft NetMeeting. В регистрационных списках чатов обычно присутствуют сведения о месте проживания участников, и они редко указываются неверно.
Чат-ресурсы, даже в своем анонимном варианте, привлекательны тем, что позволяют получить информацию из первых рук от представителей конкретного государства, региона и города планеты.
Системы поиска людей и организаций Системы поиска людей и организаций в современной Сети характеризуются двумя важными моментами: большинство этих ресурсов уже перенесено на Web-сервера и всё более широкое присутствие получает в них информация о людях и организациях, которые не имеют прямого или вообще никакого отношения к Интернету. С последним утверждением связаны известные факты появления в Сети телефонных, адресных и других баз данных, как отдельных организаций, так и целых регионов. Тем не менее, такой чисто сетевой идентификатор пользователя как адрес e-mail остается доминирующим поисковым атрибутом для многих сервисов этого типа. Источником пополнения их баз данных становятся материалы телеконференций, Web-сервера, а также самостоятельная регистрация пользователей. К ним добавляются системы, специализирующиеся на поиске, например, по номеру ICQ (см. выше) или домашних страниц пользователей (служба Ahoy!, URL http://www.cs.washington.edu/research/ahoy/).
Часто возникают попытки выяснить рейтинг поисковых сервисов этого назначения. Так, по результатам исследований журнала PC Magazin (http://www.zdnet.com/pcmag) наибольшей популярностью в Сети среди пользователей Европы и Северной Америки пользуется служба поиска адресов электронной почты Four11 (http://www.four11.com), расположенная в портале Yahoo.
Однако практика показывает, что начало поиска именно с неё совершенно не гарантирует успеха. Все эти службы имеют один серьезный недостаток – они не представляют собой единую кем-либо регулируемую систему, а являются лишь хаотически с точки зрения стороннего наблюдателя пополняемым набором информационных узлов. Следствием этого является то, что грамотно спланировать поисковую процедуру и расставить приоритеты в поиске отдельного лица становится крайне сложно. В некоторых случаях намного эффективней прибегнуть к поиску человека по его следам в Сети – публикациям, месту службы и т.п. с использованием поисковых систем общего назначения.
Базы данных Hytelnet Базы данных Hytelnet в ряде случаев представляют собой совершенно уникальную информацию, прежде всего, по библиотечным каталогам европейских и американских университетов, а также государственных учреждений.
Наиболее внушительный перечень баз данных этого типа, превышающий единиц можно найти на Web-сервере по адресу http://www.lights.com/hytelnet/.
Система файловых архивов FTP Система файловых архивов FTP представляет собой огромное количество информации, накопленной в ftp-архивах за десятилетия эксплуатации компьютерных систем, может представлять большую ценность для специалистов. Сегодня ftp-ресурсы востребованы и характеризуются развитием не только своей единственной глобальной поисковой системы Archie (адрес одного из стабильно доступных Web-шлюзов к ней - http://ftpsearch.ntnu.no), но и региональных систем, в частности российской – http://ftpsearch.city.ru, охватывающей более серверов. Ftp-архивы - это в первую очередь источники программного обеспечения, успешно конкурирующие с Web-узлами, которые специализируются на продаже и представлении коллекций программ. В отличие от Web-узлов на них гораздо чаще можно столкнуться с нарушением авторских прав в виде пиратских копий программ и отдельных материалов, продаваемых на других узлах за деньги.
Гипертекстовая информационная система World Wide Web (WWW на сегодняшний день наиболее значительны в Сети и продолжают своё развитие. Основным элементом WWW является Web-страница, являющаяся легко создаваемым составным объектом, в тело То, что сегодня в списке последних присутствуют текст, гиперссылки, графика, мультимедиа, программный код, диалоговые формы и многое другое, в конечном итоге, и предопределило широкое коммерческое использование WWW. Паутина заставила поисковые системы Web-пространства тонко подстроиться под себя и фактически обозначила ключевую тенденцию их развития.
Речь идет с одной стороны о том, что при индексировании ресурсов всё более детальной проработке поисковыми системами подвергаются поля Web-страниц, формируемые с помощью языка HTML. С другой стороны интенсивно развиваются те элементы информационно-поисковых языков, которые поддерживают поиск внутри этих полей. Сегодня можно констатировать глубокую интеграцию поисковых систем и ресурсов WWW на базе единой технологии. Кроме того, большой объём информационной базы WWW впервые с особой остротой поставил вопрос о необходимости параллельного существования целого ряда идентичных поисковых сервисов, обслуживающих интересы пользователей.
Бог создал Вселенную, человек создал Интернет! (Гарун Агацарский) Интернет – величайший источник информации: в нём можно найти факты, подтверждающие всё, что угодно (Александр Циткин) Каталоги ресурсов – глобальные, локальные, специализированные (в среде WWW) Каталоги ресурсов – глобальные, локальные, специализированные (в среде WWW) представляют собой размещаемые в Сети базы данных с адресами ресурсов и самым разным масштабом накопленной информации и охватом тематики. Обычно они имеют иерархическую структуру, перемещаясь по которой, можно локализовать нужный объект. Скорость накопления информации такими системами оказывается сравнительно низкой, поскольку в классификации ресурсов предполагается непосредственное участие человека. Для поисковика получение информации о ресурсе из известного каталога всегда является некоторой гарантией достоверности. При решении более или менее стандартной поисковой задачи именно каталог, а не поисковая машина оказываются стартовой площадкой для начала поиска.
Поисковые машины, или автоматические индексы – глобальные, локальные, специализированные (в среде WWW) Поисковые машины, или автоматические индексы – глобальные, локальные, специализированные (в среде WWW) представляют собой мощные информационно-поисковые системы, размещаемые на серверах свободного доступа.
Их специальные программы-роботы, или пауки, в автоматическом режиме непрерывно сканируют информацию Сети на основе заданных алгоритмов, проводя индексацию документов. В последующем на основе созданных индексных баз данных поисковые машины предоставляют пользователю доступ к распределенной на узлах Сети информации. Это реализуется через выполнение поисковых запросов в рамках соответствующего интерфейса. Последние исследования возможностей поисковых машин, даже самых мощных из них, таких как AltaVista, или HotBot, показывают, что реальная полнота охвата ресурсов Всемирной Паутины отдельной такой системой не превышает 30%. Планирование поисковой процедуры в пространстве WWW является нетривиальным, и его, безусловно, следует рассмотреть отдельно.
2. Особенности поиска информации в Интернете Облегчить пользователям Сети поиск необходимой информации призваны поисковые системы.
Интернет- пункт приёма, обмена и сбыта краденой информации (NN) Сайт любителей русской словесности – blin.net (Ирина Васильева) Специальные программы-роботы (известные также как «пауки») в автоматическом режиме периодически обследуют Интернет на основе определённых алгоритмов, проводя индексацию найденных документов. Созданные индексные базы данных используются поисковыми машинами для предоставления пользователю доступа к размещённой на узлах Сети информации. Пользователь формулирует запрос, который обрабатывается системой, после чего в окно браузера (программы для просмотра гипертекстовых документов) выдаются результаты обработки запроса.
Технология поиска с использованием поисковых машин Рассмотрим основные этапы, которые, присутствуют при поиске информации с использованием поисковых машин [46].
1. Определение географических регионов поиска. Поскольку проведение информационного поиска преследует практические цели – маркетинговые, производственные, сугубо утилитарные и тому подобные, – практическая ценность информационного ресурса может зависеть и от географического расположения соответствующего источника.
2. Составление тезауруса. Для эффективного использования поисковых серверов необходим список ключевых слов, организованный с учетом семантических (смысловых) отношений между ними, т.е. тезаурус. При составлении тезауруса необходимо предусмотреть обработку синонимов, омонимов (слов, имеющих одинаковое звучание, но разных по значению) и морфологических вариаций ключевых слов.
При составлении списка ключевых слов находит применение методика использования законов Ципфа (Джордж Ципф, американский лингвист).
А) Исследуя тексты, Д. Ципф установил, что, если умножить вероятность обнаружения слова в тексте P на ранг его частоты R, то получившаяся величина С постоянна для всех текстов на одном языке:
или Здесь P=т/n т - число, показывающее, сколько раз конкретное слово встречается в тексте, (частота вхождения слова);
n – общее число слов в тексте.
R – порядковый номер расположения конкретного слова в ранговом ряду всех слов текста.
Ранговый ряд образуется следующим образом: располагают частоты всех слов текста в ряд по мере убывания и нумеруют эти частоты от 1 до n. При этом порядковый номер частоты называется рангом частоты конкретного слова.
Как следует из формулы (2) график зависимости ранга от вероятности обнаружения слова в тексте – гипербола.
Б) Д. Ципф также установил, что зависимость количества слов m (частота вхождения слова) от его ранга R – также гипербола и постоянна для всех текстов в пределах одного языка (Рис. 5):
Рис. 5. Зависимость количества слов m (частота вхождения слова) от его ранга R.
Что можно извлечь из этих законов? Исследования вышеуказанных зависимостей для различных текстов показали, что наиболее значимые слова текста лежат в средней части диаграммы, так как слова с максимальной частотой, как правило, являются предлогами, частицами, местоимениями, в английском языке – артиклями (так называемые «стоп-слова»), а редко встречающиеся слова в большинстве случаев не имеют решающего значения. Основываясь на этой закономерности, можно предложить следующую последовательность применения законов Ципфа при составлении списка ключевых слов:
• берут любой текст-источник, близкий к искомой теме, т.е. «образец», и анализируют его, выделяя значимые слова. В качестве текста-источника может служить книга, статья, Web-страница, любой другой документ.
• производят анализ образца, при этом:
- из текста удаляют «стоп-слова», - производят вычисление частоты вхождения каждого слова и составляют список, в котором слова располагают в порядке убывания их частоты, - выбирают диапазон частот, лежащий в середине списка, и отбирают из этого диапазона слова, наиболее полно соответствующие смыслу текста, - составляют запрос к поисковой машине в форме перечисления отобранных таким образом ключевых слов, связанных логическим оператором ИЛИ (OR). Запрос в таком виде позволяет обнаружить тексты, в которых встречается хотя бы одно из перечисленных слов. Число документов, полученных в результате поиска по этому запросу, может быть большим.
Однако, благодаря ранжированию документов (расположению их в порядке убывания частоты вхождения слов запроса в документ), применяемому в большинстве поисковых машин, на первых страницах списка практически все документы окажутся релевантными (существенными, относящимися к делу), причём документ-источник может находиться далеко от начала 3. Отбор поисковых машин. На этом этапе устанавливается последовательность использования поисковых машин в соответствии с убыванием ожидаемой эффективности поиска с применением каждой машины. Всего известно около поисковых серверов, различающихся по регионам охвата, принципам проведения поиска (а, следовательно, по входному языку и характеру воспринимаемых запросов), объему индексной базы, скорости обновления информации, способности искать «нестандартную» информацию и тому подобное. Основными критериями выбора поисковых серверов являются объём индексной базы сервера и степень развитости самой поисковой машины, то есть уровень сложности воспринимаемых ею запросов.
4. Формирование и выполнение запросов к поисковым машинам. Это наиболее сложный и трудоёмкий этап, связанный с обработкой большого количества информации (в основном шумовой). На основе тезауруса формируются запросы к выбранным поисковым серверам, после чего возможно уточнение запроса с целью отсечения очевидно нерелевантной информации и отбора ресурсов, начиная с наиболее интересных, с точки зрения целей поиска. Данные с ресурсов, признанных релевантными, собираются для последующего анализа.
Запросы составляются так, чтобы область поиска была максимально конкретизирована и сужена. Предпочтение отдается использованию нескольких узких запросов по сравнению с одним расширенным. В общем случае для каждого основного понятия из тезауруса готовится отдельный пакет запросов. Так же производится пробная реализация запросов – как для уточнения и пополнения тезауруса, так и с целью отсечения шумовой информации. При составлении запроса для различных машин поиска целесообразно использовать следующие функции:
• Операторы булевой алгебры AND, OR, NOT: AND (И) – осуществляется поиск документов, содержащих все термины, соединённые данным оператором;
OR (ИЛИ) – искомый текст должен содержать хотя бы один из терминов, соединённых данным оператором; NOT (НЕ) – поиск документов, в тексте которых отсутствуют термины, следующие за данным оператором.
• Операторы расстояния - ограничивают порядок следования и расстояния между словами, например: NEAR – второй термин должен находиться на расстоянии от первого, не превышающем определенного числа слов; FOLLOWED BY – термины следуют в заданном порядке; ADJ – термины, соединенные оператором, являются смежными.
• Возможность усечения терминов – использование символа «*» вместо окончания термина позволяет включить в искомый список все слова, производные от его начальной части (шаблона).
• Учет морфологии языка - машина автоматически учитывает все формы данного термина, возможные в языке, на котором ведется поиск.
• Возможность поиска по словосочетанию, фразе, заключённых в кавычки.
• Ограничение поиска элементом документа (слова запроса должны находиться именно в заголовке, первом абзаце, ссылках и т.д.).
• Ограничения по дате опубликования документа.
• Ограничения на количество совпадений терминов.
• Возможность поиска графических изображений.
• Чувствительность к строчным и прописным буквам.
5. Обработка результата запроса. Результат запроса (список ссылок) обрабатывается в два этапа.
На первом этапе производится отсечение очевидно нерелевантных источников, попавших в выборку в силу несовершенства поисковой машины или недостаточной точности запроса. Параллельно проводится уточнение тезауруса для модификации последующих запросов.
На втором производится предварительная оценка найденных источников путём последовательного обращения на каждый из найденных ресурсов и анализа находящейся там информации.
Проблемы, возникающие в процессе поиска Одна из проблем является чисто методологической. Для проведения эффективного поиска мы заинтересованы в одновременном решении двух противоположных задач:
- увеличение охвата с целью извлечения максимального количества значимой информации;
- уменьшение охвата с целью минимизации шумовой информации.
Нетрудно видеть, что одновременно осуществить это довольно сложно, хотя зачастую все-таки возможно. Один из методов (если поисковая машина позволяет) это введение явных ограничений (запрещенных слов). Другой состоит в правильном формировании запросов, в частности, в предпочтении нескольких конкретизированных запросов одному общему. К сожалению, весьма ограниченный входной язык большинства машин не оставляет особенного простора для творчества в этом направлении.
Другая проблема – многовариантность человеческого языка. Если в английском языке некоторые слова имеют множество различных значений, то русский отличается богатством морфологических вариаций слов, а для полноты поиска необходимо учитывать ещё и синонимы.
Часто в области российского Интернета возникают чисто технические трудности из-за различных кодировок информации. Российские поисковые машины распознают кодировки пользователя и искомого сайта, но совместить их удаётся не всегда.
Ещё одна особенность русскоязычной части сети – её нестабильность. Постоянно изменяются адреса и структура сайтов, они появляются и исчезают, и поисковые машины не успевают обновлять свои базы индексированных данных, поэтому значительная часть списка документов, выданного машиной, может оказаться недоступной.
Особенности поиска информации различных категорий в Интернете Наиболее распространенные поисковые системы и рекомендуемые методы поиска информации в Интернете касаются Web-публикаций, компаний и проектов. Однако в поиске информации особую позицию занимают такие категории, как «люди» и «новости».
На поиск людей обычно тратится много усилий, которые далеко не всегда оказываются успешными. Ввод имени человека и последующее изучение результатов может вывести нас на нужную персону только, если она каким-то образом оставила свой след в WWW в виде подписей под своими публикациями или включила свои координаты где-либо, например, в компании, как должностное лицо, или в форуме. Причём, если разыскиваемое лицо имеет привычку подписываться своим настоящим именем и если у разыскиваемого есть домашняя страничка, Web-дневник или привычка участвовать в многочисленных Интернет-форумах. Для решения поставленной задачи - поиска нужного человека неплохой стратегией должен быть поиск по ресурсам типа телефонного справочника. Но такие ресурсы стоят особняком от основных поисковых систем.
Новости также стоят особняком от обычных информационных поисковых систем. Их содержание с большой достоверностью индексировать и каталогизировать практически невозможно. Как только новости попадают в поле зрения реальных поисковых систем, то они становятся уже устаревшими новостями.
Для таких целей и существуют специальные поисковые системы новостей, которые после ввода в форму поиска ключевого слова дают возможность пробежаться по ссылкам на различные издания. Технология поиска наиболее актуальных и свежих материалов постоянно совершенствуется и обретает новую функциональность. Часто поиск новостей включается особым пунктом на страничке поисковой системы. Поэтому, в настоящее время самые лучшие источники новостей – специализированные порталы новостей и «зеркала» бумажных изданий, радио- и телевизионных станций.
3. Поисковые системы Google [10] Google — первая по популярности в мире поисковая система, обрабатывающая более 40 миллиардов запросов в месяц.
Microsoft PowerPoint и других и использует при поиске информации идею о том, что Web-страница должна считаться тем «важнее», чем больше на неё ссылается других страниц, и чем более «важными» в свою очередь являются эти страницы.
Для индексации сайтов Google использует поисковый робот Googlebot, который является основным роботом сканирующим содержание страницы для отыскания и/или наложения поискового индекса. Помимо него существуют ещё несколько специализированных роботов:
• Googlebot-Mobile — робот индексирующий сайты для мобильных устройств;
• Google Search Appliance (Google) gsa-crawler — поисковой робот нового аппаратно-программного комплекса;
• Googlebot-Image — робот, сканирующий страницы для индекса картинок;
• Mediapartners-Google — робот сканирующий контент (содержание) страницы для определения содержания;
• Adsbot-Google — робот сканирующий контент для оценки качества целевых страниц.
Google также использует алгоритм расчёта авторитетности страницы с помощью PageRank.
PageRank — алгоритм ссылочного ранжирования Алгоритм применяется к коллекции документов, связанных гиперссылками (таких, как Web-страницы из World Wide Web), и назначает каждому из них некоторое численное значение измеряющее его «важность» или «авторитетность»
среди остальных документов. Вообще говоря, алгоритм может применяться не только к Web-страницам, но и к любому набору объектов, связанных между собой взаимными ссылками, то есть к любому графу.
PageRank — это числовая величина, характеризующая «важность» Webстраницы. Чем больше ссылок на страницу, тем она становится «важнее». Кроме того, «вес» страницы «А» определяется весом ссылки, передаваемой страницей «B». Таким образом, PageRank — это метод вычисления веса страницы путём подсчёта важности ссылок на неё.
Надстройка для браузера Google Toolbar показывает для каждой веб-страницы целое число от 0 до 10, которое она называет PageRank, или важностью этой страницы с точки зрения Google.
Поиск в Google работает следующим образом:
• ищутся все страницы, в которых есть слова из запроса пользователя;
• найденные страницы ранжируются на основе текстовых критериев;
• учитывается текст ссылок на сайт;
• результаты корректируются с учётом PageRank каждой страницы.
Как уже отмечалось, шкала PageRank может изменяться от 0 до 10. Перерасчёт значимости страниц происходит во время так называемого «Google Dance».
Можно придерживаться примерно такой градации оценок Web-сстраниц: параметр PageRank (PR) от 4 до 5 — наиболее типичный для большинства сайтов средней «раскрученности». 6 — очень хорошо «раскрученный» сайт. 7 — величина, практически недостижимая для множества сайтов, но иногда встречается.
Значения 8, 9, 10 имеют исключительно популярные и значимые проекты. Например, в данный момент у сайта русской Википедии PR равен 8, у английской Википедии, gnu.org и у сайта Microsoft — 9. Значение 10 имеют всего несколько десятков сайтов. В их числе сам Google. Ранее это были также http://www.whitehouse.gov, http://www.adobe.com, http://w3c.org и т.д.
Следует отметить, что PageRank — это параметр относящийся к каждой отдельной странице, но не всему сайту в целом. На одном сайте могут находиться страницы с разным PageRank.
Недостаток Google: Google не проводит морфологический поиск на русском языке.