Химия (научно-производственная деятельность)
Химия (научно-педагогическая деятельность)
Информационные
технологии
в химии
А. А. Рагойша
Лекция 2
1. Текстовые базы данных
• База данных (database) упорядоченный информационный массив,
состоящий из стандартных блоков.
Классификация по типу содержимого:
текстовые,
числовые,
формульные,
...
Структура базы данных (с точки зрения пользователя) • Запись (record) стандартный блок информации • Поле (field) смысловой фрагмент записи Поля:
текстовые, числовые и др.
Запись в каталоге библиотеки • Поисковая программа (search and retrieval software) имеет страницу с поисковым бланком, предназначенным для формулирования запроса • Запрос (query) поисковое задание, содержащее поисковые термины и инструкцию по их интерпретации программой Пример запроса:
натрий Заполняем поисковый бланк:
Поисковая программа ищет в своей базе данных те записи, в которых присутствует слово натрий Список обнаруженных записей выводится на экран Поиск - не по смыслу, а по факту наличия термина!
2. Синтаксис запроса в текстовых базах данных Нет стандартного синтаксиса запроса.
У каждой программы свои правила.
Иногда правила совпадают (но необязательно, что полностью).
Бывает, что некоторые элементы разными поисковыми программами воспринимаются с точностью до наоборот.
Логические (Булевы) операторы &,...
• AND натрий AND калий варианты обозначений • OR |,...
натрий OR калий • NOT -, (andnot, and not, but not) натрий NOT калий Оператор по умолчанию (default operator) Пример: Обе записи равнозначны, если AND – по умолчанию:
натрий AND калий натрий калий Порядок выполнения операций • Сначала: NOT и AND, затем: OR • Если нужно, порядок меняют круглыми скобками Пример:
Найти записи, в которых:
обязательно присутствует натрий или калий и обязательно присутствует фосфат или силикат Правильно:
(натрий OR калий) AND (фосфат OR силикат) Неправильно:
натрий OR калий AND фосфат OR силикат • Кавычки Пример:
(символом подчеркивания обозначен пробел) • WITH/n, NEAR/n (W/n, N/n, WITH,...) Пример:
Пример:
* ("звездочка") заменяет любое число символов ( в т. ч. нулевое) фосфат, фосфатами, фосфатирование,...
фосфат, дифосфат, полифосфат,...
Wildcard. Truncation (right-hand, left-hand) ? (вопросительный знак) заменяет один символ Как правило:
При шаблоне оставлять не менее трех букв.
Не использовать шаблон внутри кавычек.
Шаблон увеличивает количество информационного мусора в результатах поиска • Stemming – режим работы поисковой программы, при котором происходит учет грамматических форм терминов (учет морфологии) фосфат, фосфатами, фосфатный,... (полифосфат - ?) Не проводить stemming:
Варианты в тексте:
... температура кипения метана...
... Метан. Температура кипения:...
... с метаном, характеризующимся Варианты в запросе:
• stemming отсутствует "температура кипения метана" • stemming включен • Стоп-слова (stopwords) слова, которые при поиске не учитываются.
Это слова, не несущие самостоятельной смысловой нагрузки, но особенно часто встречающиеся в тексте:
Включить стоп-слово в поиск:
• Абсолютное большинство поисковых программ нечувствительно к регистру букв – для них строчные и заглавные буквы в запросе равнозначны.
• Поиск можно сделать более эффективным, если проводить его не по записям в целом, а только по избранным полям.
Для этого в запросе рядом с поисковым термином указывают код соответствующего поля.
Коды полей в разных базах данных – разные.
• Простейший, Basic, Quick, Simple • Расширенный, Advanced, Expert Классификация условна – в рамках определенной базы данных.
Обычно такие бланки называют Quick Search Пример бланка Поиск по двум разным полям; использование булевых операторов; выбор временного интервала.
Пример бланка • Графа бланка (редактируемая графа, редактируемое поле).
• Список.
• Меню (выпадающий список).
• Переключатель.
• Выключатель.
• Текстовые пояснения.
• Ссылка на иной бланк.
• Ссылка на блок инструкций.
• Кнопка начала поиска.
Список результатов поиска Пользователь получает результаты поиска в форме списка обнаруженных документов.
Список может быть сформирован:
- по алфавиту, - в хронологическом порядке - по релевантности.
Релевантность документа – степень соответствия его поисковому заданию.
При расчете релевантности учитываются:
• количество поисковых терминов в документе, • расстояние между ними в тексте, • число упоминаний каждого из них, • их плотность, • их порядок расположения, • их место – в начале записи или в конце, Отбирая поисковые термины, учитываем, что:
• Поисковый термин – это слово, которое присутствует в искомом документе.
• Поисковый термин должен быть достаточно специфичным по своему смыслу, по крайней мере, в используемой базе данных.
• Одно и то же понятие может быть выражено несколькими способами.
• Разные научные школы могут пользоваться разными обозначениями одного и того же понятия.
Помогает при отборе:
• Предварительное изучение литературы • Использование алфавитных указателей (если они есть в базе данных) • Название (Title) Пример:
• Реферат (Abstract) • Полный текст (Full text) Последовательность ведения тематического поиска 1. По полю "Названия" 2. По полю "Рефераты" 3. По полным текстам документов 3. Синтаксис запроса в поисковых системах Особенности работы поисковых систем Предназначены для широкой публики Упростить взаимодействие с системой Синтаксис упрощен (особенно внешне) Нечеткость запроса (и это обоснованно) Избыточность извлекаемой информации Огромный список результатов поиска Главное – не величина списка, а качество сортировки Расчет ранга веб-страницы – т.е. ее авторитетности Сколько ссылок с других страниц на данную?
Каков ранг ссылающихся страниц?
Расчет релевантности:
Вклад 1: поисковые термины на странице Вклад 2: ранг страницы Релевантность страницы в списке результатов поиска • Простейший – Усложненный Простейший – одна графа • На простейшем бланке:
предполагается, что запрос – перечень слов, разделенных пробелами • Оператор по умолчанию:
AND – чаще всего • Операторы отображать ЗАГЛАВНЫМИ буквами • AND, +, & натрий AND калий Обычно достаточно:
натрий +калий • OR, |,...
натрий | калий • NOT, натрий NOT калий натрий -калий • Stemming По-разному, чаще - да • Стоп-слова По-разному, чаще - да • "текст в кавычках" разрешен всеми системами • Нечувствительны к регистру большинство • Частичная чувствительность – извлекаются документы со словом азот, Поиск по полям документов • Возможен, но полезность ограниченна основная часть информации на веб-странице находится в одном самом большом поле • Синтаксис у разных систем - разный найти документы, содержащие слово Запрос:
allintitle:фосфат Google Усложненный бланк • Несколько граф • Выключатели, переключатели и т. д.
для назначения параметров поиска • Наглядность при формулировании заданий средней и выше чем средней сложности На усложненном бланке можно реализовать не все синтаксические возможности данной поисковой программы Google Google