Информационные
технологии
в химии
Александр Антонович
Рагойша
Кафедра общей химии и методики
преподавания химии
к. 501-а
Химия (научно-производственная деятельность)
Химия (научно-педагогическая деятельность)
• 1-й семестр: 50 часов
(10 лекции + 32 практикум + 8 КСР)
Зачет
• 2-й семестр: 40 часов
(6 лекции + 26 практикум + 8 КСР)
Экзамен
ОСНОВНАЯ ЛИТЕРАТУРА
• А. А. Рагойша. Поиск химической информации в Интернете.
Поисковые системы и тематические каталоги: Учеб. пособие для студентов хим. фак. – Мн.: БГУ, 2003.
• А. А. Рагойша. Поиск химической информации в Интернете:
научные публикации : учеб. пособие для студентов хим. фак.
спец. 1-31 05 01. – Мн.: БГУ, 2007.
• В. М. Потапов, Э. К. Кочетова. Химическая информация. Где и как искать химику нужные сведения. – М.: Химия, 1988.
• А. А. Рагойша. Азбука веб-поиска для химиков. – Минск, БГУ, 1999-2010. http://www.abc.chemistry.bsu.by.
• Chemoinformatics: A Textbook. Edited by Johann Gasteiger and Thomas Engel. – Wiley-VCH, 2003.
• B. A. Bunin, B. Siesel, G. A. Morales, J. Bajorath.
Chemoinformatics: Theory, Practice, & Products. – Springer, 2007.
http://www.abc.chemistry.bsu.by
ДОПОЛНИТЕЛЬНАЯ ЛИТЕРАТУРА
• Andrew R. Leach, Valerie J. Gillet. An Introduction to Chemoinformatics. – Springer, 2007.• Е. А. Устинова. Формулы изобретения на химические объекты. – М.: ИНФРА-М, 1997.
• James A. West, Margaret L. West. Using Wikis for Online Collaboration : The Power of the Read-Write Web. – John Wiley & Sons, Inc., 2009.
• Руководства пользователя к прикладным программам.
• И. Г. Захарова. Информационные технологии в образовании: учеб. пособие для студ. высш. учеб.
заведений. М.: Академия, 2005. --- (науч.-пед.) --История • Paul Baran (род. 1926 г., Гродно) 1960-е гг.: распределенная компьютерная сеть, пакеты данных • Tim Berners-Lee 1989 г.: гипертекст + протокол TCP + система доменных имен = = World Wide Web;
браузер, веб-сервер, W3C 1. Терминология WWW • Интернет — (inter — меж- + net — сеть) — сеть, объединяющая много компьютерных сетей.
• World Wide Web (WWW, Web, W3, Всемирная паутина, веб) — система взаимосвязанных между собой документов, доступных через Интернет.
Документ — любой целостный автономный информационный массив, не только текстовый, но и, например, видео-, аудио- и т. д.
Гипертекст • Протокол — набор правил.
• HTTP (Hypertext Transfer Protocol) — протокол передачи гипертекста.
• Гипертекст — «текст ветвящийся или выполняющий действия по запросу» (Тед Нельсон, 1965).
• Гиперссылка (ссылка, link) – часть гипертекстового документа, указывающая на другую часть этого документа или на другой документ.
Домен • IP-адрес — числовой идентификатор компьютера(ов) в сети.
Пример: 217.21.43. • Доменное имя — буквенно-числовой идентификатор узлов сети и ресурсов, расположенных на узлах.
Примеры: www.abc.chemistry.bsu.by • Общий домен верхнего уровня без регистрационных ограничений с ограничениями («спонсируемые») • Национальный домен верхнего уровня • Сайт (веб-сайт, website,...) — информационный массив, находящийся на сервере и доступный внешним пользователям.
Единый стиль Структура может быть иерархичной • Веб-страница (страница, webpage, page) — документ, который можно получить в ходе одного обращения к серверу.
Веб-страницы: статические, динамические • Адрес (URL, Uniform Resource Locator) стандартизированный указатель местонахождения информации и способа ее получения.
http://www.abc.chemistry.bsu.by/current/a.htm http://www.bl.uk/eresources/jnls/ejournals.html#free http://www.bsu.by/ru/main.aspx?guid= http://scout-unimib.cilea.it/links/SPT--FullRecord.php?
ResourceId=491&PHPSESSID=d666f9f88fe19ef http://ru.wikipedia.org/wiki/%D0%91%D0%93%D0%A (http://ru.wikipedia.org/wiki/БГУ) ftp://ftp.netscape.com/robots.txt • Главная страница (Первая, Home Page, Main Page, …) — титульная веб-страница информационного массива.
страница по умолчанию (default page) www.abc.chemistry.bsu.by http://www.abc.chemistry.bsu.by/ http://www.abc.chemistry.bsu.by/default.htm http://www.12345.org/ www.1abc.2def.org/mmm/nnn/ppp.htm?id= www.1abc.2def.org/mmm/nnn/ppp.htm www.1abc.2def.org/mmm/nnn/ www.1abc.2def.org/mmm/ www.1abc.2def.org/ www.2def.org/ 1abc.2def.org/ (Search engine) • робот (паук) • индекс (база данных) • поисковая программа, веб-интерфейс Универсальные поисковые системы:
Специализированные (вертикальный поиск) Тематический каталог Каталог (Directory) Еще указатели веб-ресурсов:
• Метапоисковая система использует индексы нескольких иных поисковых систем • Специализированная база данных (робот • Метасайт небольшой по объему сборник ссылок на вебстраницы • Портал многопрофильный сайт, предлагающий широкий спектр информационных услуг http://www.worldwidewebsize.com/ 20-60 млрд. страниц (сент. 2010) Скрытый веб (глубокий, невидимый, темный) онлайновые ресурсы, не попавшие в индексы универсальных поисковых систем.
• Информация в базах данных • Защищенная паролями и т.п.
• Запрещенная к индексированию владельцами • Страницы, формируемые динамически • Информация в нетекстовых файлах • (Свежая, поэтому еще не проиндексированная) Скрытого в сотни раз больше, чем видимого • (Web 1.0) — условный термин;
• Web 2.0 — интерактивные сайты, где пользователи изменяют содержание; социальные сети; вики; блоги;
онлайновые прикладные программы.
• Web 3.0 — предполагаемая следующая стадия развития, включающая «семантический веб»
Семантический веб будет основан на компьютеризованном распознавании смысла информации в документах.
Два метода работы с онлайновыми ресурсами:
• Browse (перелистывание) — движение по ссылкам.
• Search (поиск) — целенаправленное извлечение с помощью программы.
Браузер (browser) — прикладная программа, предназначенная для работы с веб-ресурсами.
MS Internet Explorer (Обозреватель), Mozilla Firefox, Opera, Google Chrome О достоверности информации Традиционная vs. онлайновая • Печатная литература автор известен контроль со стороны издателя • Научная литература система рецензирования (peer review) • Веб-источники анонимность, отсутствие контроля – почти норма Достоверность информации лежит в широких пределах:
от объективной - до субъективной, от полностью достоверной - до ложной и до намеренно сфальсифицированной В основе оценки онлайнового источника лежат известные критерии оценки печатных источников:
Репутация автора;
Контроль качества;
Объективность изложения;
Актуальность;
Охват.
• Рекламные блоки могут казаться частью документа.
• Отсканированный и оптически распознанный текстовый материал редко выверяется корректорами.
• Содержание веб-страницы может быть изменено несанкционированно (атака хакера, прихоть администратора).
• Проблемы авторства особенно остро проявляются в форумах и блогах.
Явные признаки низкокачественного ресурса:
• Обилие опечаток и грамматических ошибок.
• Развязный стиль изложения.
Эксперт тщательно оценивает содержание, а обычный потребитель больше доверяет внешнему виду страницы.
Доменное имя достоверность выше:
достоверность ниже:
Папки повысить бдительность:
• университетов, • научных обществ, • научных издательств, • официальных патентных бюро, • авторитетных коммерческих организаций, • персональные сайты ученых.
• иметь свою голову, • включать при работе свой мозг, • извлекать информацию из авторитетных источников, • стремиться работать с первоисточниками.
Текстовые базы данных • База данных (database) упорядоченный информационный массив, состоящий из стандартных блоков.
Классификация по типу содержимого:
Структура базы данных (с точки зрения пользователя) • Запись (record) стандартный блок информации • Поле (field) смысловой фрагмент записи Поля:
текстовые, числовые • Поисковая программа (search and retrieval software) имеет страницу с поисковым бланком, предназначенным для формулирования • Запрос (query) поисковое задание, содержащее поисковые термины и инструкцию по их интерпретации программой Заполняем поисковый бланк:
Поисковая программа ищет в своей базе данных те записи, в которых присутствует слово натрий Список обнаруженных записей выводится на экран Поиск - не по смыслу, а по факту наличия термина!
Синтаксис запроса в текстовых базах данных Нет стандартного синтаксиса запроса.
У каждой программы свои правила.
Иногда правила совпадают (но необязательно, что полностью).
Бывает, что некоторые элементы разными поисковыми программами воспринимаются с точностью до наоборот.
Логические (Булевы) операторы • AND натрий AND калий натрий OR калий натрий NOT калий Оператор по умолчанию (default operator) Пример: Обе записи равнозначны, если AND – по умолчанию:
Порядок выполнения операций • Сначала: NOT и AND, затем: OR • Если нужно, порядок меняют круглыми скобками Пример:
Найти записи, в которых:
обязательно присутствует натрий или калий и обязательно присутствует фосфат или силикат Правильно:
(натрий OR калий) AND (фосфат OR силикат) Неправильно:
натрий OR калий AND фосфат OR силикат • Кавычки Пример:
(символом подчеркивания обозначен пробел) • WITH/n, NEAR/n (W/n, N/n, WITH,...) Пример:
Пример:
* ("звездочка") заменяет любое число символов ( в т. ч. нулевое) фосфат, фосфатами, фосфатирование,...
фосфат, дифосфат, полифосфат,...
Wildcard. Truncation (right-hand, left-hand) ? (вопросительный знак) заменяет один символ Как правило:
При шаблоне оставлять не менее трех букв.
Не использовать шаблон внутри кавычек.
Шаблон увеличивает количество информационного мусора в результатах поиска • Stemming – режим работы поисковой программы, при котором происходит учет грамматических форм терминов (учет морфологии) фосфат, фосфатами, фосфатный,... (полифосфат - ?) Не проводить stemming:
Варианты в тексте:
... температура кипения метана...
... Метан. Температура кипения:...
... с метаном, характеризующимся Варианты в запросе:
• stemming отсутствует "температура кипения метана" • stemming включен • Стоп-слова (stopwords) слова, которые при поиске не учитываются.
Это слова, не несущие самостоятельной смысловой нагрузки, но особенно часто встречающиеся в тексте:
Включить стоп-слово в поиск:
• Абсолютное большинство поисковых программ нечувствительно к регистру букв – для них строчные и заглавные буквы в запросе равнозначны.
• Поиск можно сделать более эффективным, если проводить его не по записям в целом, а только по избранным полям.
Для этого в запросе рядом с поисковым термином указывают код соответствующего поля.
Коды полей в разных базах данных – разные.
• Простейший, Basic, Quick, Simple • Расширенный, Advanced, Expert Классификация условна – в рамках определенной базы данных.
Обычно такие бланки называют Quick Search Пример бланка Поиск по двум разным полям; использование булевых операторов; выбор временного интервала.
Пример бланка • Графа бланка (редактируемая графа, редактируемое поле).
• Список.
• Меню (выпадающий список).
• Переключатель.
• Выключатель.
• Текстовые пояснения.
• Ссылка на иной бланк.
• Ссылка на блок инструкций.
• Кнопка начала поиска.
Список результатов поиска Пользователь получает результаты поиска в форме списка обнаруженных документов.
Список может быть сформирован:
- по алфавиту, - в хронологическом порядке - по релевантности.
Релевантность документа – степень соответствия его поисковому заданию.
При расчете релевантности учитываются:
• количество поисковых терминов в документе, • расстояние между ними в тексте, • число упоминаний каждого из них, • их плотность, • их порядок расположения, • их место – в начале записи или в конце, Отбирая поисковые термины, учитываем, что:
• Поисковый термин – это слово, которое присутствует в искомом документе.
• Поисковый термин должен быть достаточно специфичным по своему смыслу, по крайней мере, в используемой базе данных.
• Одно и то же понятие может быть выражено несколькими способами.
• Разные научные школы могут пользоваться разными обозначениями одного и того же понятия.
Помогает при отборе:
• Предварительное изучение литературы • Использование алфавитных указателей (если они есть в базе данных) • Название (Title) Пример:
• Реферат (Abstract) • Полный текст (Full text) Последовательность ведения тематического поиска 1. По полю "Названия" 2. По полю "Рефераты" 3. По полным текстам документов