«Писляков Владимир Владимирович ИНФОРМЕТРИЧЕСКОЕ МОДЕЛИРОВАНИЕ ПРОЦЕССА ОБРАЩЕНИЯ К ЭЛЕКТРОННЫМ ИНФОРМАЦИОННЫМ РЕСУРСАМ Специальность 05.13.18 – Математическое моделирование, численные методы и комплексы программ ...»
Казанский государственный университет
НИИ математики и механики им. Н. Г. Чеботарева
На правах рукописи
Писляков Владимир Владимирович
ИНФОРМЕТРИЧЕСКОЕ МОДЕЛИРОВАНИЕ ПРОЦЕССА
ОБРАЩЕНИЯ К ЭЛЕКТРОННЫМ ИНФОРМАЦИОННЫМ РЕСУРСАМ
Специальность 05.13.18 – Математическое моделирование, численные методы и комплексы программ Диссертация на соискание ученой степени кандидата физико-математических наук
Научный руководитель Доктор физ.-мат. наук, профессор, заслуженный деятель науки РТ А. М. Елизаров Казань –
СОДЕРЖАНИЕ
ВведениеГлава 1. Электронные издания и процесс их использования
1.1. Базы данных научных информационных источников: структура и классификация
1.2. Процесс использования электронных изданий как объект информетрического моделирования
1.3. Системы сбора и обработки статистики использования электронных изданий
1.4. Методы и набор статистических данных, используемые в моделировании при помощи информетрических законов
Глава 2. Моделирование процесса обращения к электронным информационным источникам при помощи информетрического закона Брэдфорда
2.1. Формулировка закона Брэдфорда
2.1.1. Вербальная формулировка закона Брэдфорда
2.1.2. Графическая формулировка закона Брэдфорда
2.1.3. Охват законом Брэдфорда различных информационных процессов....... 2.2. Закон Брэдфорда как модель процесса обращения к электронным информационным источникам
2.3. «Ядро» изданий и закон Брэдфорда
2.1.1. Методы выделения ядра изданий при помощи закона Брэдфорда.......... 2.1.2. Ядро изданий при моделировании процесса обращения к электронным информационным источникам с применением закона Брэдфорда
Глава 3. Моделирование процесса обращения к электронным информационным источникам при помощи информетрического принципа Парето
3.1. Формулировка принципа Парето и примеры его действия
3.2. Кривая Лоренца, индекс Джини и выделение ядра журналов с использованием принципа Парето
3.3. Принцип Парето как модель процесса обращения к электронным информационным источникам
3.4. Ядро изданий при моделировании процесса обращения к электронным информационным источникам с применением принципа Парето и индекса Джини..... Глава 4. Моделирование процесса обращения к электронным информационным источникам при помощи других информетрических законов
4.1. Закон Леймкулера
4.2. Закон Лотки
4.3. Закон Ципфа
Заключение
Список литературы
Приложения
1. Таблица значений для исследования закона Брэдфорда
2. Ядро читательского спроса на периодику, определенное при помощи информетрической модели Брэдфорда
3. Итерации нелинейной регрессии при приближении экспериментальных данных законом Леймкулера
Введение Статистический анализ научной и образовательной деятельности получает всё большее распространение как в мировой, так и в отечественной практике [99; 105; 2; 5; 6; 4; 110]. Одним из наиболее важных направлений такого анализа является выявление и изучение статистических закономерностей производства, поиска и использования информации — направление, выделенное в отдельную молодую отрасль, информетрию (см., в частности, [66; 1])1.
Широко распространенным методом изучения информационных потоков является информетрическое моделирование — математическое моделирование информационных процессов с использованием информетрических законов. Такое моделирование заключается в выявлении эмпирических закономерностей, наблюдаемых в значительном числе информационных процессов, облечении их в строгую математическую форму и распространении данных моделей на остальные процессы, однотипные исследованным. Одним из упрощенных примеров использования готовой модели, основанной на информетрическом законе Лотки, служит оценка суммарного количества I статей, написанных группой из S произвольно выбранных пишущих авторов (т. е. ученых, опубликовавших хотя бы одну статью):
К информетрии плотно прилегают еще две области знания — библиометрия и наукометрия. Разграничение их «полномочий» зависит от конкретных определений этих наук, которые подчас отличаются у разных авторов. Мы придерживаемся представления, что библиометрия занимается только опубликованной информацией, документами, являясь, таким образом, подмножеством информетрии. Наукометрия значительным образом пересекается с информетрией, хотя есть и несовпадающие области: например, вопросы использования ненаучной информации или вопросы чистого спроса на информацию, без ее воспроизводства, не являются предметом собственно наукометрического исследования, в то же время аспекты занятости населения в науке или потоков средств, вкладываемых в R&D, находятся вне рамок информетрии.
Подробнее закон Лотки исследован в параграфе 4.2, а пока заметим, что использование информетрического моделирования дает нам в данном случае возможность без сбора подробных сведений о публикациях каждого ученого, без вникания в особенности научной дисциплины, в которой работает эта группа, исходя только из ее размера, оценить по порядку величины ее суммарную продуктивность.
Отличительное свойство применения математических моделей к социальным процессам (которыми являются процессы производства и использования научной информации) — возможность не интересоваться глубинными причинами наблюдаемых закономерностей и приводящими к ним явлениями, происходящими на микроуровне. Несмотря на то что были предложены объяснения возникновения ряда информетрических законов («успех рождает успех», «принцип наименьших усилий», «принцип максимума энтропии»), собственно информетрическое моделирование строится без оглядки на микроуровень, с использованием закономерностей, обнаруженных в эмпирике, как данного.
Одна из основных задач информетрического моделирования, проводимого на конкретном информационном процессе, — это определение, насколько применим к рассматриваемому процессу, насколько корректно и насколько точно выполняется тот или иной информетрический закон, каковы особенности его применения в данном случае и каковы основные коэффициенты, получаемые в процессе приближения экспериментальных данных используемой моделью. Обобщение подобного рода исследований на целом ряде однотипных информационных процессов позволяет говорить о той или иной степени применимости изучаемых законов к произвольному аналогичному процессу.
Типичная сложность, с которой сталкивается ученый в процессе информетрического моделирования, — это переход от одних условий, в которых тестируется модель, к качественно или количественно другим. Это может быть вызвано изменением масштаба исследования (пример: переход от изучения рассеяния по журналам статей, написанных исследовательской лабораторией, к рассеянию публикаций целой страны), сменой дисциплинарной области, в которой происходит информационный процесс (анализ цитирований статей по математике или по биологии), или заменой самого процесса на аналогичный (переход от изучения статистики чтения какоголибо журнала к статистике его цитирования). Последний случай нам наиболее интересен.
С одной стороны, любой из процессов, подлежащих информетрическому моделированию, сходен с другим, являясь собственно «информационным процессом», или точнее, в терминологии Л. Эгге, «информационным процессом производства» (Information Production Process, IPP [59; 66, pp. 292, 313; 63, p. 101–102]). В нем можно выделить пары «источники — продукты». Например, при написании статей «источником» является автор, «продуктом» — публикация; при изучении рассеяния статей по журналам «источник» — это журнал, а «продукт» — вновь статья; в ходе анализа цитируемости продуктом будет цитирование, а источником — цитировавший или цитируемый автор, статья или журнал и т. д.
С другой стороны, нельзя априорно, без специальных исследований утверждать применимость информетрического закона для всех типов «информационных процессов производства» на основании его подтверждения для одного из таких процессов. Эти вопросы составляют основную проблематику настоящей диссертационной работы. Все законы информетрии, с использованием которых мы будем проводить информетрическое моделирование, исходно были открыты на информационных процессах иной природы, чем те, применимость к которым мы исследуем. Мы моделируем обращение читателей к информационным источникам, т. е. процесс использования информации, в то время как законы Брэдфорда и Леймкулера были открыты для рассеяния статей по журналам, закон Лотки — для распределения статей по авторам, закон Ципфа сформулирован в лингвистических исследованиях частоты употребления слов, а правило Парето — вообще при изучении распределения доходов среди населения.
Итак, фокусировка нашего исследования на том, насколько корректно и гладко можно совершить перенос информетрического моделирования от «исходных» информационных процессов, давших рождение изучаемым моделям, к процессу обращения к документам, информационным ресурсам. Отметим, что сам процесс использования информации иногда выделяется из остальных «информационных процессов производства», так как существенным образом является вторичным информационным процессом:
прежде чем информацию использовать, ее необходимо создать. Это позволяет Л. Эгге относить спрос на информационные источники даже к особому виду информетрии: «линейной трехмерной информетрии» (linear threedimensional informetrics [63, p. 161–163]) или «type/token-taken informetrics»
[61; 43; 63, p. 168–172] (в лингвистике пара «type/token» [84] идентична паре «источники — продукты» в информетрии, а прибавка «taken» указывает на изучение востребованности, «взятия» информации). «Трехмерность»
здесь подразумевает наличие в информетрическом процессе сразу трех узлов, которые назовем: первичные источники, промежуточные продуктыисточники и финальные продукты. Например, первичными источниками могут быть авторы статей (или журналы, опубликовавшие эти статьи);
промежуточными продуктами-источниками — собственно опубликованные статьи; финальными продуктами — цитирования, полученные данными статьями2.
В нашем моделировании обращения к электронным информационным ресурсам в качестве источников будут фигурировать журналы, в качестве финальных продуктов — загрузки читателями полнотекстовых статей из этих журналов. Мы опускаем промежуточное звено «продуктовисточников» — собственно статьи, публикуемые журналами. Для простоты так регулярно делается в информетрических исследованиях. Например, при изучении числа публикаций различных стран опускается промежуточное звено — ученые этих стран, которые создавали данные публикации;
при изучении цитируемости целых журналов нередко не интересуются отдельными статьями, которые и собирают цитируемость издания. В настоящей работе нам не понадобится промежуточный уровень, но, тем не менее, надо отдавать себе отчет, что мы моделируем информационный процесс более сложный, «составной», в отличие от простых процессов, на которых открывались используемые законы. Это, безусловно, добавляет важности вопросу об успешности планируемого перенесения информетрических моделей на исследуемый нами процесс.
Несмотря на изложенные соображения, рассматриваемые в настоящей работе информетрические законы уже неоднократно применялись к интересующему нас процессу — процессу использования информации. Подобных экспериментов проводилось достаточно много для законов Брэдфорда и Парето, где остро стоит вопрос о выделении «ядра» наиболее спрашиваемой и необходимой литературы, меньше — для законов Леймкулера, Вообще говоря процесс цитирования во многом близок к процессу обращения к информационным источникам: и в том и другом случае можно говорить об «использовании» информации — или для написания собственной работы или для простого ознакомления с публикацией. Изучению информетрического процесса цитирования и инструментов для его исследования посвящен ряд работ автора настоящей диссертационной работы [11; 12; 13; 15; 14; 109].
Лотки и Ципфа. Нередко такие опыты были достаточно успешными (обзоры библиографии приведены в соответствующих параграфах).
Отличительной чертой нашего исследования является попытка переноса целого комплекса информетрических моделей из традиционной «печатной» среды в среду электронную. Мы ограничиваемся чтением, обращением к электронным источникам, а именно базам данных периодики с онлайновым доступом, размещенным в сети Интернет (электронные информационные ресурсы JSTOR, EBSCO, ProQuest, ScienceDirect). Таким образом, «перенос» классических информетрических законов осуществляется нами одновременно в двух плоскостях: с тех информационных процессов, где они были исходно сформулированы, на процесс использования информации (при этом мы также переходим от «двумерной» информетрии к «трехмерной») и из печатного окружения — в электронное.
Актуальность проблемы заключается, прежде всего, в том, что исследование соединяет, во-первых, набирающие силу и авторитет в исследованиях науки и образования информетрические и библиометрические методы, во-вторых — завоевывающие всё большую популярность и получающие всё более широкое распространение в наше время электронные информационные ресурсы. Таким образом, в настоящей диссертационной работе объединяются актуальные методы исследования и современный объект, к которым эти методы применяются. В ней также затрагиваются такие насущные вопросы, как трактовка статистических показателей чтения онлайновых ресурсов в вузе, выделение наиболее важных, «ядерных»
изданий из многотысячной их совокупности, построение наиболее оптимального фонда электронных документов при минимизации затрат.
Цели и задачи исследования Целью исследования является применение информетрического моделирования к процессу обращения к электронным информационным ресурсам.
Задачами исследования являются:
— информетрическое моделирование при помощи законов Брэдфорда, Парето, Леймкулера, Лотки, Ципфа на основе экспериментальных данных об обращении к электронным информационным ресурсам, полученных в Государственном университете – Высшей школе — получение и обсуждение основных коэффициентов, найденных в процессе приближения модели к экспериментальным данным;
— анализ применимости информетрических законов для моделирования спроса на электронные документы и исследование особенностей, характерных для такого рода спроса с точки зрения информетрии;
— выделение при помощи законов Брэдфорда, Парето и индекса Джини «ядра», т. е. наиболее спрашиваемых научных журналов в электронной подписке вуза.
Методы исследования В диссертационной работе используются статистические методы, методы математического моделирования, методы интегрального и дифференциального исчисления, методы мониторинга обращений к онлайновым базам данных.
Современные средства анализа процесса обращения к документальным онлайновым базам данных позволяют с высокой степенью достоверности получить статистические показатели чтения пользователями электронных изданий, для того чтобы в дальнейшем применять их в процессе моделирования.
В качестве таких данных в настоящей работе выступает статистика использования электронных онлайновых источников в Государственном Университете – Высшей школе экономики. Сбор и анализ этой статистики производился на протяжении всего 2004 г. (январь-декабрь). Таким образом, имеется «живой» экспериментальный набор данных информетрического процесса. Обладая достаточным объемом для репрезентативности (всего зафиксировано 41959 обращений к статьям из 2590 различных изданий, размещенных в базах данных), этот набор может служить базой для информетрического моделирования.
Далее для каждого информетрического закона осуществляется приближение его коэффициентов для наилучшего совпадения с экспериментальными данными. Регрессионный анализ при определении оптимальных коэффициентов информетрической модели проводился при помощи статистического пакета SPSS версии 12.0 и 14.0. Степень совпадения модели и экспериментальных данных и, таким образом, степень применимости моделирования при помощи того или иного информетрического закона оценивается, там где это возможно, при помощи коэффициента детерминации (R-квадрат).
Научная новизна настоящего исследования содержит несколько аспектов. Прежде всего, в случае большинства информетрических законов (Брэдфорда, Леймкулера, Лотки, Ципфа) нам неизвестны труды предшественников, которые изучали бы применимость этих законов для моделирования процесса использования информации в электронной, онлайновой среде. Кроме того, столь объемный экспериментальный массив (41959 обращений к статьям из 2590 различных изданий) практически невозможно получить в «традиционном» печатном окружении, а потому вообще существует крайне мало исследований, которые осуществляли бы информетрическое моделирование на таком солидном материале. Наконец, использование для эксперимента онлайновых библиотек и систем учета статистики обращений к последним является более точным и достоверным.
К научной новизне данной диссертационной работы также относится введение в отечественный научный оборот ряда современных зарубежных источников по информетрии, которые прежде либо цитировались крайне редко, либо не рассматривались в российских исследованиях вообще.
Достоверность результатов работы в значительной степени определяется достоверностью исходного экспериментального массива, собранного методом анализа лог-файлов системами учета использования электронных ресурсов. Этот метод свободен от многих технических и методологических погрешностей других способов оценки обращений к периодическим изданиям (опросы, статистика возвратов журналов на полки, статистика выдач периодики на абонемент), а потому дает авторитетную экспериментальную базу для исследования. Кроме того, достоверность полученных результатов обеспечивают точные математические методы, применяемые в исследовании, а также профессиональные программные пакеты обработки и анализа статистической информации, использованные нами при информетрическом моделировании.
Практическая значимость диссертационного исследования заключается в возможности применить его методику и основные выводы к созданию и регулированию оптимального фонда онлайновой периодики учебной или научной организации, выделению информационного «ядра» и тех источников, которые являются ключевыми для обеспечения научной и образовательной деятельности.
Апробация результатов проводилась на ряде международных конференций: «SCIENCE ONLINE: электронные информационные ресурсы для науки и образования» (на II, IV, V, X конференциях в 2003, 2004, 2005 и 2007 гг.); «Международная конференция Крым: Библиотеки и информационные ресурсы в современном мире науки, культуры, образования и бизнеса» (на XI и XII конференциях в 2004 и 2005 гг.). Также результаты излагались на семинаре Отделения математического моделирования НИИ математики и механики им. Н. Г. Чеботарева Казанского государственного университета (2007 и 2008 гг., руководитель проф. А. М. Елизаров) и на семинаре «Математические методы анализа решений в экономике, бизнесе, политике» (2007 г., ГУ-ВШЭ, руководители семинара проф. Ф. Т. Алескеров и проф. В. В. Подиновский).
Публикации: результаты исследования опубликованы в 5 работах, в том числе в четырех статьях [3; 8; 9; 13] в журналах из Перечня, рекомендованного ВАК для публикации результатов диссертационных работ (одна из публикаций в соавторстве). Одна из этих статей [9] также была перепечатана в виде главы в коллективной монографии [10].
Структура и объем диссертации
Работа состоит из введения, четырех глав, заключения, списка литературы и трех приложений.
Содержание работы Во введении производится постановка проблемы, определяется понятие информетрического моделирования и излагается краткая история вопроса.
Первая глава содержит обзор методов, применяемых в работе, и характеристик объектов настоящего исследования. Приведены описания и информетрические параметры электронных баз данных, включенных в исследование; изложено представление о процессе обращения к электронным изданиям с точки зрения информетрического моделирования; описаны инструментарий и процесс получения статистики использования электронных информационных ресурсов; дана характеристика полученного статистического массива и указаны операции, подготавливающие его к использованию в качестве опорных экспериментальных данных при информетрическом моделировании.
Вторая глава посвящена моделированию процесса обращения к электронным информационным ресурсам при помощи закона Брэдфорда и состоит из трех параграфов. В параграфе 2.1 дается определение информетрического закона Брэдфорда в двух формах («вербальной», т. е. математической, и графической), излагаются основные методы определения оптимальных коэффициентов в модели Брэдфорда, а также приводится обзор литературы с фокусом на применении закона Брэдфорда к различным процессам использования информации. Далее в параграфе 2.2 при помощи закона Брэдфорда строится модель обращения к электронным источникам — реальные данные разбиваются на «зоны Брэдфорда» согласно математической формулировке закона, проводится подбор эмпирических коэффициентов закона различными методами, а также строится кривая Брэдфорда («библиограф»). Устанавливается, что закон Брэдфорда не выполняется в своей классической «вербальной» формулировке, однако график обращения к источникам хорошо соответствует предсказанному виду кривой Брэдфорда. В параграфе 2.3 излагаются подходы к выделению «информационного ядра» (наиболее спрашиваемых информационных источников) на основе применения модели Брэдфорда. Далее из имеющегося экспериментального массива выделяется ядро, двумя методами — кубической аппроксимацией кривой Брэдфорда с нахождением точки перегиба и привлечением математической формулировки закона для определения границы квазипрямолинейного участка библиографа.
Глава 3 касается информетрического моделирования с использованием закона (принципа, правила) Парето и состоит из четырех параграфов. В параграфе 3.1 дается представление о принципе Парето и приводится ряд его проявлений в различных областях знания, с обзором соответствующей литературы. Параграф 3.2 содержит определение кривой Лоренца и индекса Джини, а также изложение одной из современных методик поиска ядра информационного спроса путем наблюдения за изменением индекса Джини в усеченной выборке журналов. Далее в параграфе 3.3 реальные данные по обращению к электронным информационным ресурсам проверяются на соответствие эмпирическому принципу Парето. Выясняется, что принцип Парето выполняется даже в более сильной форме, чем его классическое определение. Обсуждается различие между соответствием модели Парето экспериментальным данным для отдельных составляющих информационного массива (отдельных баз данных) и для всего массива в совокупности.
Строится кривая Лоренца, численными методами определяется площадь под кривой и вычисляется индекс Джини. Делается вывод о высокой концентрации распределения количества обращений по информационным источникам, после чего в параграфе 3.4 определяется ядро изданий из электронных коллекций ГУ-ВШЭ при помощи закона Парето и индекса Джини.
Это ядро сопоставляется с результатом, полученным в параграфе 2.3 с использованием закона Брэдфорда.
Глава 4 охватывает еще три информетрических закона, при помощи которых осуществляется моделирование процессов обращения к электронным информационным ресурсам. Это законы Леймкулера (параграф 4.1;
здесь площадь под прямой Леймкулера - Лоренца вычисляется в аналитическом виде и сравнивается со значением, полученным в параграфе 3. численными методами), Лотки (параграф 4.2) и Ципфа (параграф 4.3). Делается вывод о принципиальной применимости информетрических моделей, базирующихся на данных законах, к процессам обращения к электронным источникам, и обсуждается наблюдаемое отклонение от «классических» вариантов данных закономерностей.
В заключении диссертационной работы подводятся итоги информетрического моделирования процессов обращения к электронным информационным ресурсам при помощи различных законов, делается вывод о пригодности большинства из них к такого рода исследованиям и обсуждаются перспективы дальнейшего применения информетрии к моделированию процессов производства и использования научной информации.
Положения диссертации, выносимые на защиту:
— Методология применения основных информетрических законов (Брэдфорда, Парето, Леймкулера, Лотки, Ципфа) для математическому моделированию процесса обращения читателей к электронным информационным источникам.
— Доказательство применимости основных информетрических моделей к экспериментальным данным по обращению читателей к электронным информационным источникам.
— Сформулированный подход к применению основных информетрических моделей для выявления «ядра литературы» (наиболее важных информационных источников).
— Построенная кривая Леймкулера – Лоренца, вычисленный индекс Джини и найденное «ядро литературы» для конкретных экспериментальных данных по обращению читателей к электронным информационным источникам.
1.1. Базы данных научных информационных источников: структура и классификация Последние два десятилетия в информационном обслуживании научных исследований и образовательного процесса наметился существенный сдвиг, связанный с переводом всё большей доли литературы в электронный вид. При этом понятие «электронный вид» является достаточно широким, оно может подразумевать целый ряд принципов организации обращения к информации (локальный доступ, удаленный доступ, гибридный доступ, мобильный доступ) и различных информационных носителей (от магнитной ленты до DVD). В настоящем исследовании нас будет интересовать наиболее технологичная на данный момент форма предоставления научной информации — размещение ее в электронном виде в сети Интернет (размещение «в онлайне»).
Типы научных документов, присутствующих в Интернете, разнообразны. Это монографии, диссертации, препринты, труды конференций, энциклопедии и справочники, статистические таблицы и банки данных проведенных экспериментов и др. Однако со времени первого проникновения академической информации в сеть самым распространенным типом научного Интернет-документа является научная статья. Журналы не только наиболее полно представлены в сети, но и именно к ним идет максимальное число обращений пользователей, читателей.
Можно встретить в Интернете журнал, размещенный отдельно, на собственном специальном сайте, однако нередко академическая периодика объединяется в журнальные коллекции — так выглядят наиболее серьезные ресурсы научных периодических изданий. Размещенные на единой технологической платформе журналы принято называть «журнальными базами данных». Как правило, в рамках базы данных предоставляются два основных способа доступа к информации — Browse и Search. В режиме Browse доступ осуществляется пользователем по иерархии: наименования журналов ® список томов конкретного журнала ® список выпусков тома журнала ® список статей в выпуске ® статья периодического издания. В режиме Search используется стандартный поиск по ключевым словам в тех или иных библиографических полях: автор, заглавие статьи, заглавие журнала, аннотация, полный текст, тематическая рубрика и др.
В журнальных базах данных уровень полноты представления журнала может быть разным: либо только выходные данные о статьях (чисто библиографическая информация), либо, в дополнение, аннотации статей («реферативные базы данных»), либо также списки цитируемой литературы (особые ресурсы, носящие название индексов цитирования), либо — наиболее полное представление журнала — полные тексты статей. Существуют базы, в которых часть изданий представлена в полном тексте, часть — аннотациями или библиографией.
В случае наличия полнотекстовых статей, последние могут быть представлены различными типами файлов. Наиболее распространены html- и pdf-файлы, однако существуют и более специализированные форматы: txt, gif, jpeg, tiff, djvu, а также специальные комбинации, когда, например, в html-текст графики, таблицы, иллюстрации и формулы внедряются в виде графических объектов.
Наконец, говоря о разнообразии представления научной информации в сети, следует уделить внимание и режиму доступа к ней. Немало научных журналов может быть найдено сегодня в открытом доступе, особенно ввиду активизировавшегося в последние годы движения за открытый доступ к информации, Open Access Movement. Тем не менее большинство академических изданий (особенно из наиболее влиятельных) по-прежнему выпускается коммерческими издательствами, а значит как правило размещаются в тех или иных коммерческих ресурсах. В настоящей диссертационной работе будут фигурировать четыре именно таких ресурса.
Производителей коммерческих научных информационных ресурсов принято обобщенно называть «вендорами». Существует два выделенных типа вендоров — издательства и «агрегаторы». Первые (издательства) самостоятельно производят знание (вернее, участвуют в его производстве) — издают научные журналы — и размещают их на своих Интернетплатформах, предоставляя доступ по подписке различным организациям или частным лицам. Обычна ситуация, когда в электронном ресурсе, созданном и поддерживаемом издательством, размещаются журналы только этого издательства и его дочерних структур. Что касается агрегаторов, то они не производят журналы сами, однако заключают договоры, нередко с сотнями различных издательств, и размещают их издания на своей технологической платформе (созданной и поддерживаемой агрегатором). Базы данных издательств обычно содержат несколько сот журналов (для самых крупных издательств — может быть более тысячи), базы данных агрегаторов — несколько тысяч. У агрегаторов может быть смешанное представление журналов — часть в полных текстах, часть в аннотациях — у издательств же все журналы размещаются в полноценном, полнотекстовом варианте.
Издательству, не имеющему собственной технологической платформы, разумно разместить полные тексты своих журналов у какого-либо агрегатора, предоставив тому работу по поддержке (а может быть и созданию) электронных версий собственных изданий, зарабатывая при этом еще некоторые отчисления из средств, полученных агрегатором от своих подписчиков. Однако даже те издательства, которые размещают изданные журналы в собственных электронных ресурсах, нередко предпочитают параллельно заключить договор с одним или несколькими агрегаторами и диверсифицировать таким образом потоки прибыли. Один из способов не создать в таком случае конкуренции своей платформе — отдавать издания в базы агрегаторов с некоторой задержкой относительно выхода печатной версии. Эта искусственная задержка называется в индустрии электронных ресурсов «эмбарго» и составляет чаще всего от 6 до 24 месяцев. В собственную базу данных издательство помещает журнал немедленно, эмбарго в таких случаях не бывает.
В настоящем диссертационном исследовании мы будем обращаться к статистике использования электронных ресурсов трех агрегаторов и одного издательства.
1.2. Процесс использования электронных изданий как объект информетрического моделирования Выдающийся бельгийский специалист по информетрии, главный редактор выходящего с 2007 г. журнала «Journal of Informetrics» Л. Эгге вводит понятие «обобщенной библиографии» или «информационного процесса производства» (Information Production Process, IPP [59; 66, pp. 292, 313;
63, pp. 8, 101–102]). Простейший пример такого процесса — собственно библиография, набор статей по некоторой тематике. Статьи опубликованы в различных журналах, и в этом смысле журналы «производят» статьи.
Также в качестве информационного процесса производства могут быть рассмотрены ссылки, размещенные в различных статьях (статьи «производят» ссылки), авторы, публикующиеся в разных дисциплинах (дисциплины в данном случае «производят» авторов) и др. Ключевой момент в информационном процессе производства — наличие этой пары «источники — продукты», когда «источники» производят «продукты». Например, в случае классической библиографии источником является журнал, продуктом — статья; в процессе цитирования продуктом будет цитирование, а источником — цитировавший или цитируемый автор, статья или журнал и т. д.
Формальное описание IPP, которое приводит Л. Эгге, заключается в наличии множества источников S = [0, T ], множества «продуктов» I = [0, A] и строго возрастающей дифференцируемой функции V :S ® I, причем V (r ) равна кумулятивному числу продуктов, содержащихся в r наименее продуктивных источниках. Отметим, что это «непрерывный» IPP, т. к. r может принимать произвольные значения от 0 до T, в отличие от реального дискретного информационного процесса производства (такая замена нередко проводится, чтобы применить хорошо разработанный математический аппарат интегрального и дифференциального исчисления).
Л. Эгге также приводит «более абстрактный, но совершенно естественный» [63, p. 8] пример IPP — книговыдачу. В данном случае книга является источником, ее выдача читателю — продуктом. В этом смысле книга «производит» свою выдачу.
Аналогичные представления справедливы и в случае использования электронных изданий. Источник — электронный журнал, продукт — открытая статья. Заметим, что, когда мы говорим об использовании электронного издания, в стороне остаются вопросы о том, «насколько полезны»
оказываются полученные пользователем материалы, насколько внимательно он ознакомился с ними, насколько в полной мере прочел их. Даже единица измерения статистических показателей, как мы увидим дальше, достаточно крупна — открытая статья. Мы не сможем зафиксировать открытие и тем более чтение пользователем отдельных страниц статьи3. Можно сказать, что для учета «полноты» использования информации, заключенной в статье, логичнее обращаться к статистике цитирования документов — как правило, для цитирования публикации в собственном научном труде необходимо достаточно глубокое знакомство с ее содержанием. В этом случае мы до какой-то степени переходим к исследованию «полноты» использования, однако сразу теряем целый пласт читателей, — тех, которые не становятся «писателями», изучая научные статьи не для того, чтобы публиковать собственные исследования в соответствующих областях.
Впрочем, ничто не мешает объединять данные количественные исследования чтения и цитирования, и одной из тенденций последнего времени является совместный анализ этих показателей [102; 32; 119; 15].
Можно провести деление информационных процессов производства на «простые» и «составные», для которых в терминологии Л. Эгге применима соответственно «двумерная» и «трехмерная» информетрия (см., например, [59]). Простой процесс имеет одно множество источников, одно множество продуктов и процесс, непосредственно производящий продукты из источников. Такого рода IPP возникают, когда исследуются, например:
— рассеяние статей по журналам;
— рассеяние статей по авторам;
— рассеяние цитирований по статьям;
— распределение выдач по книгам;
Существуют также ситуации, когда имеется одно множество «продуктов», которое производится двумя наборами источников (статьи «производят» журналы, но их же производят авторы), или, наоборот, одно множестЛишь в одной из рассматриваемых здесь баз данных корректно считается показатель загрузки отдельных страниц — в ресурсе JSTOR. На основании этой уникальной статистики можно сделать вывод, что в среднем пользователи ГУ-ВШЭ открывают около двух страниц в каждой статье.
во источников, которое производит два множества продуктов (журналы производят статьи и они же производят выдачи своих номеров на абонемент). Эти ситуации являются «наложением» простых процессов, Л. Эгге поэтому называет описывающую их информетрию «трехмерной».
Однако есть особый случай — как мы говорим, «составной» информационный процесс производства. В этом случае имеется множество «первичных источников», производящих промежуточные продукты, которые одновременно являются, в свою очередь, источниками, производящими «окончательные», финальные продукты. Составной IPP при этом снова распадается на два простых, однако теперь они как бы «следуют друг за другом», один является продолжением и завершением другого, продукт в одном из них служит источником во втором. Например, журнал производит статьи, статьи получают (производят) цитирования. Тем самым итоговый составной процесс заключается в том, что журнал получает цитирования: исследуется цитируемость всего журнала.
Процесс использования электронных периодических изданий также является составным информационным процессом производства — ввиду того что пользователь обращается не к журналу в целом, а к отдельным его статьям. Первичными источниками являются журналы, производящие статьи, которые, в свою очередь, производят свои загрузки — акты открытия их пользователем базы данных. Можно не рассматривать отдельно этот промежуточный узел (статьи), однако стоит иметь в виду, что процесс использования онлайновой периодики является составным и его допустимо рассматривать через призму «линейной трехмерной информетрии» или, применяя вслед за Л. Эгге термины из математической лингвистики, «type/token-taken informetrics» [61; 43]. Некоторые математические последствия этого см., например, в [62; 63, p. 163–172].
Наконец, рассматривая процесс обращения к электронным изданиям как объект информетрического моделирования, необходимо отметить еще один крайне важный аспект: методы сбора статистики использования онлайновых источников лишены обыкновенных технических и методологических погрешностей, свойственных сбору статистики спроса на печатные документы (подробнее см. в следующем разделе). Это позволило провести в настоящем диссертационном исследовании корректное и достоверное информетрическое моделирование.
1.3. Системы сбора и обработки статистики использования электронных изданий Остановимся теперь на процессе получения статистических данных по использованию электронных источников и изложим особенности методологии и технологии их сбора и обработки.
Прежде всего, напомним, какие существуют методы получения статистических данных по востребованности читателями фонда в печатной среде. Идеальной здесь является статистика выдач на абонемент или в читальный зал, зафиксированная автоматизированной информационнобиблиотечной системой — компьютерной программой, при помощи которой книги выдаются читателям. Она легкодоступна (может быть автоматически получена из программы) и точна. Та же статистика, зафиксированная в бумажных формулярах (при отсутствии полной автоматизации процесса выдачи), хотя и остается точной, но на ее обработку будут потрачены значительные усилия.
Однако проблема заключается в том, что нередко — а в настоящее время все чаще и чаще — значительная часть фонда библиотеки находится в «открытом доступе», где читателю необязательно обращаться за помощью к библиотекарю, чтобы взять издание в читальный зал. Следовательно, статистика спроса на литературу, не выдаваемую на абонемент, либо вообще отсутствует, либо для ее оценки применяются крайне трудоемкие и неточные методы (например, подсчет возвратов библиотекарями изданий на полки с читательских столов; опрос читателей; просьба к ним помечать на вкладыше в издании факт просмотра). При этом проблема состоит в том, что именно периодика (особенно текущая) как правило помещается в открытом доступе.
Но даже если бы в печатной среде удалось перечисленными методами получить точную статистику по обращению к тому или иному журналу, это все равно осталось бы принципиально недостижимым на уровне отдельных статей — только на уровне номеров периодического издания. После того как печатный номер попал в руки читателю, мы не можем сказать, сколько публикаций оттуда было открыто хотя бы на одной странице.
Перечисленные сложности технического и методологического характера успешно разрешаются в электронной среде. Прежде всего, в отличие от выдач печатной литературы, фиксирование статистических данных по востребованности онлайновых ресурсов происходит не на стороне библиотеки, а на стороне самого производителя ресурса, «вендора»4. Это делает сбор статистики минимально трудоемким для библиотеки: собрав статистику активности пользователей на основе анализа лог-файлов обращений Некоторые библиотеки все-таки предпочитают собирать статистику самостоятельно:
это возможно, если доступ ко всей электронной подписке организован строго через аутентифицирующий сервер, «библиотечный прокси-сервер» (он управляет удаленным доступом, позволяя обращаться к базам данных не только из зданий организацииподписчика, но и из дома, общежития и т. д.). Можно также поручить фиксирование обращений к ресурсам третьей стороне, если доступ к подписке осуществляется через специальные аутентифицирующие системы, например Athens. В России на текущий момент такого рода схемы доступа практически отсутствуют: одна из первых установок библиотечного прокси проведена в ГУ-ВШЭ в 2008 г., а первый и пока тестовый доступ к Athens организован для российских организаций также в середине 2008 г.
к своим веб-серверам, вендор сам предоставляет ее в виде, удобном для анализа и интерпретации.
Формат представления данных может быть разнообразным, на выбор пользователя — веб-страницы или различные типы файлов данных, готовых для импорта в Excel или СУБД. Что касается фиксируемых показателей, то это, как правило, число пользовательских сессий (заходов в базу данных), совершенных поисков, просмотров аннотаций документов и их полных текстов и др. Для просмотра аннотаций/полных текстов возможно разбиение по отдельным наименованиям периодических изданий, к которым были обращения. Именно такое распределение по наименованиям потребуется нам в настоящем исследовании.
Все данные отфильтрованы для конкретной организации и предоставляются ее представителю («администратору» подписки на месте) на специальном служебном сайте по логину и паролю или, в редких случаях, доступны всем пользователям, вошедшим в ресурс с компьютеров соответствующей организации.
Особенность, специфическая для статистических систем большинства онлайновых информационных ресурсов (автору известно только одно исключение), — это подсчет не уникальных документов, к которым были обращения, а суммарного числа обращений к документам ресурса. При этом многократное обращение к одной и той же электронной публикации считается каждый раз — по числу отдельных обращений. Иными словами, для такой системы нет различия, было ли запрошено 100 различных документов по одному разу — или один определенный документ был открыт за исследуемый период времени 100 раз (разными пользователями или даже одним и тем же пользователем). И в том и в другом случае будет зафиксировано 100 обращений к цифровому объекту. Существуют лишь некоторые правила отсева случайных повторных открытий: при открытии дважды одним и тем же пользователем одного и того же документа в html-формате с интервалом менее 10 секунд или при открытии дважды одним и тем же пользователем одного и того же документа в pdf-формате с интервалом менее 30 секунд, загрузка соответствующей статьи считается единственной. Надо отметить, что на момент проведения данного исследования даже это правило носило рекомендательный характер и нам неизвестно, насколько следовали ему рассматриваемые вендоры.
1.4. Методы и набор статистических данных, используемые в моделировании при помощи В настоящем исследовании математические модели процесса обращения к электронным источникам будут применены к экспериментальным данным, полученным в библиотеке Государственного университета — Высшей школы экономики (ГУ-ВШЭ). Библиотека создана в 1994 г. и является небольшой по меркам российских университетских библиотек: в 2004 г. (время исследования) печатный фонд составлял ок. 70 тыс. наименований и ок. 350 тыс. экземпляров. За три года до исследуемого периода началось развитие электронной подписки на базы данных зарубежной периодики: в период с апреля по ноябрь 2001 г. была осуществлена подписка на ресурсы компаний-агрегаторов JSTOR, ProQuest и EBSCO, которые до сих пор являются ядром электронного фонда библиотеки. С 2004 г. также была оформлена подписка на электронные журналы издательства Elsevier (платформа ScienceDirect), которые активно использовались в течение всего года и даже превысили по востребованности одну из хорошо освоенных баз данных (EBSCO). Именно эти четыре ресурса (EBSCO, JSTOR, ProQuest, ScienceDirect) пользовались наибольшим спросом в ГУ-ВШЭ и поэтому включены в настоящее исследование. Следует отметить, что, хотя все 4 компании предоставляют доступ к электронным изданиям, их ресурсы отличаются по своим задачам, структуре контента, объему доступной информации, равно как по другим параметрам. Так, база данных JSTOR является «архивным» проектом, не содержит текущих номеров журналов (за последние несколько лет) и включает в себя несколько сот изданий. В то же время EBSCO и ProQuest, напротив, делают особый акцент на текущей периодике, а счет журналов в этих ресурсах идет на тысячи. ScienceDirect, в отличие от остальных баз данных-агрегаторов, предоставляет доступ к журналам только одного издательства Elsevier и его дочерних структур.
Для удобства клиентов каждый из перечисленных вендоров позволяет подписаться не на весь имеющийся у него информационный массив, а на некоторый набор узко дисциплинарных или же политематических баз данных, образующих подмножество контента ресурса. Укажем те составляющие каждого ресурса, которые включены в анализ. В 2004 г. ГУ-ВШЭ имел доступ к четырем «коллекциям журналов» электронной библиотеки JSTOR: «Arts & Sciences I», «Arts & Sciences II», «Business», «Language & Literature» (всего 416 наименований). Ресурс ProQuest в течение 2004 г.
был представлен базами данных «ABI/INFORM Global», «Academic Research Library», «ProQuest Education Journals», «Social Sciences PlusText», «ProQuest Psychology Journals» и «ProQuest Computing», что в сумме составило около 3600 полнотекстовых периодических изданий. Полнотекстовые ресурсы компании EBSCO, находящиеся в подписке ГУ-ВШЭ, включали в себя базы данных «Academic Search Premier», «Business Source Premier», «MasterFILE Premier», «Newspaper Source», «Regional Business News» и «Health Source», в сумме ок. 11000 полнотекстовых источников. Наконец, подписка на ScienceDirect охватывала коллекции «Business, Management and Accounting», «Economics, Econometrics and Finance» и «Social Sciences»
(всего 310 наименований периодики). Данные по составу и объему баз данных, которые были доступны для пользователей ГУ-ВШЭ в указанных ресурсах, суммированы в таб. 1.4.1. Введено ограничение на полнотекстовый материал, т. к. именно его использование будет учитываться в настоящем исследовании (см. далее).
платформа доступные полнотекстовые базы данных наименований Academic Search Premier, Business Source Premier, MasterFILE Premier, Newspaper Psychology Journals, ProQuest Computing Backfiles; Economics, Econometrics and Таб. 1.4.1. Полнотекстовые ресурсы, участвующие в Как говорилось в параграфе 1.1, между контентом различных ресурсов существуют значительные пересечения (их структура была частично исследована в [7]). Поэтому в общей сложности в данных электронных ресурсах полнотекстовый доступ для библиотеки ГУ-ВШЭ открыт, за вычетом дубликатов, к около 13400 изданий. В ГУ-ВШЭ неоднократно проводились тренинги по использованию всех перечисленных ресурсов, активность обращений к ним достаточно высока: в течение периода наблюдения (2004 г.) в совокупности было отправлено более 57000 поисковых запросов и открыто почти 42000 полнотекстовых статей. Это позволяет проводить обобщения и обеспечивает статистическую значимость результатов исследования.
В трех из четырех рассматриваемых электронных ресурсов (за исключением JSTOR) содержатся не только полнотекстовые журналы, но также и издания, доступ к которым предоставлен читателям ГУ-ВШЭ лишь на уровне выходных данных статей или их аннотаций. Тем не менее, в настоящей работе нас будут интересовать только обращения к полным текстам, т. к. именно такое использование ресурсов можно считать «полноценным», эта статистика легче поддается интерпретации и более свободна от случайных заходов пользователей.
Для единообразного представления результатов анализа необходимо выбрать показатель использования, подсчитываемый статистическими модулями всех четырех ресурсов. Такой характеристикой является число открытых полнотекстовых статей. Этот показатель не только присутствует в сведениях, предоставляемых каждой электронной библиотекой, но и является наиболее значимым и поддающимся корректной интерпретации. В частности, именно на него предписывают опираться эксперты «Project COUNTER», выработавшие рекомендации для производителей баз данных по представлению статистики использования их ресурсов [89].
Статистические модули систем EBSCO, JSTOR, ProQuest и ScienceDirect подсчитывают не уникальные открытые документы, а суммарное число обращений к полным текстам ресурса: многократное обращение к одной и той же статье считается отдельно каждый раз — как это пояснялось в параграфе 1.3.
Данные по использованию объединены по всем четырем ресурсам, с суммированием показателей по наименованиям источников, представленных более чем в одном из них. Журналы идентифицировались по ISSN, при отсутствии ISSN идентификация проводилась по заглавию. Издания с различными ISSN и одинаковым заглавием считались разными. Не проводилось объединение данных по одному и тому же журналу, если он в течение своей истории изменял ISSN или наименование.
В качестве временного промежутка, на котором собиралась статистика обращений к базам данных, выбран весь 2004 г., с января по декабрь включительно. За данный период было зафиксировано 41959 обращений к полным текстам статей из 2590 уникальных наименований.
Существенную оговорку следует сделать относительно обработки статистики использования баз данных EBSCO и JSTOR. Во время периода наблюдения на одном из веб-серверов, расположенных в ГУ-ВШЭ, работал специальный робот «link checker» — программа, которая проверяла работу ссылок, размещенных на страницах данного веб-сервера. Ряд этих ссылок вел на ресурсы EBSCO и JSTOR, в связи с чем робот неоднократно за день обращался к данным ресурсам, чтобы проверить, что ссылки работают. Таким образом, активность робота во много раз превысила обращения к ресурсам читателей, и необходимо было провести дополнительную работу по вычленению заходов обычных пользователей. Было установлено, что роботом затронуты 28 журналов в JSTOR и 4 журнала в EBSCO, робот повлиял на статистику за август (частично), сентябрь, октябрь (частично), декабрь (частично). Был проведен детальный анализ показателей по этим журналам за указанные месяцы, и, исходя из предположения, что в период действия робота доля каждого затронутого им журнала в суммарной статистике была такой же, как и в течение всего остального года, были оценены показатели «чистого» спроса на журнал, без учета влияния link checker’а. Именно эти исправленные цифры далее использовались в исследовании. Отметим, что суммарный вклад журналов из JSTOR, затронутых роботом, по восстановленным данным составляет за 4 указанных месяца менее 9,5% от всей годовой статистики ресурса. В случае журналов EBSCO этот показатель еще меньше — 0,8%.
В таб. 1.4.2 собраны абсолютные, а также процентные значения числа журналов, из которых была открыта хотя бы одна статья (для каждого ресурса). В столбце «число полнотекстовых изданий» приводятся лишь приблизительные цифры для EBSCO и ProQuest: специфика данных ресурсов, крупных агрегаторов, не позволяет установить с точностью до единиц число доступных журналов. Последняя строка отражает всю подписку как единый массив, показывая число уникальных изданий и убирая дублеты.
полнотекстовых текстам которых были востребованных Таб. 1.4.2. Количество полнотекстовых журналов и число изданий, которые были хотя бы один раз востребованы Как видно из таб. 1.4.2, далеко не все издания из электронных библиотек используются. При этом для крупных агрегаторов (EBSCO и ProQuest) характерен меньший процент востребованных журналов. Кроме того, наблюдается яркая обратная зависимость процента востребованных изданий от суммарного их количества в ресурсе, коэффициент корреляции составляет -0,97. Это закономерно: все ресурсы обеспечивают «пакетную» подписку, когда журналы не выбираются заказчиком один за другим, а берутся сразу в сформированных вендором коллекциях. Таким образом, вместе с остро необходимыми подписчику изданиями в электронный фонд практически неизбежно поступает и «информационный шум» — источники, не представляющие интереса для читателей. И чем больше размер таких коллекций, чем больше размер информационного массива, предоставляемого вендором, тем большая будет в нем доля изданий, не отвечающих запросам пользователей и поэтому не востребованных ими. Для сравнения, в недавно появившемся исследовании [24] по данным 2001 г. сообщается об использовании за полугодие учеными Лос-Аламосской национальной лаборатории лишь 1892-х электронных журналов из 20000 доступных (9,5%).
Во всем процессе информетрического моделирования нами учитываются только источники (журналы), к которым были обращения. Не востребованные ни разу журналы полностью исключаются из рассмотрения.
Аналогичный подход использует, например, К. Бёррел [40], аргументируя это тем, что истинное число неиспользуемых источников определяется с большой неуверенностью. Он также ссылается на свои работы [38; 39; 44], где тоже использует такой подход. В [41] К. Бёррел подробно останавливается на этой проблеме: невозможно знать, сколько ученых не написали статьи по той или иной тематике за некоторый промежуток времени или сколько журналов не опубликовали статьи по определенной дисциплине.
Даже в том случае, когда «непродуктивные» источники более-менее ясны (например, при исследовании выдач книжного фонда), неопределенность сохраняется: книга может не выдаваться по той причине, что она, например, украдена. В нашем случае применима сходная логика: не всегда списки источников, предоставляемые производителями электронных ресурсов, на 100% оперативно отражают фактический контент баз данных, который, к тому же, еще может несколько изменяться за время исследования (особенно у агрегаторов). Отметим, однако, что в работах [19; 85; 92] К. Бёррелу оппонирует по данному вопросу ряд других ученых.
В заключение настоящего параграфа диссертационной работы, носящего методический характер, укажем, что все статистические вычисления, приближения, регрессии выполнены нами при помощи статистического пакета SPSS версий 12.0 и 14.0.
2. Моделирование процесса обращения к электронным информационным источникам при помощи информетрического закона Брэдфорда 2.1. Формулировка закона Брэдфорда Закон рассеяния информации Брэдфорда (Bradford’s law of scattering) был впервые сформулирован Самюэлем Брэдфордом в 1934 г. [29] и в более поздней работе [30]. В отечественной традиции закон также называется «законом концентрации и рассеяния информации». Важность закона Брэдфорда позволяет некоторым исследователям особенно подчеркивать его роль в плеяде информетрических закономерностей — см. заглавие обзорной статьи Ю. Гарфилда «Закон Брэдфорда и связанные с ним статистические закономерности» [75], где речь идет о законах Лотки, Ципфа, Леймкулера и др.
Закон Брэдфорда получил два типа формулировки — «вербальную» и «графическую».
2.1.1. Вербальная формулировка закона Брэдфорда «Вербальный» вариант закона Брэдфорда формулируется следующим образом. Выделим множество журналов, в которых появляются статьи, посвященные некоторой выбранной научной тематике, и упорядочим их в порядке убывания количества этих статей — от изданий, в которых имеется наибольшее количество публикаций данной тематики, до тех, в которых встретилась лишь одна статья, относящаяся к выбранной дисциплине. Тогда это упорядоченное множество журналов можно разбить на три зоны так, чтобы в каждой было одинаковое количество статей по заданной теме.
При этом, утверждает закон Брэдфорда, числа журналов в соответствующих зонах будут относиться друг к другу как 1: q : q 2, где q — некоторое число большее единицы.
Иными словами, в наборе журналов существует некоторое «ядро» изданий, содержащее треть всех статей по заданной тематике. Для того чтобы найти столько же статей в других журналах, необходимо взять их в q раз большее число. Наконец, оставшиеся публикации будут рассеяны по изданиям, которых в q2 раз больше, чем в «ядре». Закон при этом не регулирует величину коэффициента q (кроме очевидного неравенства q > 1), он лишь утверждает, что отношение мощности второй «зоны» к мощности первой равняется отношению мощностей третьей и второй зон (естественно, как и в случае любого информетрического закона, речь идет не о точном равенстве, а о приблизительном совпадении).
Если исходить из оригинальной вербальной формулировки закона, можно связать коэффициент q с относительной величиной «ядра» журналов следующим образом. Пусть всего источников (журналов) имеется S, при этом в ядро (первую зону Брэдфорда) входит S1 из них. Тогда во второй зоне имеется qS1 источников, в третьей — q 2S1. Следовательно, справедливо равенство откуда Решив уравнение относительно q, получим для положительного корня:
На практике ядро, как правило, составляет небольшая доля от общего чисS >> 1, а квадратный корень из этого отношения также ощула изданий и тимо превышает единицу. Так, у Брэдфорда в [29] S S1 для прикладной геофизики равно 36, для литературы по смазочным технологиям — 20. Поэтому справедлива упрощенная оценка:
т. е. коэффициент пропорциональности для мощностей последовательных зон Брэдфорда приближенно равен квадратному корню из отношения суммарного числа всех рассматриваемых источников (журналов) к величине первой, «ядерной» зоны. Заметим, что равенство (2.1.3) эквивалентно пренебрежению в (2.1.1) всеми членами кроме q2.
Хотя сам С. Брэдфорд исследует три «зоны» источников, формулировка закона в [29] позволяет предположить, что его можно трактовать в виде, обобщенном относительно количества зон. Множество журналов может быть разбито не на три, а на произвольное число зон. При этом число изданий в каждой последующей зоне будет в q раз больше, чем в предыдущей, а число статей, приходящихся на журналы каждой зоны, будет одинаковым и равным, очевидно, отношению общего числа статей к количеству зон.
В случае n зон Брэдфорда справедливо равенство (аналогичное (2.1.1) для трех зон):
следовательно, Эта формула верна для идеального брэдфордского распределения. Для него важно правильно установить размер «ядра» S1, далее по количеству статей, приходящихся на ядерные журналы, устанавливается число n зон Брэдфорда (оно очевидно равно отношению общего числа публикаций I к числу «ядерных» статей), а по формуле (2.1.4) определяется коэффициент в распределении Брэдфорда q.
Однако на практике закон Брэдфорда, как и любая информетрическая модель, редко выполняется в совершенстве. Поэтому можно выбирать различные величины для S1, n, q и получать более или менее хорошие разбиения на зоны Брэдфорда — в большей или меньшей степени удовлетворяющие закону. Отсюда возникает задача определения таких параметров распределения Брэдфорда, чтобы оно максимально хорошо приближало исходные экспериментальные данные. При этом необходимо, чтобы искомые параметры могли быть найдены из «макроскопических» характеристик набора данных. Таковыми можно считать четыре величины:
— общее число «источников» (журналов) S;
— общее число «продуктов» (статей) I;
— число источников с минимальной продуктивностью s1 (т. е. количество журналов, которые опубликовали лишь одну статью по рассматриваемой тематике);
— количество продуктов, произведенных источником с максимальной продуктивностью imax (т. е. число статей, опубликованных в самом продуктивном по рассматриваемой тематике журнале).
Если мы имеем перед собой набор экспериментальных данных, все перечисленные характеристики могут быть немедленно получены из него.
Необходимо определить следующие параметры модели Брэдфорда:
— число источников в «ядре» (первой зоне Брэдфорда) S1;
— число продуктов в каждой зоне Брэдфорда IB;
— коэффициент распределения Брэдфорда q;
— число зон Брэдфорда n.
Решить данную задачу по моделированию невозможно, опираясь только на модель Брэдфорда. Потребуются дополнительные ограничения, накладываемые на набор данных, а именно предположение их соответствия некоторым иным информетрическим законам. Впрочем, информетрические модели тесно связаны друг с другом и такого рода предположения, по меньшей мере, обоснованны.
К решению данной задачи имеется несколько подходов, например изложенный в работах [133; 17] (с некоторыми вариациями) метод отечественного ученого А. И. Яблонского. Приведем его выкладки, более детально и с некоторым обобщением.
А. И. Яблонский исходит из предположения, что данные удовлетворяют закону Ципфа-Мандельброта (см. далее, раздел 4.3, формула (4.3.3)) и, соответственно, подчиняются распределению:
где ir — число статей в источнике, занимающем r-е место в списке журналов, упорядоченном в порядке убывания продуктивности (т. е. от наиболее Далее для выполнения закона Брэдфорда приравниваются вычисленные при помощи (2.1.5) количества статей в журналах первой и последующих зон Брэдфорда (число этих журналов, по обозначению, равно S1, S2, S3... ):
Суммирование можно заменить интегрированием — метод приближения, часто используемый при математическом анализе информетрических моделей:
Следовательно, после сокращения на s1 и проведения интегрирования:
Из первого равенства этой цепочки следует, что S2 так выражается через S1:
Данное выражение позволяет предположить, что коэффициент БрэдS1 + a форда q равен. Докажем это по индукции. Пусть для решений уравa + нений (2.1.6) верно равенство:
где q =. Покажем, что для j=m+1 равенство также справедливо. Из ma + го уравнения цепочки (2.1.6) получаем или Заменим, использовав (2.1.7), S j на S1 и запишем выражение для Sm+1 :
Так как q =, в правой части остается только первый член и мы полуa + чим искомое равенство Sm +1 = S1q m. Таким образом, мы доказали, что коэффициент Брэдфорда q связывается с мощностью «ядра» журналов выражением Далее, исходя из того факта, что распределение удовлетворяет закону Ципфа-Мандельброта и подчиняется закону (2.1.5), можно записать зависимость кумулятивного числа статей от числа рассматриваемых журналов (упорядоченных, как обычно, в порядке убывания в них статей):
(здесь, напомним, S — это кумулятивное число журналов, а s1 — число журналов с минимальной продуктивностью, т. е. производящих только одну статью по рассматриваемой тематике).
С другой стороны, согласно (2.1.4), число журналов в первых m зонах Брэдфорда равно (S1 — число источников в первой зоне Брэдфорда). Выразим здесь m через количество статей, относящихся к этому числу зон Брэдфорда. Очевидно, что m = I (IB — число статей в первой, следовательно, и в каждой, зоне).
Сделав эту подстановку в (2.1.10), можно снова выразить I через S:
Теперь сопоставим (2.1.9) и (2.1.11), приравняем коэффициенты при логарифмической функции и получим еще одну зависимость между параметрами распределения Брэдфорда:
Для получения заключительного равенства, которого не хватает для определения параметров Брэдфорда, А. И. Яблонский в [17] вводит предположение, что последняя зона Брэдфорда состоит только из источников с минимальной продуктивностью, т. е. из журналов с одной статьей. В этом случае число продуктов в последней зоне Брэдфорда IB совпадает с числом источников в этой зоне, которое равняется S1qn-1 (n — общее число зон Брэдфорда). При этом суммарное число источников выводится из формулы (2.1.4), поэтому мы имеем два равенства:
откуда, поделив второе на первое, получим Так как q n-1 равно отношению числа источников в последней и первой зонах Брэдфорда, q n > q n-1 >> 1. Следовательно, в последнем равенстве можqn - 1 q но пренебречь членом по сравнению с. Учитывая это и подq - ставив в (2.1.13) выражение для IB из (2.1.12), получим:
В итоге найдем уравнение, из которого может быть найден коэффициент распределения Брэдфорда q:
Точное решение уравнения не может быть получено в аналитическом виде. Если же предположить, что q близко к единице (как делает А. И. Яблонский), то ln q » q - 1 и (2.1.14) дает решение Далее, из (2.1.13), вновь пренебрегая членом и подставив (2.1.15), получим выражение для числа статей в каждой зоне Брэдфорда:
Это размер каждой зоны Брэдфорда для продуктов (статей). Формула для размера первой зоны Брэдфорда для источников (т. е. размер ядра журналов) может быть получена из (2.1.8):
(здесь А. И. Яблонский отбрасывает второй член, пренебрегая q по сравнению с a >> 1 ).
Совокупность уравнений (2.1.15) (т. е. приближенного (2.1.14)), (2.1.16) и (2.1.17) определяет параметры распределения Брэдфорда, исходя из «макрохарактеристик» экспериментальных данных. Суммарное число зон Брэдфорда получается делением общего числа продуктов I (до сих пор, заметим, не фигурирующего в полученной системе решений) на IB, вычисляемое по формуле (2.1.16). А. И. Яблонский проверил выведенные параметры на экспериментальных данных из [56] и получил хорошее совпадение эмпирики с математической моделью.
А. Букстейн (по сообщению Л. Эгге [58]) указал на следующий недостаток формул Яблонского. В принципе выбор «ядра» журналов может иметь некоторую свободу и при хорошем следовании распределения закону Брэдфорда возможно получить различные коэффициенты q. Этой свободы в строгом результате Яблонского не заложено. Таким образом, более общее решение должно иметь дополнительный параметр.
Кроме того, мы можем отметить как недостаток то, что вычисление q опирается на предположение, что в последней зоне Брэдфорда присутствуют только журналы с минимальной продуктивностью. Это также накладывает некоторые ограничения на результаты Яблонского. Поэтому Л. Эгге в [58] предложил усовершенствование метода оценки параметров закона Брэдфорда исходя из того, что распределение удовлетворяет закону Лотки (см. далее параграф 4.2, ср. формулу (4.2.6)):
где si — число источников (журналов) с продуктивностью i (с i статьями).
Рассмотрим тогда зону Брэдфорда с номером p от конца (т. е. первой считается самая большая зона, этот «обратный» отсчет удобен в последующих выкладках). Пусть в нее входят журналы с mp–1, mp–1+1, …, mp статьями в каждом. Тогда в эту зону Брэдфорда входит следующее число статей (применяем закон Лотки):
где a p-1 — доля журналов с m p -1 статьями, которая принадлежат (p–1)-й зоне Брэдфорда (остальная доля (1– a p-1 ) принадлежит уже p-й зоне), a p — доля журналов с m p статьями, которая принадлежит p-й зоне. В левую часть данного равенства можно подставить выражение (2.1.12) для IB (которое, заметим, было получено без предположения о том, что последняя зона Брэдфорда состоит из источников с минимальной продуктивностью), в результате получим Отсюда выразим a p через a p-1 :
Докажем по индукции, что Выражение для a1 получим непосредственно из (2.1.18), которое в случае первой зоны Брэдфорда будет выглядеть так:
Подставив (2.1.12), найдем Таким образом, база индукции проверена, a1 удовлетворяет (2.1.21). Далее предположим, что равенство (2.1.21) выполняется для p, проверим, что тогда оно верно и для p + 1. Из (2.1.20) найдем выражение для a p+1 и подставим в него (2.1.21):
Поэтому шаг индукции также доказан и (2.1.21) верно.
По определению mp в p-й зоне Брэдфорда есть как минимум один журнал с mp статьями и нет ни одного с m p + 1 статьями. Это означает, что коэффициенты a p должны быть строго больше нуля и не больше единицы.
Записав это двойное ограничение и использовав (2.1.21), получим:
На самом деле неравенства (2.1.22) могут рассматриваться как ограничение на mp. Очевидно, что уже при относительно небольших mp это двойное неравенство можно приблизить равенством и, учитывая, что по опреn1 делению постоянная Эйлера-Маскерони g = lim - ln n, получить откуда При помощи этой формулы можно вывести теоретическое значение для q, использовав то, что максимальное число статей в журнале из последней зоны (если вести подсчет, как в данных выкладках, от зоны с журналами наименьшей продуктивности, т. е. из первой зоны при «обычной» нумерации) просто равняется максимальной продуктивности журнала во всей выборке, imax. Таким образом, если n — суммарное количество зон Брэдфорда, то mn = imax и из (2.1.23) выразим коэффициент Брэдфорда q:
На основании изложенных расчетов, Л. Эгге в работе [60] (см. также [66, p. 343–345]) сформулировал методику «подгонки» параметров модели Брэдфорда к конкретным данным, которая в разделе 2.2 будет реализована нами на эмпирическом массиве показателей обращений к электронной периодике:
— выбрать n — число групп Брэдфорда; это произвольное число, обычно в промежутке от 4 до 10, однако для больших библиографий оно может быть и больше; выбор его может быть регламентирован тем, чтобы в итоге получить более удобное, т. е. более близкое к целому числу, значение S1, величины первой зоны Брэдфорда (см. формулу далее);
— по формуле (2.1.24) вычислить, коэффициент Брэдфорда q;
— применить (2.1.4) для вычисления размера первой зоны Брэдфорда S1, т. е. использовать формулу:
— если S1 получается не целым, то надо использовать округление до ближайшего меньшего целого [S1]; число статей, пришедшихся на [S1] журналов, будет числом статей в первой зоне Брэдфорда;
— проводить дальнейшее разбиение статей, находя по библиографии, сколько их приходится на следующие группы Брэдфорда, содержащие {qS1}, {q2S1} и т. д. журналов (причем берется именно {qS1}, а не {q[S1]}); здесь и далее фигурными скобками будем обозначать округление до ближайшего целого, т. е. { x} = [ x + 0,5].
Обратим внимание на то, что округление для величины первой группы Л. Эгге предлагает делать в меньшую сторону, [S1], оговариваясь, что можно округлять и до ближайшего целого, но тогда, в случае если дробная часть S1 (т. е. S1 – [S1]) немногим больше 0,5, то S1 округляется в большую сторону, а последняя группа Брэдфорда не будет заполнена до конца. Тем не менее это не так: в связи с тем что для вычисления размера последующих групп используется точное, а не округленное значение S1, ошибки округления могут потребовать лишь незначительных корректив величины {S1} +{qS1} +{q 2S1} +... + {q n-1S1} окажется больше или меньше суммарного числа источников S). Так как последняя группа включает в себя источники с меньшей продуктивностью, эта коррекция практически не повлияет на выраженные в «продуктах» величины групп Брэдфорда, зато «выровняет»
отношение величин групп, выраженных в числе источников. Сам Л. Эгге также использовал округление в большую сторону, но только в том случае когда вычисленное значение S1 оказывалось очень близким к большему целому: в [60] он округляет 8,93 до 9 и 2,95 до 3. Но, например, для значения S1 = 2,7 он в явном виде рекомендует использовать округление до двух.
Описанный способ определения параметров модели Брэдфорда (как с введенными нами поправками правил округления, так и без них) будет применен в разделе 2.2 к набору статистических данных по использованию электронных источников в библиотеке ГУ-ВШЭ.
2.1.2. Графическая формулировка закона Брэдфорда Графическая формулировка закона Брэдфорда также ведет свою историю от основополагающей работы С. Брэдфорда [29]. Вновь рассматривается множество журналов, в которых появляются статьи, посвященные некоторой научной тематике, причем журналы упорядочены в порядке убывания количества этих статей. Графическую формулировку закона Брэдфорда иллюстрирует рис. 2.1.1. Отложим по оси абсцисс натуральный логарифм числа первых s наиболее продуктивных журналов, а по оси ординат — кумулятивное (суммарное) число релевантных статей i, содержащихся в этих s изданиях. Тогда, согласно графической формулировке закона Брэдфорда, получившаяся кривая в полулогарифмических координатах (ее называют «библиограф») будет вогнутой до некоторого значения s = S1, после которого перейдет в прямую (рис. 2.1.1). При этом, согласно С. Брэдфорду, именно S1 соответствует границе первой зоны Брэдфорда.
Рис. 2.1.1. Библиограф: график зависимости кумулятивного числа статей в s первых журналах от ln s Впервые внимание на математическую нетождественность графической и вербальной формулировок закона Брэдфорда обратил Б. К. Викери [127].
Б. Брукс [33; 34] предложил конкретные формулы для фрагментов библиографа. Выпуклый фрагмент он предложил задавать выражением типа а линейный фрагмент — зависимостью где a, b, k, a — некоторые константы. Оценку наиболее важной константы k, характеризующей угол наклона прямолинейной части библиографа, Б. Брукс проводит следующим образом. Все библиографии конечны, и вклад последнего журнала в библиографию не менее одной статьи. Поэтому если S — это суммарное число журналов (источников), инкремент в числе статей при переходе от S - 1 к S источникам должен быть равен единице: i ( S ) - i ( S - 1) = 1. Подставив сюда зависимость для i ( s ) из (2.1.27), получим откуда, приблизив ln 1 - » -, найдем простую оценку наклона бибS S лиографа и можем переписать (2.1.27) в виде Во многих исследованиях наблюдался переход в верхней части библиографа (т. е. в «области высоких рангов») прямолинейного отрезка в выпуклую кривую, т. е. отклонение библиографа от прямой вниз. Данный эффект впервые отмечен О. Грусом [82] и получил поэтому название Groos Droop. На рис. 2.1.2 приведен библиограф из [82], его отклонение от прямой начинается в районе 16000 статей.
Рис. 2.1.2. Иллюстрация Groos Droop из [82].
Данному эффекту предлагалось несколько объяснений, из которых самое частое — влияние неполноты охватываемой библиографии, т. е. наличие журналов, публикующих по нескольку (1–5) релевантных статей и не учтенных по тем или иным причинам при построении библиографа (см., например, [33; 34]). Действительно: если бы такие «дополнительные» журналы существовали, то они внесли бы свой вклад в последние (правые) точки библиографа вида рис. 2.1.2 и, вероятно, «приподняли» бы его конец в сторону прямой линии.
Заметим, однако, что данной попытке объяснения Groos Droop противоречат результаты эксперимента по искусственному моделированию «выпадения» из библиографии низкопродуктивных источников [113]. Здесь авторы при помощи компьютерной модели воспроизвели эффект невключения в библиографию части журналов. Выраженный Groos Droop не был обнаружен ни при «равномерном» (случайном) исключении журналов, ни при «взвешенном» исключении, когда вероятность попадания журнала в неполную библиографию была пропорциональна числу релевантных статей в журнале или даже квадрату этого числа — последние методики пытаются восстановить эффект «незамечания» именно журналов с малым числом статей по исследуемой тематике. Анализируя результаты [113], логично предположить, что неполнота библиографии может быть причиной Groos Droop только в том случае, если вероятность попадания журнала в библиографию зависит от числа релевантных статей в нем еще более сильным образом — например, экспоненциально.
Еще одно из устоявшихся объяснений отклонения от прямой в верхней части кривой Брэдфорда предложено в работе [65], опирающейся на экспериментальные данные из [25]. Если соединить несколько библиографий, относящихся к разным дисциплинам и при этом строго подчиняющихся закону Брэдфорда, то совокупная библиография может не подчиняться закону в области высоких рангов, что приведет к Groos Droop. Исходно мультидисциплинарность в этой модели требует непересечения источников (журналов), именно этот случай получил подробное теоретическое исследование в [65]. Однако авторы резонно замечают, что аналогичный эффект (быть может, в меньшей мере) должен отмечаться и при неполной изоляции библиографий, частичном их пересечении. Действительно, именно в области высоких рангов (правой части библиографа) источники скорее всего будут пересекаться мало в случае библиографии по широкой тематической области, которая может быть рассмотрена как композиция узких малопересекающихся библиографий. Ведь если источник (журнал) малопривлекателен для одной подобласти, то он, скорее всего, случаен и маловероятно, что он будет присутствовать и в другой. Эти соображения будут полезны для нашего анализа результатов моделирования спроса на электронные журналы в ГУ-ВШЭ, и мы вернемся к ним вновь в параграфе 2.2.
Так или иначе, наличие отклонения от прямой в области журналов с высокими рангами не считается невыполнением графической формулировки закона Брэдфорда: некоторые исследователи даже приходят к выводу, что такого рода отклонения (в виде Groos Droop или, наоборот, с превращением прямой в вогнутую кривую) внутренне присущи данной модели [111].
2.1.3. Охват законом Брэдфорда различных информационных процессов В своей основополагающей работе [29] С. Брэдфорд открыл закономерность для распределения по журналам статей, посвященных прикладной геофизике и смазочным материалам. Позднее закон с большим или меньшим успехом применялся к многочисленным данным библиографии по различным тематическим направлениям: по исследованию операций [91; 60], термофизическим свойствам веществ [94], мышечным волокнам и компьютерной науке [34], тучным клеткам и шистосомозу [78; 60], тропическому сельскому хозяйству [93] и др. Более того, было выдвинуто предположение, что закон Брэдфорда приложим не только к рассеянию статей определенной тематики по научным журналам, но и к информационным процессам иной природы. С различной степенью успеха закон проверялся на распределении статей по авторам [56] или странам публикации [71], распределении сделанных цитирований по журналам [48; 121] или полученных цитирований по авторам [47; 120]. В работе [3] было показано хорошее выполнение закона Брэдфорда в его графической форме на материале цитирования обширного массива публикаций журнала «Успехи химии»:
библиограф имеет классический вид, с небольшим Groos Droop на конце.
Библиография по закону Брэдфорда очень обширна (см., например, [95; 128]), и мы не ставим здесь цели охватить ее целиком. Остановимся на более узкой тематике — изучении приложимости данной информетрической модели не к производству информации, а к ее потреблению, причем потреблению не через цитирование (что также может быть вполне корректно названо «использованием»), а через чтение.
Одними из первых, кто коснулся данной темы, еще в 1948 г., были Дж. Бернал [21] и Б. Викери [127], использовавшие массив из 1600 статей, затребованных у библиотеки Исследовательских лабораторий Баттервика другими библиотеками в рамках межбиблиотечного обмена. В целом было установлено принципиальное выполнение закона Брэдфорда, хотя с некоторыми неточностями, которые Б. Викери приписал неоднородности исследуемого дисциплинарного поля (у разных ученых, обращавшихся к литературе, были различные научные интересы). Анализом спроса на литературу в свете закона Брэдфорда занимался также П. Ф. Коул [50], анализируя как данные Дж. Бернала из [21], так и собственное исследование [49], охватывающее статистику запросов в Службу технической и библиотечной информации компании «Бритиш Петролеум». Характерной особенностью последнего было то, что обращения к источникам фиксировались не для самих «конечных пользователей», а для специалистов справочной службы, выполнявшей их запросы. Как для данных Дж. Бернала [21], так и для своего набора [49] П. Ф. Коул нашел хорошее выполнение графической формулировки закона Брэдфорда (равно как еще для одного банка данных [23], основанного не на информации об использовании литературы, а на сборе статистики росписи журналов в «Chemical Abstracts», подобном исходному исследованию Брэдфорда).
Упоминание закона Брэдфорда в применении к процессу использования (чтения) литературы встречается в статье 1964 г. [73]. Однако здесь авторы, хотя и пишут о том, что их данные «подтверждают корректность распространения закона Брэдфорда на использование журналов», но трактуют последний слишком широко, утверждая, что он гласит: «Существует несколько журналов, дающих много статей, больше изданий дают среднее число публикаций, а подавляющее большинство дополнительных журналов содержат малое количество статей». Таким образом, в [73] не проверяется соотношение между числом журналов в каждой зоне Брэдфорда, не строится библиограф и т. д.
Это проводится в явном виде в работе Б. К. Брукса [34] на основании материала из [132] — здесь информетрическая модель Брэдфорда применяется к процессу обращения к реферативным периодическим изданиям по общественным наукам. Б. К. Брукс констатирует, что построенный им библиограф хорошо соответствует модели. Кроме того, выдача книг в библиотеке приводится Б. К. Бруксом в другой его работе [35] в качестве типичного примера пары «источники-продукты» для закона Брэдфорда.
В работе [37] закон Брэдфорда также применяется к процессу использования литературы, а именно к статистике книговыдач в Хиллмановской библиотеке Питтсбургского университета, собранной в течение всего 1972 г. Автор также приходит к выводу, что статистика хорошо соответствует модели Брэдфорда (отмечая, что «вербальная» формулировка подходит в данном конкретном случае лучше, чем графическая), при этом построенный им библиограф действительно имеет классический вид. Этот труд является, по сути, распространением одного из выводов более раннего обширного исследования [36], проведенного в той же библиотеке, в котором констатируется близость статистики книговыдач к логнормальной функции, упоминается распределение Брэдфорда, однако не проводится подробный анализ параметров этой модели и не строится библиограф.
В [103] анализируется статистика межбиблиотечного обмена библиотек поликлиник Массачусетса. Автор, Д. Мортон, исследует вербальную формулировку закона Брэдфорда, разделяя источники/продукты на 20 зон, коэффициент Брэдфорда при этом варьируется от 1,09 до 2,00. Вообще говоря, это свидетельствует о плохом выполнении закона Брэдфорда для такого количества зон. Тем не менее, графическая формулировка прилагается прекрасно, библиограф имеет классический вид и даже без Groos Droop на конце. Последнее обстоятельство автор списывает на то, что из исследования была исключена вся «случайная» периодика, не имеющая непосредственного отношения к медицинской тематике.
Наконец, работа [122] также вплотную подходит к теме настоящего исследования. В ней осуществляется попытка приложить информетрическую модель Брэдфорда к массиву заказов на периодику, поступивших за два года в национальную службу доставки документов Турецкого академического сетевого и информационного центра (TANIC). Авторы пишут, что «частота использования наименований в первых двух зонах (часто и умеренно используемые журналы) удовлетворяет тому, что следует ожидать согласно закону рассеяния Брэдфорда. Но частота обращений к менее используемым журналам оказывается выше, чем предполагалось...». Однако остается непонятным, каким образом можно говорить о выполнении закона Брэдфорда для двух зон, если для него требуется как минимум три зоны.
Соотношение между числом журналов в первой и второй зонах в [122] оказывается равным 1 : 3,0, в то время как между второй и третьей — 1 : 9, (разделение на зоны проведено делением на три суммарного количества обращений ко всем журналам). Это скорее свидетельствует о том, что закон Брэдфорда выполняется плохо. Обратное утверждение авторов можно трактовать лишь в том смысле, что наблюдается высокая концентрация востребованности различных журналов, без соблюдения специальной математической закономерности, постулируемой Брэдфордом.
Все перечисленные выше работы показывают, что с тем или иным успехом закон Брэдфорда применим к большому кругу дисциплин и к разнообразным информационным ситуациям. Эта модель имеет по-настоящему широкий спектр приложения в мире научной информации, к процессам различной природы. Отметим, например, любопытный подход М. Бейтс [20], которая связывает зоны Брэдфорда с различными стратегиями поиска информации. Информацию, размещенную в первой зоне, следует искать при помощи непосредственного «просмотра» (прежде всего, сплошного изучения оглавления «ядерных» журналов). Информация, размещенная во второй зоне, может быть обнаружена методами «прямого поиска» (по индексированному массиву, например по реферативной базе данных). Рассеянная по большому объему журналов информация из третьей зоны Брэдфорда извлекается поиском по цитируемой и цитирующей литературе (например при помощи научных индексов цитирования).
Несмотря на достаточное количество трудов, применяющих закон Брэдфорда к различным ситуациям и информационным процессам, автору диссертационной работы неизвестны исследования, посвященные приложению данного информетрического распределения к статистике использования онлайновых баз данных научной периодики (библиотек электронных журналов). Все разработки в области статистики чтения касаются либо выдач печатных изданий, либо работы копировальных служб и служб доставки документов. Это представляется серьезным пробелом в литературе по закону Брэдфорда, т. к., во-первых, современное потребление научной информации всё в большей мере происходит через электронные сетевые источники, во-вторых — как уже говорилось в параграфе 1.2 — онлайновые ресурсы дают возможность собирать статистику обращений к ним на больших временных массивах, будучи избавленными от серьезных технических (и неизбежно следующих за ними методологических) сложностей подсчета обращений к печатным изданиям, особенно на уровне отдельных статей в журнале.
2.2. Закон Брэдфорда как модель процесса обращения к электронным информационным источникам Теперь обратимся к имеющимся у нас экспериментальным данным по обращению к электронным базам данных документальных источников в библиотеке ГУ-ВШЭ и попробуем применить к ним закон Брэдфорда.
Возьмем суммарные данные использования четырех ресурсов (EBSCO, JSTOR, ProQuest, ScienceDirect), т. е. массив, получение которого подробно описано в параграфе 1.4.
Упорядочим журналы в порядке убывания количества открытых из них статей. Таким образом, первым журналом будет American Economic Review с 1306 загруженными статьями, вторым — American Journal of Sociology с 1166 и т. д. В конце упорядоченного списка будет находиться длинный «хвост» из 778 изданий, из которых было открыто лишь по одной статье. Данные приведены в таблице из Приложения 1, устроенной аналогично таблицам, фигурировавшим в классической работе [29] и других (отметим, что в нашей таблице 155 строк, в то время как у Брэдфорда в его двух таблицах соответственно 24 и 14, что еще раз подтверждает ценность и представительность нашей выборки для моделирования информационного процесса).
Рис. 2.2.1 Зависимость кумулятивного числа открытых статей в s журналах от натурального логарифма s (издания упорядочены от наиболее спрашиваемых к Построим кривую Брэдфорда («библиограф») для этого распределения. По оси абсцисс отложим натуральный логарифм количества s наиболее продуктивных источников (т. е. данные из столбца Д Приложения 1).
По ординате — кумулятивное число статей, пришедшихся на эти s журналов (т. е. данные из столбца Г Приложения 1). Итоговый график, построенный по отдельным точкам, показан на рис. 2.2.1, а на рис. 2.2.2 изображен сглаженный вариант данного графика.
Рис. 2.2.2. Зависимость кумулятивного числа открытых статей в s журналах от натурального логарифма s Мы видим, что полученный «библиограф», описывающий процесс обращения к четырем электронным ресурсам, имеет вполне классический вид, совпадающий, например, с графиком, приведенным в [93]. Выделяется начальный фрагмент кривой, имеющий положительную вторую производную, далее более или менее прямолинейный участок и в конце — отклонение от прямой в виде выпуклого участка библиографа. Последняя часть — это «Groos Droop», подробно обсуждавшийся в разделе 2.1.2. Из характерных особенностей графика, полученного по экспериментальным данным, можно, пожалуй, отметить недостаточно ярко выраженную прямолинейную часть, служащую как будто переходом от начального вогнутого к финальному выпуклому участку.
На время отвлечемся от графического представления эмпирических данных и обратимся к проверке «вербальной» формулировки закона Брэдфорда. Для этого нам необходимо выделить зоны Брэдфорда и посмотреть на соотношения между числами журналов, попадающих в разные зоны.
Прежде всего, воспользуемся элементарным методом, который напрашивается исходя из классической формулировки закона Брэдфорда: разобьем всё множество публикаций на три равные части и посмотрим, на какое число журналов они приходятся (в частности, так поступают авторы в [121;
122]).
Таб. 2.2.1. Разбиение на три зоны Брэдфорда методом простого деления множества статей на (примерно) (q — коэффицент Брэдфорда, отношение числа журналов Мы имеем 41959 «продуктов» (статей), т. е. по 13986–13987 в каждой зоне. Следовательно (опираемся на данные Приложения 1), первую зону Брэдфорда формируют 26 журналов, из которых открыто от 1306 до публикаций, всего 13987 статей. Во вторую зону входят 139 изданий, к которым обращались от 272 до 43 раз и в сумме открыли 13975 документов.
На оставшиеся 2425 журналов пришлось от 42 до 1 запроса на каждый, в сумме из них было открыто 13997 статей, и они образуют третью зону Брэдфорда. Результаты отражены в таб. 2.2.1.
Из данной таблицы видно, что концентрация спроса на журналы очень велика: первую зону Брэдфорда, на которую приходится треть всех открытых статей, составляет лишь 1,0% изданий (26 журналов). Для сравнения, в классической работе самого С. Брэдфорда [29] процент журналов, составляющих первую зону, «ядро», равен 2,8% для литературы по прикладной геофизике и 4,9% — по смазке. Тем не менее, в литературе по закону Брэдфорда известна и бльшая концентрация: например, в исследовании [120], где закон Брэдфорда применяется к распределению цитирований, в первую зону вошли лишь 0,3% всех цитировавшихся изданий.
Также из анализа таб. 2.2.1 можно заключить, что с использованными для ее построения параметрами информетрическая модель Брэдфорда плохо соответствует рассматриваемым эмпирическим данным: числа журналов в трех зонах не образуют геометрической прогрессии, и коэффициент q, который при идеальном выполнении закона должен оставаться постоянным, варьируется более чем в три раза, от 5,4 до 17,5.
Теперь применим более тонкую методику подгонки параметров модели Брэдфорда, предложенную Л. Эгге в [60] и подробно изложенную в параграфе 2.1.1:
— выберем число групп Брэдфорда n равным трем. В методике Эгге предлагается выбирать это число от 4 до 10, но для того чтобы сравнить результаты, полученные «элементарным» способом, с новой методикой, начнем с такого значения n. Опишем процедуру подробно для n = 3, в дальнейшем для других n детальные выкладки, аналогичные данным, будут опущены;
— по формуле (2.1.24) вычислим коэффициент Брэдфорда q:
— по (2.1.4) получим размер первой зоны Брэдфорда S1:
— т. к. S1 получается не целым, используем округление до ближайшего целого {S1} = 14 (здесь мы используем нашу корректировку метода Эгге, предлагавшего округлять S1 строго в сторону меньшего целого); на первые 14 наиболее продуктивных журналов приходится, согласно Приложению 1, 10049 статей;
— в двух остальных зонах число источников (журналов) вычисляется как результат округления до ближайшего целого произведений qS и q2S1, что дает 181 и 2396 журналов соответственно; отметим, что вычисленные таким образом зоны Брэдфорда дают в сумме журнал, что превышает общее число журналов S на единицу. Это произошло в результате накопления ошибок округлений, поэтому размер последней группы скорректируем на единицу, приравняв его 2395. По Приложению 1 устанавливаем, что на эти зоны приходится соответственно 19063 и 12847 статей.
В результате получим таб. 2.2.2.
Таб. 2.2.2. Три зоны Брэдфорда, определенные Сравнивая таб. 2.2.1 и таб. 2.2.2, можно сопоставить результаты выделения трех зон Брэдфорда двумя различными методами — методом самого Брэдфорда и методом Эгге. Прежде всего, заметим, что в таб. 2.2.1 практически совпадает число статей в каждой зоне, но при этом сильно варьируется коэффициент q. В таб. 2.2.2 наоборот: отношение числа источников в группах друг к другу (параметр q) практически неизменно, однако число статей по зонам серьезно (почти в два раза) отличается друг от друга. Это отличие двух таблиц не является чем-то неожиданным и всего лишь отражает внутреннюю логику, по которой строилось разбиение на зоны двумя различными способами.
Что важно — это то, что, согласно полученным результатам (таб. 2.2. и таб. 2.2.2), «вербальная» формулировка закона Брэдфорда для имеющихся экспериментальных данных выполняется малоудовлетворительно, вне зависимости от того, какой способ разбиения применяется. Несмотря на сильную концентрацию и неравномерность распределения «продуктов» по «источникам», которые предсказывает закон Брэдфорда, математическая форма этой концентрации отличается от описываемой вербальным вариантом закона.