WWW.DISS.SELUK.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА
(Авторефераты, диссертации, методички, учебные программы, монографии)

 

Pages:     || 2 |

«НВОХИРИ АНТОНИ МЕТУМАРАИБЕ РАЗРАБОТКА МАТЕМАТИЧЕСКИХ МЕТОДОВ ИССЛЕДОВАНИЯ ГИПЕРССЫЛОЧНЫХ СВЯЗЕЙ ИНФОРМАЦИОННЫХ РЕСУРСОВ УНИВЕРСИТЕТОВ РАЗВИВАЮЩИХСЯ СТРАН (НА ПРИМЕРЕ НИГЕРИИ) 05.13.18 – математическое моделирование, ...»

-- [ Страница 1 ] --

САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

На правах рукописи

НВОХИРИ АНТОНИ МЕТУМАРАИБЕ

РАЗРАБОТКА МАТЕМАТИЧЕСКИХ МЕТОДОВ ИССЛЕДОВАНИЯ

ГИПЕРССЫЛОЧНЫХ СВЯЗЕЙ ИНФОРМАЦИОННЫХ РЕСУРСОВ

УНИВЕРСИТЕТОВ РАЗВИВАЮЩИХСЯ СТРАН (НА ПРИМЕРЕ НИГЕРИИ)

05.13.18 – математическое моделирование, численные методы и комплексы программ Диссертация на соискание учёной степени кандидата технических наук

Научный руководитель доктор технических наук, доцент А. А. Печников Санкт-Петербург

ОГЛАВЛЕНИЕ

ОГЛАВЛЕНИЕ

ВВЕДЕНИЕ

ГЛАВА 1. ОСНОВНЫЕ ПОДХОДЫ, МОДЕЛИ И МЕТОДЫ

ВЕБОМЕТРИКИ

§1 Вебометрика как научное направление

§2 Основные определения вебометрики

§3 Инструментальные средства сбора данных о Вебе

§4 Ранжирование сайтов

§5 Модели Веба

§6 Классификация гиперссылок

§7 Основные выводы из анализа научных источников

ГЛАВА 2. УНИВЕРСИТЕТСКИЙ ВЕБ НИГЕРИИ

§1 Университеты Нигерии

§2 Веб-пространство университетов в Нигерии

§3 Задача ранжирования веб-сайтов университетов в Нигерии

ГЛАВА 3. МОДЕЛЬ ФРАГМЕНТА УНИВЕРСИТЕТСКОГО ВЕБА

НИГЕРИИ

§1 Программные средства и методология

§2 Исследование университетских сайтов Нигерии

§3 Веб-графы университетского фрагмента Веба Нигерии

§4 Связи университетского фрагмента Веба Нигерии с академическими сайтами Англии, США и Австралии

ГЛАВА 4. МОТИВАЦИИ СОЗДАНИЯ ГИПЕРССЫЛОК В

УНИВЕРСИТЕТСКОМ ВЕБЕ НИГЕРИИ

§1 Связанные исследования, задачи и методы исследования

§2 Классификационная схема

§3 Статистические методы

§4 Интерпретация результатов

§5 Обсуждение и выводы

ЗАКЛЮЧЕНИЕ

ЛИТЕРАТУРА

СПИСОК ИЛЛЮСТРАТИВНОГО МАТЕРИАЛА

ПРИЛОЖЕНИЯ

Приложение 1. Основные мотивы для создания гиперссылок

Приложение 2. Свидетельство о регистрации электронного ресурса

ВВЕДЕНИЕ

Диссертационное исследование «Разработка математических методов исследования гиперссылочных связей информационных ресурсов университетов развивающихся стран (на примере Нигерии)» выполнено в таком относительно молодом направлении компьютерных наук, как вебометрика, в рамках которого исследуются количественные аспекты конструирования и использования информационных ресурсов, структур и технологий применительно к World Wide Web (далее – Веб).

Вебометрика включает в себя четыре основных направления исследований:

веб-индикаторы сайтов, такие как количество страниц и документов, ссылочная популярность и др. и ранжирование сайтов на их основе;

поиск и сбор данных в Вебе (роботы, краулеры, поисковые машины, анализ гиперссылок (в частности, связи между сайтами вузов и научных организаций, мотивация ссылок, структура фрагментов Веба);

социальные феномены в Вебе (например, социальные сети, сообщества сайтов, форумы, самоорганизация);

Веб может рассматриваться как средство функционального объединения глобальной базы научных знаний и коммуникаций между учеными, поэтому оценки веб-ресурсов высших учебных заведений и научно-исследовательских институтов мира и их взаимосвязей в виртуальном пространстве являются весьма актуальной темой.

Актуальность темы: Количество исследовательских работ, посвященных вебометрическим исследованиям сайтов университетов развивающих стран, очень мало. Существует проблема оценки качества (степени) присутствия в Вебе различных академических веб-ресурсов, особенно у развивающих стран. Причём для развивающихся стран наиболее характерно неэффективное использование внешних гиперссылок как одного из основных инструментов коммуникации в Вебе, низкая степень развитости сетевых научных коммуникаций ученых, слабое развитие университетского образовательного веб-пространства, в частности, из-за полного отсутствия сайтов научных конференций и семинаров, совместных проектов и региональных советов ректоров. При этом мы не утверждаем, что такие мероприятия и организации в развивающихся странах отсутствуют вовсе, а говорим о том, что они не находят отражения в Вебе.

Степень разработанности темы: Вышеупомянутые проблемы практически отсутствуют у сайтов университетов в развитых странах и поэтому они не исследуются.

В современной научной литературе описаны различные подходы и методы исследования, учитывающие общие для развитых стран, стандартные параметры.

Эти методы недостаточны для анализа сайтов университетов развивающихся стран.

Для анализа университетских веб-ресурсов развивающих стран и разработки более адекватных моделей их поведения требуется выявление дополнительных признаков и параметров исследуемых сайтов, отражающих их специфику, и модификация уже имеющихся методов.

Цель и задачи исследования: Цель заключается в развитии известных и разработке новых математических методов исследования официальных сайтов университетов развивающихся стран на примере Нигерии, направленных на улучшение их присутствия и взаимосвязей в Вебе.



Для достижения указанной цели решается ряд взаимосвязанных задач:

1. Исследование набора уже существующих стандартных характеристик присутствия веб-сайтов нигерийских университетов – размер сайта (общее количество страниц сайта), цитируемость или видимость сайта (количество уникальных гипертекстовых ссылок с других веб-ресурсов), количество полнотекстовых файлов, под которыми понимаются файлы с расширениями типа *.pdf, *.doc, и т.д., научность сайта (количество статей, размещенных на сайте и их цитирований)с использованием известных алгоритмов ранжирования. Автором выявлен набор новых показателей характеризующих эти сайты – возраст университета, исторические и географические аспекты, подчинённость (федеральные, университеты штатов и частные университеты), традиции и этнокультурные признаки региона фактического нахождения университета;

расширенного набора характеристик и исследование веб-графа, построенного на множестве сайтов нигерийских университетов с применение теоретико-графовых моделей и методов;

3. Исследование качественных характеристик внешних гиперссылок, сделанных с университетских сайтов Нигерии с точки зрения мотивации создания таких гиперссылок с использованием методов математической статистики.

Объект исследования: Официальные веб-сайты университетов в Нигерии и другие веб-сайты Нигерии, имеющие отношение к науке и образованию.

Методы исследований.

ранжирования, методы сбора вебометрической информации с помощью поисковых систем и краулеров, теоретико-графовые модели и методы математической статистики.

Основные положения, выносимые на защиту:

1. Алгоритм ранжирования официальных веб-сайтов университетов на основе новых характеристик качества применительно к веб-сайтам университетов Нигерии и других стран, у которых веб-пространство вузов находится в начальной стадии развития.

2. Теоретико-графовые характеристики веб-графа для реального фрагмента нигерийского университетского Веба, показывающие незначительную взаимосвязь веб-сайтов как данного сообщества, так и взаимосвязь с университетскими сообществами веб-сайтов США, Англии и Австралии.

3. Классификационная схема мотивации создания гиперссылок университетов Нигерии и примененные к ней статистические методы, позволяющие получить разные доминирующие мотивации по различным регионам Нигерии.

Рекомендации для руководства и разработчиков веб-сайтов университетов Нигерии и некоторых других стран, направленные на улучшение использования внешних гиперссылок как одного из основных инструментов коммуникации в Вебе.

Основные научные результаты выполненных исследований по теме диссертации опубликованы в 6 печатных работах [16-19,21,102].

Из них 2 работы опубликованы в журналах, включенных в Перечень ведущих рецензируемых научных журналов и изданий, в которых должны быть опубликованы основные научные результаты диссертации на соискание ученой степени Высшей аттестационной комиссии Министерства образования и науки Российской Федерации [16, 21].

Одна работа опубликована в журнале, включенном в библиографическую базу Scopus [102].

Результаты исследований докладывались на конференциях и научных школах и семинарах:

• 42-я международная научная конференция аспирантов и студентов «Процессы управления и устойчивость», Санкт-Петербург, 2011 г.

• 43-я международная научная конференция аспирантов и студентов «Процессы управления и устойчивость», Санкт-Петербург, 2012 г.

• V Всероссийская научно-практическая конференция «Информационная среда вуза XXI века», Петрозаводск, 2011 г.

Научная новизна работы заключается в следующем:

1. Впервые на примере Нигерии проведено исследование задач ранжирования и построения и анализа веб-пространства официальных веб-сайтов университетов для стран, у которых веб-пространство вузов находится в начальной стадии развития. Исследование позволило установить зависимость принадлежности (федеральные, университеты штата или частные), так и от высокоразвитых стран.

2. Построенный веб-граф реального фрагмента нигерийского университетского Веба позволил установить существенную значимость веб-коммуникаторов (в Commission) для связности веб-графа и незначительную взаимосвязь вебсайтов университетов между собой.

Разработана новая классификационная схема мотивации создания гиперссылок (на примере университетов Нигерии), позволяющая с использованием статистических методов получить разные доминирующие мотивации по различным регионам Нигерии.

Теоретическая и практическая значимость работы. Предложенные методы позволяют дать рекомендации разработчикам веб-ресурсов университетов (особенно университетов стран, у которых веб-пространство вузов находится в начальной стадии развития) по улучшению содержания, усилению связности посредством гиперссылок и изменению мотивации создания гиперссылок, что в целом будет способствовать улучшению присутствия веб-сайтов этих университетов в Вебе.

Достоверность и обоснованность полученных результатов, полученных в диссертации, основаны на большом объеме собранного, обработанного и исследованного фактического материала, корректно применяемых математических методах и моделях.

Диссертация работа состоит из введения, четырёх глав, заключения, списка использованных источников и литературы, включающего 138 наименований, списка иллюстративного материала, и 2 приложения. Общий объем диссертации страниц машинописного текста, из них основная часть работы содержит 98 страниц и включает 7 рисунков и 11 таблиц; 1 приложение имеет объем 13 страниц.

В первой главе описывается вебометрика и основные направления исследований в этой области науки. Рассматриваются инструментальные средства сбора данных о Вебе, вебометрические методы ранжирования сайтов, модели Веба и классификации гиперссылок. Сделаны обобщающие выводы из анализа научных источников.

Вторая глава описывает университетский Веб Нигерии. Приводится краткая история развития высшего образования в Нигерии, необходимая для дальнейшего изложения. Впервые анализируется веб-пространство университетов в Нигерии, формируется множество доменных имен официальных сайтов этих университетов и создается целевое множество исследований.

Далее описывается задача ранжирования вышеуказанных сайтов, для решения которой предложен модифицированный подход известного метода Cybermetrics Lab [105]. В этих модификациях предлагается учесть, например, такие индикаторы как количество публикаций в печатных изданиях, потенциальных авторов, и другие.

Данный подход использует следующие понятия:

S – общее количество страниц сайта (от size, размер);

V – количество уникальных гипертекстовых ссылок с других веб-ресурсов, обнаруживаемых поисковыми системами (от visibility, узнаваемость или R – количество полнотекстовых файлов, под которыми понимаются файлы с расширениями типа *.pdf,, *.doc, и других (от Rich files, насыщенные или Sc – количество статей, размещенных на сайте, и обнаруживаемых Google Scholar (от scholar, «научность сайта»).

Для ранжирования сайтов используется формула:

Rating(i)=5*RankVav(i)+2*RankSav(i)+1,5*RankRav(i)+1,5*RankSc(i) где Vav – среднее количество уникальных гипертекстовых ссылок с других вебресурсов, обнаруживаемых известными поисковыми машинами Google, Yahoo, и Bing; Sav – среднее количество страниц, обнаруживаемых на сайте этими поисковыми машинами; Rav – среднее количество полнотекстовых файлов; RankVav(i) - порядковый номер i-го сайта в упорядоченном по убыванию векторе Vav. RankSav(i), RankRav(i), RankSc(i) определяются аналогично. Потом тот сайт, у которого значение Rating(i) будет самым маленьким, получает значение WR (Webometrics Rating) равное 1, следующий за ним - 2, и т.д.

Значения коэффициентов при RankVav(i), RankSav(i), RankRav(i), RankSc(i) определяются в соответствии с Берлинской декларацией открытого доступа [56], когда наибольшая значимость придается количеству размещенных на сайте полнотекстовых файлов и количеству ссылок на научные статьи, когда Интернет рассматривается, прежде всего, как «функциональный инструмент базы глобального научного знания», свободного доступа к научным публикациям и другим учебным материалам.

В целом, сайты федеральных университетов имеют значения рейтингов больше, чем сайты университетов нигерийских штатов и частных университетов.

Федеральные университеты получают большее финансирование, они привлекают более квалифицированных сотрудников, в них сложнее поступить, что и увеличивает их престижность. Можно считать, что указанные факторы нашли свое отражение в Вебе.

Третья глава посвящена модели фрагмента университетского Веба Нигерии.

В данной главе основное внимание сосредоточено на трёх вопросах:

1. Что представляет собой академический Веб Нигерии?

2. Какова структура академического Веба Нигерии?

3. Какие рекомендации могут быть сделаны по результатам исследования?

В начале главы содержится описание программных средств и методологий для сбора больших объемов информации о гиперссылках.

Затем описывается исследование университетских сайтов Нигерии. Сначала сканируются сайты посредством краулера BeeBot [43] до 5-го уровня глубины с целью сбора внешних гиперссылок, сделанных с этих сайтов. Анализ базы данных внешних гиперссылок, построенной в результате сканирования сайтов целевого множества, позволил обнаружить веб-сайты, являющихся сайтами множества вебокрестностей (т.е. сайтов, относящихся к веб-ресурсам университетов, но не являющихся их официальными сайтами).

Переход от официальных сайтов нигерийских университетов к единицам анализа представляет собой агрегирование веб-ресурсов (официальных сайтов и вебокрестностей) каждого университета, что привело к существенному приросту страниц и внешних ссылок. Привязка университетов по регионам также позволила выявить ряд интересных особенностей.

В третьем параграфе данной главы исследуются веб-графы университетского фрагмента Веба Нигерии. Эти веб-графы построены на вершинах, соответствующих веб-сайтам целевого множества. Обнаруживается степень связности этих веб-графов и исследуется методы для улучшения их степени связности.

В конце главы рассматривается академический фрагмент нигерийского Веба и с помощью известных вебометрических инструментов и краулера анализируется его связность с сайтами вузов Англии, США и Австралии. Также описывается инструментарий, который был разработан специально для такого рода исследований.

Результаты анализа демонстрируют ярко выраженный географический аспект, который заключается в преобладании университетов с большим количеством связей с иностранными учебными заведениями в южной части страны.

Также проверяется, существует ли корреляция между количеством таких гиперссылок и рейтингом Webometrics [105] испанской исследовательской группы Cybermetrics Lab [103].

Результаты проведенных экспериментов показывают, что ссылки, сделанные с иностранных зарубежных учебных заведений важнее, чем ссылки, исходящие с сайтов нигерийских университетов, хотя в данной работе внимание уделяется и содержательной ценности исходящих ссылок.

В четвертой главе изучаются мотивации создания гиперссылок в университетском Вебе Нигерии. В начале главы содержится подробное описание ранее проведенных подобных исследований задач и методов исследования, поскольку они применяются в дальнейшем. Авторы подобных исследований, рассмотренных в данной диссертации, пришли к трем основным выводам:

мотивации для создания ссылок на основе изучения только исходных и целевых страниц трудно классифицировать потому, что (а) существуют различные возможные мотивации, (б) сложно правильно угадать истинные намерения авторов в некоторых (в) потенциально существуют многократные мотивации; отсюда авторы делают вывод, что лучшая схема классификации могла бы привести к «более надежным результатам»;

мотивация создания большинства гиперссылок между сайтами британских университетов не является подобной мотивации цитирования журнальных статей в научных публикациях;

учебные материалы одного университета очень редко используются в других университетах напрямую, несмотря на «обширное финансирование объединенного межучережденческого обучения», и это, возможно, является показателем того, что финансирование подобных проектов объединенного межуниверситетского обучения неэффективно.

В диссертационной работе исследование мотиваций создания гиперссылок, сделанных с сайтов нигерийских университетов, подразумевает ответы на следующие два вопроса:

какие мотивации стоят за размещением гиперссылок на нигерийских какие мотивации создания гиперссылок наиболее характерны для этногеографических регионов Нигерии?

В качестве инструмента для сбора гиперссылок использовался уже упоминавшийся ранее краулер BeeBot, с помощью которого было отсканировано сайтов университетов Нигерии, на которых было обнаружено более 6300 исходящих гиперссылок.

В данной главе разрабатывается классификационная схема мотивации создания гиперссылок университетов Нигерии и примененные к ней статистические методы, позволяющие получить разные доминирующие мотивации по различным регионам Нигерии.

В настоящее время не существует оценки причин создания гиперссылок.

Автором предлагается следующая схема.

Изначально из 33 мотиваций, предложенных в работе [37] для российских научных организаций, были выделены 24 основные мотивации, объясняющие мотивы исходящих гиперссылок, сделанных с сайтов нигерийских университетов, из которых здесь укажем только наиболее часто встречающиеся. Из этих 24 здесь укажем только несколько (остальные мотивации можно посмотреть в главе 4, табл.

4.1):

информация для обучающихся и поступающих, ресурсы поддержки научных исследований, подобная по виду деятельности организация, Классификационная схема была упрощена путем объединения столбцов (все исследуемые университеты были собраны по регионам в 5 групп) и строк (количество мотиваций) классификационной схемы. Цель такого действие – сократить количество нулей и сделать объем данных более компактным для изучения.

Количество мотиваций было сокращено с 24 до 9. Это сделано, во-первых, и по такой же причине, как в случае столбцов, а во-вторых (и это главное) – чтобы минимизировать количество совпадений мотиваций. В итоге из 24 получились основных мотиваций 1. Учебные материалы для обучающихся.

2. Информации для обучающихся и поступающих.

3. Поддержка научных исследований.

4. Вышестоящая организация.

5. Подобная по деятельности организация и нижестоящая организация.

7. Организации сферы бизнеса.

8. Неклассифицированный сайт.

Применение к классификационной схеме статистического метода проверки независимости номинальных переменных на основе статистики хи-квадрат позволило получить разные доминирующие мотивации по различным регионам Нигерии.

Проведенный анализ показал, что для каждого региона можно выделить доминирующую мотивацию создания внешних гиперссылок. В Северном и ЮгоЗападном регионах и Центральном поясе такой доминантой является поддержка научных исследований, а в Южном и Юго-Восточном регионах отсылка к служебным сайтам.

Между университетами имеется совершенно разное по регионам поведение в создание гиперссылок. На сегодняшний день невозможно дать содержательное объяснение обнаруженным различиям. Можно предположить, что на Юге вопрос с финансовой поддержкой научных исследований полностью решен, а на Севере наблюдается плохое финансирование, а может быть, наоборот, на Севере научные исследования ведутся очень интенсивно, а на Юге они полностью отсутствуют. Но при этом результаты исследования позволяют дать ряд рекомендаций разработчикам нигерийских университетских сайтов.

Заключение. В качестве заключения в диссертации сформулированы итоги выполненного исследования, рекомендации по использованию полученных результатов и перспективы дальнейшей разработки темы.

ГЛАВА 1. ОСНОВНЫЕ ПОДХОДЫ, МОДЕЛИ И МЕТОДЫ

ВЕБОМЕТРИКИ

Термин «вебометрика» был введен впервые в статье [52], в которой определен Веб как важный источник документов и информации. После появления этого термина, ученые признали, что многие измерения Веба могут проводиться с использованием расширенных функций поиска одной из лучших поисковых систем того времени – Alta-Vista [80, 106,107].

Использование термина «Веб» в русской транскрипции является, в какой-то мере, противопоставлением его более широкому понятию «Интернет». Интернет это глобальная телекоммуникационная сеть информационных и вычислительных ресурсов, а Веб - глобальное информационного пространство, основанное на физической инфраструктуре Интернета, протоколе передачи данных http (HyperText Transfer Protocol) и языке html (HyperText Markup Language), поэтому термины Веб и Интернет не являются синонимами.

Можно также сказать, что Интернет является технической основой Веба, а Веб одним из приложений Интернета. В настоящее время, когда слово «Интернет»

употребляется в обиходе, чаще всего имеется в виду Веб и доступная в нем информация, а не сама физическая сеть. Для обозначения Веба также используются термины Глобальная сеть, Всемирная паутина, World Wide Web, WWW, W3, Web.

Веб очень важен как средство коммуникации и для размещения в нём всё большего и большего количества документов. Учитывая этот огромный и легкодоступный источник информации, существуют безграничные возможности для масштабных измерений или подсчетов [121].

Изобретателями всемирной паутины считаются Тим Бернерс-Ли (Timothy John Berners-Lee) и в меньшей степени, Роберт Кайо (Robert Cailliau) [59, 127].

Термин вебометрика определяет научное направление, в рамках которого исследуются количественные аспекты конструирования и использования информационных ресурсов, структур и технологий применительно к World Wide Web (далее – Веб), опирающееся на библиометрические и информетрические подходы [63, 125]. Термин «вебометрика» введён Томасом Алминдом (Tomas C.

Almind) и Петером Ингверсеном (Peter Ingwersen) в 1997 году в работе [52]. Это термин является сочетанием двух английских слов «веб» (web) и «метрика» (metrics – по словарю «Webster’s Comprehensive Dictionary of English Language», определяется как математическая теория измерений).

Проект «Webometrics Ranking of World Universities» [105] испанской исследовательской группы Cybermetrics Lab [103] посвящен вебометрическим исследованиям сайтов вузов и научно-исследовательских институтов мира. Группа Statistical Cybermetrics Research Group(SCRG) из Великобритании (Wolverhamptone) [112], возглавляемая М. Тилволом (Michael Thelwall [133]), также активно занимается серьёзными исследованиями в данной области.

На сегодня считается, что вебометрика включает в себя четыре основных направления исследований:

1. Веб-индикаторы (например, индексы цитирования, размеры, «научность», видимость [visibility] сайтов, ранжирование сайтов), 2. Социальные феномены в Вебе (например, социальные сети, сообщества сайтов, форумы, самоорганизация), 3. Поиск и сбор данных в Вебе (например, роботы, краулеры, поисковые машины, информационный поиск), 4. Анализ гиперссылок (в частности, связи между сайтами вузов и научных организаций, мотивация ссылок, структура фрагментов Веба).

Так как вебометрика является молодым научным направлением, многие его термины и определения на сегодня нельзя считать окончательными, включая и само название «вебометрика». В некоторых западных литературах используются другие английские термины, такие как cybermetrics [63], и Informetrics [73]для обозначения этого направления. Связь и разница между двумя терминами «вебометрика» и «cybermetrics» анализируется в работе [63]. Попытка определить основные различия в определении «Informetrics» и «вебометрика», и других терминов и понятий, используемых в англоязычных публикациях, предпринята в работах [72, 86,118].

На ранней стадии развития вебометрики широко использовались методы таких научных дисциплин, как библиометрика (bibliometrics) и наукометрия (scientometrics). Основные шаги развития вебометрики за 1997-2006 годы описаны в [81]. По мнению Т. Бернерс-Ли и соавторов, нас в перспективе ждет становление новой междисциплинарной отрасли, которую сегодня можно назвать «наукой о Вебе» [57,58].

отформатированный текст или рисунок на html-странице, содержащий адрес для перехода на некоторый ресурс в Вебе. Гиперссылки можно разделить на внутренние (ссылки на другие страницы или документы того самого веб-ресурса, откуда они осуществляются) и внешние (ссылки на страницы или документы, расположенные на других веб-ресурсах). Далее если специально не уточняется, какой вид гиперссылок рассматривается, то имеются ввиду внешние гиперссылки (могут в качестве аналогичных также использоваться термины «ссылки» или «веб-ссылки»).

Гиперссылки являются единственным способом взаимодействия между сайтами и организации самих сайтов. Поэтому исследование гиперссылок действительно актуально. Хотя может показаться, что разработчики Веба делают ссылки на страницы других сайтов случайным образом, в действительности их поведенческие модели достаточно точны для успешного использования, например, в алгоритмах информационного поиска Яндекс и Google [9, 66]. Исследования в этой области показывают, что изучение гиперссылок имеет огромный потенциал как в смысле новых источников информации и коммуникации, так и ценности самих вебстраниц [70, 75, 112, 122]. В качестве базовой работы по исследованиям гиперссылок можно отметить [121].

В России вебометрические исследования активно ведутся в Институте прикладных математических исследований Карельского научного центра РАН (ИПМИ КарНЦ РАН), где c 2006 года работает группа по вебометрике [5]. Данная диссертационная работа представляет собой применение и определенное развитие моделей, методов и программных средств, разработанных группой по вебометрике, применительно к университетскому веб-пространству Нигерии.

С учётом того, что вебометрика является достаточно молодым научным направлением, определим формально несколько понятий, которые потребуются для дальнейшего изложения.

Веб-страница (html-страница, или просто страница) – это адресуемая единица Веба, обычно написанная на языке разметки HTML и однозначно определяемая в Вебе адресом URL. Здесь HTML (от английского HyperText Markup Language – «язык разметки гипертекста») – стандартный язык разметки документов в Вебе, а URL (от английского Uniform Resource Locator – единообразный локатор) – определитель местонахождения документа. Доступ к Веб-странице осуществляется с помощью веб-браузера [107]. Информация на Веб-странице представляется в различных формах – текст, аудио, видео, апплеты, графические изображения.

Веб-сайт (сайт) – совокупность взаимосвязанных html-страниц и вебдокументов, связанных внутренними гиперссылками и обладающих единством содержания, идентифицируемый в Вебе по его доменному имени [44]. В большинстве случаев в Вебе одному сайту соответствует одно доменное имя.

самостоятельные веб-сайты несмотря на то, что name2.name1.ru представляет собой под-сайт сайта name1.ru, а организация-владелец сайта name2.name1.ru скорее всего является подразделением организации-владельца сайта name1.ru.

Доменное имя – уникальное алфавитно-цифровое обозначение, позволяющее идентифицировать веб-сайт в Вебе. Доменные имена имеют собственную иерархию уровней (домен верхнего уровня, домены второго, третьего и т.д. уровней) [44].

Пример: в доменном имени сайта Высшей Аттестационной Комиссии vak.ed.gov.ru доменом верхнего уровня является.ru, а.gov.ru,.ed.gov.ru и vak.ed.gov.ru – домены второго, третьего и четвертого уровня соответственно.

Все следующие далее определения даются в соответствии с [38].

Внешней исходящей гиперссылкой веб-сайта (или просто исходящей ссылкой, в отличие от внутренней гиперссылки, соединяющей страницы этого же сайта) называется гиперссылка, сделанная с этого сайта на другой. На различных страницах одного сайта могут встречаться внешние гиперссылки на один и тот же внешний Распространенный пример – ссылка на вышестоящую организацию или на сайт организации-разработчика официального сайта.

Уникальной внешней гиперссылкой называется гиперссылка из множества всех гиперссылок с одинаковым адресом и контекстом, которая находится на странице, имеющий максимальный уровень; при этом уровень начальной страницы сайта считается наивысшим.

Целевым множеством проводимого вебометрического исследования называется множество исследуемых сайтов, идентифицируемых уникальными доменными именами, задаваемое прямым перечислением.

Здесь следует сделать следующее примечание. Когда мы говорим об элементе целевого множества, то имеем в виду доменное имя, идентифицирующее сайт.

Поэтому слова о том, что сайт принадлежит целевому множеству, подразумевают, что ему принадлежит доменное имя, идентифицирующее сайт.

Веб-окрестностью сайта целевого множества называется множество вебресурсов организации-владельца данного сайта, являющихся самостоятельными вебсайтами.

Веб-окрестность в свою очередь состоит из прямой и скрытой вебокрестностей. Сайты, входящие в прямую веб-окрестность, являются под-сайтами сайта целевого множества, а сайты из скрытой веб-окрестности имеют доменные имена, не являющиеся таковыми.

Множество веб-окрестностей – это объединение веб-окрестностей всех сайтов целевого множества. Понятно, что множество веб-окрестностей является также объединением подмножеств прямых и скрытых веб-окрестностей.

Сопутствующим множеством (по отношению к заданному целевому множеству) называется множество сайтов, не входящих в целевое множество и множество веб-окрестностей, на которые существуют гиперссылки с сайтов целевого множества.

Единица анализа – это множество сайтов, рассматриваемых как единое целое, один из которых принадлежит целевому множеству, а все остальные являются его веб-окрестностью.

Далее в диссертационной работе используются данные понятия и термины, именно в том смысле, как они определены в этом параграфе.

§3 Инструментальные средства сбора данных о Вебе Можно применить четыре подхода для получения больших объемов информации о гиперссылках: использование поисковых систем, использование свободного программного обеспечения, решающего задачи сбора данных о Вебе, использование созданных баз данных о гиперссылках, имеющихся в открытом доступе и создание собственного программного обеспечения. Преимущества и недостатки каждого из этих подходов анализируются в работе [54]. Автор этой работы отмечал ключевой момент, заключающийся в том, что результаты любых измерений в Вебе действительны только на тот период времени, когда они были выполнены и зависят от качества средств сбора данных, которые не всегда находятся под контролем исследователя.

Общеизвестно, что можно выполнить расширенный поиск с помощью таких наиболее распространенных поисковых машин как Google [76], Yahoo!Search[137], Bing [60] и Яндекс[138]. Например, если в поисковой строке Google набрать текст link:apmath.spbu.ru, то в результатах поиска мы увидим список, указывающий примерно на 60 страниц различных сайтов, с которых сделаны ссылки на страницы сайта apmath.spbu.ru. Дополнительный анализ этих ссылок даст нам определенную информацию об этих внешних гиперссылках.

Значительное количество публикаций в области вебометрики посвящено оценкам работы поисковых машин как с точки зрения степени охвата Веба (так называемая «индексация»), так и с точки зрения точности получаемых результатов.

В работе [131] отмечены эффекты «предпочтения» поисковых машин в зависимости от стран и языковой зоны Веба, так как многие вебометрические исследования основываются на измерениях Веба, выполненных посредством специализированных опций поисковых машин (измерения индексов цитирования, количества страниц сайта, гиперссылок, сделанных на заданный сайт, количества полнотекстовых файлов и т.д.).

Публикации, критикующие использование поисковых машин в качестве средств измерений появились достаточно давно и продолжают появляться [55, 110, 124].

Однако это не останавливает исследователей, имеющих только поисковые системы в качестве измерительных устройств, продолжать использовать их в своих исследованиях. Например, в работе [55] показано, что для подобранных конкретных примеров Google (по неизвестным причинам) «скрывает» от 48 до 70% проиндексированных им же страниц, содержащих ссылки на заданный сайт. В статье [110] заключается, что поисковые системы крайне непостоянны в своих результатах, они ограничены своими функциями поиска, которые они предлагают, у них есть плохо и/или неправильно документированные функции, они используют непрозрачные логики поиска, и меняют свои функции поиска в течение некоторого времени.

Поскольку применение поисковых машин в качестве измерительных устройств вызывает некоторые сомнения, очевидны тенденции к обработке и улучшению (в каком-то смысле) получаемых с их помощью результатов. С помощью таких известных программ как LinkPopularity.com [87], можно сравнить гиперссылки, полученные с помощью Google, MSN и Yahoo. Динамическая пост-обработка результатов поиска гиперссылок на сайты университетов Великобритании с помощью AltaVista и InfoSeek описана в [83].

исследователями поисковых роботов (аналогичные англоязычные термины –robot, bot, crawler, spider, ant, worm), зачастую являющихся freeware (программное обеспечение, лицензионное соглашение которого не требует каких-либо выплат правообладателю). Большое количество англоязычных публикаций посещено поисковым роботам. Ссылки на некоторые из них можно найти в обобщающей работе [99] и на обновляемом электронном ресурсе [101].

Робот анализирует содержимое страницы, отбирает интересующую информацию, отсылает ее в соответствующую базу данных и отправляется по ссылкам на следующие страницы. Порядок обхода страниц, интересующая информация, частота сканирования, защита от зацикливания, а также другие критерии выделения значимой информации, определяются соответствующими алгоритмами робота. В большинстве случаев переход от одной страницы к другой осуществляется по ссылкам, содержащимся на первой и последующих страницах.

В зависимости от своего назначения роботы могут быть ориентированы на максимальный охват страниц сайтов (исчерпывающие роботы), выборочный охват на основании некоторого критерия (масштабируемые роботы), выборочный поиск содержимого страниц (избирательные роботы), нахождение страниц с информацией на заданную тему (тематические роботы) [100].

В работе [78] отмечается, что многие важные вопросы разработки поисковых роботов плохо отражены в научных публикациях. Можно считать, что сама работа [78] частично устраняет данный пробел, поскольку в ней достаточно подробно описаны основные шаги, предпринятые авторами в процессе создания достаточно универсального и настраиваемого робота Mercator, и может служить хорошим пособием для создателей новых роботов [38]. Отметим работы, посвященные тематическим роботам [53] и общим принципам разработки поисковых роботов, ориентированных на университетские сайты [117]. Робот Webometric Analyst (ранее LexiURL Searcher) [134] в основном анализирует взаимосвязи документов или вебсайтов и создает веб-графы из наборов веб-сайтов. У этого робота есть множество дополнительных специализированных возможностей анализа.

К основному недостатку использования программных средств, разработанных другими авторами, можно отнести закрытость кодов и отсутствие технической документации. Один из примеров такого программного средства – созданный SCRG поисковый робот SocSciBot, который можно свободно использовать в научных целях [111]. Для него SocSciBot имеется только пособие пользователя. В качестве другого примера можно привести российскую программу для сбора гиперссылок, подробно описанную в [23, 37].

Третий подход состоит в использовании баз данных, созданных другими исследователями и опубликованных в доступном виде. Подробное описание баз данных, содержащих информацию о структуре гиперссылок веб-сайтов университетов ряда стран, приведено в работе [115]. Отмечается, что «…это попытка сделать доступными исходные данные для проведения исследований, поскольку непрозрачные методы коммерческих поисковых машин не дают уверенности в результатах, получаемых с их помощью».

На веб-сайте [114] в открытом доступе предоставлены 23 базы данных, созданные SCRG. Большие объемы информации о внешних гиперссылках зарубежных высших учебных заведений, среди которых университеты Австралии, Великобритании, Новой Зеландии (с 2000 по 2006 год – ежегодно обновляемые данные о 158 университетах), а также ВУЗы Тайваня, США и Испании (частичные обследования с 2000 по 2004 годы, общее количество университетов насчитывает более 200) собраны в рамках проекта «The Academic Web Link Database Project».Базы данных, упомянутые выше, могут быть использованы для апробации новых моделей, подходов и методов, но стоит заметить, что явным недостатком данного подхода является его привязанность к заданным целевым множествам.

Четвертый подход заключается в разработке собственного поискового робота и формировании баз данных, содержащих информацию о гиперссылках. Наиболее существенной причиной создания собственного робота является разница в научных подходах и постановке задач различных групп по вебометрике, что находит свое отражение в реализации алгоритмов поискового робота и структурах баз данных о гиперссылках [38].

Участниками группы по вебометрике ИПМИ КарНЦ РАН разработан адаптивный краулер для поиска и сбора внешних гиперссылок BeeBot [20, 43], который был использован в данной диссертационной работе как основной инструмент для исследования веб-пространства университетов Нигерии.

Такие параметры, как количество страниц на домене и количество внешних ссылок на домен были впервые использованы для оценки веб-ресурсов в 1998 года в работе [80], где, по аналогии с импакт-фактором научных журналов [79], был введен такой показатель, как импакт-фактор веб-ресурса (по-английский WIF – Web Impact Factor). WIF вычисляется как отношение внешних ссылок, сделанных на данный веб-ресурс, к общему количеству страниц этого веб-ресурса. Чем больше значение WIF, тем выше место домена в рейтинге.

Существуют многие различные модификации WIF, предложенные разными авторами. В этих модификациях предлагается учесть, например, такие индикаторы как количество публикаций в печатных изданиях, потенциальных авторов, и другие [64]. Однако WIF, как это было определено в [80], более успешно применяется не для оценок сайтов организаций, а для доменов верхнего уровня.

В 2001 г. Thelwall в статье [123] показал, что WIF применим для ранжирования сайтов университетов Англии, правда, с учетом того, что эти сайты содержат много разнообразной информации, не относящиеся к «университетским» темам. WIF попрежнему используется некоторыми исследователями практически в его первоначальном виде [92].

Исследования, проводимые группы Cybermetrics Lab являются основой для большинства сегодняшних исследований по ранжированию академических сайтов.

Регулярно публикуются и обновляются на сайте Webometrics Ranking of World Universities ранжирования на их основе сайтов университетов мира. В январе 2009 года один раздел этого сайта, посвященный исследованиям сайтов научно-исследовательских учреждений мира, был оформлен в виде отдельного сайта Ranking Web of World Research Centers [104].

Группа Cybermetrics Lab было первоначально нацелена на поддержку инициатив в соответствии с принципами Открытого доступа, когда Интернет рассматривается, прежде всего, как «функциональный инструмент базы глобального научного знания», свободного доступа к научным публикациям и другим учебным материалам [56]. Тем не менее, первые результаты исследований показали, что изучение вебометрических индикаторов и рейтингов сайтов очень полезно для сравнения различных сайтов учебных и научных учреждений, основанного не на количестве посещений и дизайне страниц, а на их степень представления в Вебе.

Рейтинги Cybermetrics Lab отражают в основном исследовательскую активность высших учебных заведений и научных институтов, а также степень развитости сетевых научных коммуникаций ученых. Вышеуказанная исследовательская исследовательских работ в Вебе.

Ниже представлены определения вебометрических параметров S,V, R и Sc в соответствии с [22] (ранее подобным образом они были определены в [105], на что есть ссылка в [22], однако в 2013 году эти определения изменились, о чём будет сказано ниже):

размер сайта S (size) – это общее количество страниц, обнаруживаемых на сайте поисковыми машинами Google, Yahoo!Search, Bingи Exalead;

видимость сайта V (visibility) – это количество уникальных гипертекстовых ссылок с других веб-ресурсов, обнаруживаемых Google, Yahoo!Search, Bingи количество полнотекстовых файлов R (richfiles) – это суммарное количество полнотекстовых файлов, под которыми понимаются файлы с расширениями *.pdf, *.ps, *.doc, *.docx, *.xls, *.xlsx, *.ppt, *.pptx и *.rtf;

научность сайта Sc (scholar) – это количество ссылок на научные статьи, размещенные на сайте, обнаруживаемые GoogleScholar(свободно доступной поисковой системой, которая обеспечивает полнотекстовый поиск научных публикаций всех форматов и дисциплин).

Включение Exalead в составе используемых поисковых машин объяснимо, так как эта система европейской компании-разработчика программного обеспечения [49] предоставляет сервисы для поиска по национальным доменам (Франция, Италия, Испания). Однако поисковая машина Exalead плохо индексирует сайты нигерийских ВУЗов – значения S, V и R, измеренные для нигерийских научных сайтов, слишком малы для того, чтобы иметь существенное значение.

Стоит отметить, что за период с 2006 по настоящее время у Cybermetrics Lab время от времени изменялись не только значения измеряемых индикаторов, но и подходы к определению критериев ранжирования. Эти изменения не имеют влияния на концептуальные подходы и результаты, формулируемые в этой работе. Однако, как отмечено в [38, 54], важно обратить особое внимание на даты измерений индикаторов для каждого конкретного исследования и, в случае необходимости, излагать основные результаты исследования в той версии, в которой они существовали на период их проведения.

В начале 2013 года методология исследований Cybermetrics Lab существенно изменилась. Эти изменения коснулись как самих индикаторов, способов их измерений, так и определения значимости индикаторов. Вкратце изложим новый подход Cybermetrics Lab.

Webometrics нормализует переменные прежде, чем объединять их в соответствии с соотношением 1:1 между показателями «активность/присутствие» и «видимость/импакт». После этого, сводный показатель, состоящий из числовых индикаторов видимости (50%) и активности (50%) строится так, как это показано ниже.

Видимость (Visibility) оценивается через "виртуальный референдум", где считаются все входящие ссылки, поступающие с посторонних веб-страниц на сайт университета. Посредством этих ссылок признается институциональный престиж, академические достижения университета, ценность информации и полезность услуг, размещенных на веб-страницах согласно критериям миллионов веб-редакторов со всего мира. Показатель высчитывается как произведение квадратного корня из количества внешних ссылок, сделанных на заданный сайт, на количество сайтов, откуда ссылаются эти внешние ссылки. Таким образом, учитывается не только популярность ссылок, но что еще более важно – разнообразие ссылок.

Активность (Activity) состоит из в равных долях из следующих компонент:

«присутствие», «открытость» и «качество». Присутствие (Presence) – это общее количество веб-страниц сайта университета, обнаруженных крупнейшей коммерческой поисковой системой (Google), которая считает каждую веб-страницу, включая все форматы, статические и динамические страницы и другие полнотекстовые файлы (ранее этот индикатор назван «размер сайта»). Наличие дополнительных доменов или альтернативных центральных доменов для иностранных языков или маркетинговых целей, имеет негативное влияние для этого показателя.

Открытость (Openness) учитывает число полнотекстовых файлов (pdf, doc, docx, ppt), опубликованных на специальных веб-сайтах, которые обнаруживает академическая поисковая система Google Scholar. Были рассмотрены и общее число файлов и файлы с правильно сформированными файловыми именами (например, файлы формата pdf должны иметь расширение.pdf). Получается, что открытость объединяет в себе два таких более ранних индикатора, как количество полнотекстовых файлов и научность сайта.

Научные работы, опубликованные в международных журналах с высоким импакт-фактором, играют очень важную роль в ранжировании университетов. Это определяет так называемое качество (Excellence) – последнюю составляющую показателя «активность». Учёт общего количества научных работ может ввести в заблуждение, поэтому Webometrics ограничивается только превосходными публикациями (университетская научная производительность является частью из 10% самых цитируемых работ в соответствующих научных областях).

Cybermetrics Lab ведет свою исследовательскую деятельность с 2004 г. За это время накоплен огромный объем информации по сайтам более 16000 учреждений высшего образования и нескольким тысячам научных учреждений. Сайты нигерийских ВУЗов и научно-исследовательских организаций занимают в рейтингах Cybermetrics Lab очень скромные позиции. Например, по данным на март 2013 года, сайт университета «Obafemi Awolowo University» в рейтинге лучших ВУЗов мира занимает 1511-е место, а сайт «University of Agriculture Abeokuta» – 2398-е, сайт «University of Lagos» – 2668-е. Стоит отметить, что по данным на март вышеуказанные университеты занимают 1-e, 2-е, и 3-е места соответственно среди ВУЗов Нигерии в рейтинге Cybermetrics Lab. Это мрачное обстоятельство, впрочем, не может не вызывать определенных сомнений и говорит о необходимости всесторонне изучать подходы Cybermetrics Lab и корректность их применения к нигерийскому Вебу.

Появляется все больше и больше исследований в области ранжирования сайтов, ориентированных на сайты ВУЗов и научно-исследовательских институтов.

Это касается не только Европы и США, но и стран Латинской Америки, а также Ирана и Нигерии [50, 93, 129]. Россия от этой тенденции не отстает. Можно отметить работы, посвященные ранжированию научных сайтов Сибирского отделения РАН [13, 46], а также раздел «Рейтинг сайтов научных учреждений СО РАН» официального сайта Института вычислительных технологий [42]. В работе [1] предлагается оригинальный подход к оценке веб-сайтов организаций науки и образования в России. Он основан на мировом опыте и учитывает отечественные остановки. В приложении приведены результаты рейтинга организаций науки и образования. В работе [14] и на портале [48] проводятся рейтинги веб-сайтов вузов Белоруссии и школ Украины соответственно.

Основываясь на подходах Cybermetrics Lab, авторы работы [39] провели самостоятельное исследование и сравнительный анализ сайтов ряда классических университетов Северо-запада России и Финляндии, что позволило выявить ряд интересных моментов, отраженных в данной статье. В работе [22] проведено аналогичное исследование, но только для классических ВУЗов России и на основе измерения с помощью поисковых машин таких индикаторов сайта, как количество индексируемых страниц и количество ссылок на него. На основе новых подходов к измерениям известных вебометрических индикаторов и вычислению функций ранжирования, в работе [15] было проведено ранжирование сайтов научных организаций РАН Северо-запада России.

Большинство работ по ранжированию развивают и модифицируют идеи Cybermetrics Lab применительно к национальным условиям.

Модель «галстука-бабочки» (bow tie model of the Web) [67] – одна из наиболее известных моделей так называемого Большого Веба, построенная с использованием теоретико-графового подхода. Исследователи из трех калифорнийских групп (IBM's Almaden Research Center, the Altavista search engine и Compaq Systems Research Center) проанализировали несколько миллиардов исходящих ссылок с миллионов веб-страниц. Было обнаружено, что Веб состоит из четырех отдельных компонентов: центральное ядро ('central core'), входные веб-страницы ('IN'), оконечные веб-страницы ('OUT'), и «отростки» и «перешейки» ('tendrils' and 'tubes').

Центральное ядро (обозначается как «SCC» и состоит из 56 миллионов вебстраниц) – компонента сильной связности, т.е. страницы, для которых, следуя по гиперссылкам из любой из них, в конечном счете, можно попасть на любую другую внутри ядра. Входные веб-страницы (обозначается как «IN» и состоит из миллионов веб-страниц) содержат гиперссылки (страницы), которые, в конечном счете, ведут к ядру, но из ядра к ним попасть невозможно.

Oконечные веб-страницы (обозначается как «OUT» и состоит из 44 миллионов веб-страниц) – страницы, к которым можно прийти по ссылкам из ядра, но нельзя вернуться назад. Последняя группа «отростки» и «перешейки» (обозначается как «tendrils and tubes» или просто «T&D», и состоит из 44 миллионов веб-страниц) содержит страницы, полностью изолированные от центрального ядра и либо связанные гиперссылками со страницами, содержащимися или в группе «IN» или в группе «OUT», либо соединяющие страницы из групп «IN» и «OUT».

Эти четыре компоненты содержат более 90% исследованных веб-страниц и относятся к одной компоненте связности. Модель учитывает и так называемые компонентами модели. На рис. 1.1. приведено изображение модели от калифорнийских исследователей.

Исследования, рассматривающие Веб как «модель малого мира» (small world model), примыкают к модели «галстук-бабочка». Это понятие использовалось более 40 лет назад американским психологом и социологом Стэнли Милгрэмом (Stanley Milgram) в своем новаторском исследовании для ответа на вопрос: «Если случайно взять двух людей, сколько понадобится промежуточных связей через общих знакомых, чтобы они встретились?». Мир оказался малым, таких связей понадобилось от 2 до 10 [88]. По отношению к Вебу модель малого мира рассматривалась во многих работах. Например, из [51] следует, что требуется в среднем 19 переходов по гиперссылкам для перехода с любой веб-страницы на любую другую. В 1998 году Дункан Ваттс (Duncan Watts) и Стивен Строгац (Steven Strogatz) из Корнелльского университета обобщили модель малого мира. В своей известной работе [132], они показали, что проявляется феномен «малого мира» в сетях как естественно существующих, так и в созданных человеком. Исследователи показали, что начиная с обычной решетки и последующего добавления любого количества случайных связей, уменьшается диаметр — самый длинный путь между двумя любыми вершинами в сети, делая из самого длинного пути, самый короткий.

Математическая модель, которую разработали Ваттс и Строгац для объяснения этого явления, стала широко применяться в различных областях [108].

Веб очень быстро растет. На сегодня он стал огромным ресурсом и теперь сложно повторить исследование, описанное в [67]. В попытке обойти это препятствие исследователи переходят к исследованию локализованных фрагментов Веба, используя подходы, близкие к [67].

Работы [61, 62] посвящены созданию и исследованию академического вебграфа Великобритании. Построена модель, названная модель «короны» (‘corona’ graph model). Она основана на анализе ссылочного взаимодействия сайтов на уровне подсайтов определенной глубины вложенности (в 109 университетских сайтах выделено 7669 таких подсайтов). Показано, что существует сильно связная компонента, содержащая 25% таких подсайтов, маленькое левое крыло (7-8%), большое правое крыло бабочки (35-40%) и остальные подсайты – это «отростки» (в терминах модели «галстука-бабочки») [38].

В работе [98] приведено исследование веб-пространства Скандинавских стран, состоящего из 23 финских, 11 датских и 28 шведских университетов. Обнаружено, что наиболее развитым является шведский сегмент. Также выявлено, что на датские университеты меньше входящих ссылок извне, чем на их шведских и финских коллег, а за исключением университета Хельсинки, финские университеты нечасто ссылаются на европейских коллег.

Все подходы, описанные выше, используются в работе [96] для изучения сайтов испанских университетских кафедр и исследовательских групп. Построенная модель Бродера показывает, что из исследивших 2390 сайтов в центральном ядре входят только 699 сайтов. Авторам удалось установить слабую связность как на уровне кафедр, так и на уровне исследовательских групп благодаря визуализации веб-графа.

В работе [84] описывается исследование, посвященное анализу структуры гиперссылок сайтов научных журналов Кореи.

Исследования гиперссылок, проведенные в работе [28] позволяют предложить модель фрагмента Веба, основанную на нескольких структурно-составляющих подмножествах официальных сайтов классических университетов России и всех остальных сайтов Веба, на которые существуют гиперссылки с университетских сайтов и ссылках между ними.

Исследования огромного количества гиперссылок, проведенные в работах [28позволяют предложить модель фрагмента Веба (названную схемой научного Веба), основанную на нескольких структурно-составляющих подмножествах сайтов и ссылках между ними. Схема научного Веба может служить основой для постановки и решения таких задач, как типология научных сайтов и математические модели рационального поведения веб-ресурсов, а значит, способствовать более точному пониманию природы Веба [30].

Результаты проведенных в [40] исследований показывают, что множество всех административный каркас, множество научных подмножеств, множество ближайших окрестностей официальных сайтов, множество научных вебкоммуникаторов – в соответствии с тем, какие сайты являются их целями и к какой компоненте эти сайты относятся. Таким образом, в рамках предложенной схемы научного Веба авторам работы [40] удается систематизировать почти 25% исходящих с научных сайтов гиперссылок.

Обзор работ, приведенных в данном параграфе, позволяет предположить, что описанные теоретико-графовые подходы применимы и для исследований нигерийских фрагментов Веба.

вебометрических исследований. Один из возможных подходов к определению единиц анализа используется в ряде работ SCRG [62, 122, 136]. Отмечается, что «...исходящая ссылка со страницы/директории/домена/сайта является ссылкой, страницу/директорию/домен/сайт». Сказанное иллюстрируется в [62] на приведенном ниже рисунке 1.2.

Рис. 1.2. Упрощенная диаграмма, иллюстрирующая основные уровни иерархии В диаграмме четыре основных уровня иерархии исследований Веба обозначены простыми геометрическими фигурами: четырехугольники (вебстраницы), сектора окружностей (директории), окружности (веб-сайты) и треугольники (домены верхнего уровня).Подуровни в каждом из четырех основных уровней обозначены двойными линиями соответствующей геометрической фигуры.

Например, треугольники с двойной линией (домены второго уровня) и окружности с двойной линией (подсайты). На рисунке рис. 1.2 показана страница P расположенная в директории подсайта сайта из домена второго уровня. Гиперссылки, у которых исходной единицей анализа является страница обозначены стрелками.

На рисунке 1.3 приведена еще одна диаграмма из [62], демонстрирующая используемые SCRG подходы и терминологию.

Рис. 1.3. Диаграмма веб-сайта, содержащего подсайты и под-подсайты Веб-сайт университета «University of Southampton, UK» (soton.ac.uk) содержит подсайт «Department of Electronics and Computer Science» (ecs.soton.ac.uk), который, в свою очередь, содержит под-подсайт «The Image, Speech and Intelligent Systems Research Group» (isis.ecs.soton.ac.uk).

При исследовании, например, взаимодействия университетов на уровне их официальных сайтов, в качестве единиц анализа принимаются доменные имена этих университетов вида «name.ac.uk» и агрегируются все гиперссылки, сделанные с заданных сайта и их под- и под-подсайтов. Здесь «name» обычно представляет собой аббревиатуру названия университета. Очевидно, что этот подход прозрачен и основан на четкой регламентации доменных имен английских сайтов: доменное имя верхнего уровня в Великобритании – это.uk, а доменное имя ac.uk входит в доменные имена всех университетов.

Как показано в [22-28] общем случае такой подход не подходит для исследований Веба в других странах. Для подтверждения такого утверждения приведем российский пример: сайт Петрозаводского университета petrsu.karelia.ru и сайт "Аспирантура ПетрГУ" aspirant.karelia.ru находятся в отношении подчиненности сайт-подсайт (по терминологии SCRG), однако она не выявляется на mathem.krc.karelia.ru по формальным признакам является подсайтом сайта Карельского научного центра РАН www.krc.karelia.ru, что неверно, поскольку Карельский научный центр РАН и ИПМИ КарнЦ РАН являются самостоятельными юридическими лицами (учреждениями РАН).

Более приемлемым и универсальным представляется подход, описанный, например, в [30]. Здесь веб-сайт (сайт) – совокупность html-страниц и вебдокументов, связанных внутренними гиперссылками и обладающих единством содержания, идентифицируемый в Вебе по уникальному доменному имени, а подчиненность сайтов определяется дополнительными условиями (например, специальными ссылками на сайтах). К примеру, сайт «Аспирантура ПетрГУ»

должен быть указан в перечне ресурсов ПетрГУ на его официальном сайте.

обнаруживается, но при определенных ограничениях на «качество» ссылок [38].

Например, ссылка с сайта городской администрации, подтверждающая, что в городе есть университет менее значимой, чем ссылка на сайт этого университета, сделанная с сайта его коллеги. Таким образом, становится актуальной задачей классификация гиперссылок.

Великобритании, взятыми из [126]. Ссылки были распределены по категориям вручную, что по словам автора делает результаты достаточно субъективными и зависящими от взглядов автора исследования. Эти 4 группы приведены ниже.

Общиенавигационныессылки (General navigational links). Например, названия доменов университетов без более точного специфицирования;

Ссылки, подтверждающие право собственности (Ownership links): Неявное подтверждение совместного выполнения проекта или соавторства содержания Социальные ссылки (Social links): «...например, они используются в случае, когда возникает желание высказать неявный комплимент«Мы признали ваш сайт и думаем, что он достаточно важен, чтобы иметь ссылку на него»;

Беспричинные ссылки (Gratuitous links): например, ссылка на университет, в котором преподаватель получил образование; «...другими словами, ожидается, что ссылка не будет использоваться, и при этом это не играет никакой другой идентифицируемой коммуникационной роли».

Классификация гиперссылок является важной задачей, например, при построении таких моделей фрагментов Веба, как взвешенных веб-графов, где веса дуг, зависят и от типа ссылок. Многие из проблем, связанных с мотивацией и классификацией ссылок изложены также в [136].

Таблица 1.1. Категории по 100 случайным ссылкам со страниц-источников Type of page/type of link General list of links to all university home pages Regional university home page link list Personal home page of lecturer / link to degree awarding institution Collaborative research project page/ link to partner site Other research page / link to institution of conference speaker / link to institution hosting conference Link to home institution of Collaborative student support / link to institution for access to information В вебометрике большое внимание уделяется веб-ресурсам научных институтов и университетов, которые являются подходящими экспериментальными площадками для того, чтобы потом перенести полученные результаты на другие фрагменты и/или более общие случаи. В большинстве публикаций SCRG, упомянутых выше, в качестве исследуемых объектов рассматриваются университетские веб-ресурсы Великобритании. Также можно отметить исследования университетских фрагментов Веба Новой Зеландии, Австралии и Южной Кореи [84].

Cевероевропейский фрагмент университетских сайтов (11 датских, 23 финских и 28 шведских университетов) [98], 110 университетов Германии [95] и университетов из 14 европейских стран [97] были исследованы испанской исследовательской группой Cybermetrics Lab [82].

Следует заметить, что во всех работах указанных выше исследуемый фрагмент Веба изначально определяется прямым перечислением сайтов целевого множества.

Таким образом, сайты, не относящиеся к целевому множеству, но потенциально оказывающие влияние на него, например, улучшая связность, к сожалению автоматически исключаются. Поэтому, разработка общих подходов к определению исследуемых фрагментов Веба на уровне концептуальной модели и методов её университетских или научных сайтов, а на произвольных множествах сайтов с заранее сформулированными свойствами (например, сайтов одной тематики) представляется актуальной задачей в настоящее время [38].

§7 Основные выводы из анализа научных источников коммуникационная среда, он является весьма важным элементом информационного общества в мире. Согласно этому взгляду Веб рассматривается не только как проводник информации, но и как активное начало, воздействующее на степень присутствия её участников в коммуникационной среде. Наличие собственных вебресурсов, играющих существенную роль в Вебе, в частности, определяет степень присутствия активных участников Веба в нем.

Аналитический обзор сегодняшнего состояния исследований в области вебометрики позволяет определить основные направления вебометрики:

классификация гиперссылок, единицы анализа);

фрагментов Веба, веб-графы);

социальные феномены в Вебе (социальные сети, форумы, самоорганизация, сообщества веб-ресурсов);

функции ранжирования, индикаторы сайтов);

программные средства для сбора данных о Вебе (роботы-сборщики информации с сайтов, специализированные базы данных, специализированный информационный поиск).

Из вышесказанного, можно сделать вывод, что исследование Веба является многоаспектной и комплексной задачей. Акцентируя внимание на свойствах присутствия в Вебе тематических регламентируемых веб-ресурсов, можно отметить следующее.

Вебометрические результаты исследований фрагментов Веба во многих случаях имеют частный характер вследствие узкого определения множества исследования. Они не предоставляют общие подходы к определению исследуемых фрагментов Веба на уровне концептуальной модели и методы её исследования с последующим применением на реальных множествах сайтов.

Теоретико-графовые модели, разработанные для оценки основных свойств присутствия сообществ сайтов в Вебе, не применялись для оценки нигерийских крупных сообществ, таких как университетские сайты, научные сайты или сайты органов государственной власти. Поэтому практически невозможно на данный момент разработать обоснованные рекомендации по основным направлениям улучшения их взаимодействия в Вебе.

Задачи ранжирования сайтов, основанные на измерениях индикаторов присутствия сайтов в Вебе, недостаточно глубоко и всесторонне исследованы.

Именно поэтому не реализуются даже известные рекомендации по улучшению таких показателей, как количество полнотекстовых файлов, размещаемых на нигерийских академических сайтах. На данный момент достаточно слабо исследованы университетский Веб Нигерии, модель фрагмента университетского Веба Нигерии, и мотивации создания гиперссылок в университетском Вебе Нигерии.

Представляется актуальной задача исследования вышеуказанных вебометрических областей, направленных на улучшение степени присутствия в Вебе нигерийских академических веб-ресурсов.

ГЛАВА 2. УНИВЕРСИТЕТСКИЙ ВЕБ НИГЕРИИ

Нигерия получила независимость от Великобритании в 1960 году. Страна расположена в Западной Африке на побережье Гвинейского залив. Она состоит из штатов и одной федеральной столичной территории. Численность населения Нигерии – 174,5 млн. (оценка на 2013 г.). В Нигерии есть три доминирующих племени – йоруба на юго-западе, игбо на восточном регионе и хауса на севере.

Насчитывается 514 живых местных языков (основные – йоруба, игбо, хауса), но официальным языком Нигерии является английский. В стране существуют две господствующие религии – ислам (хауса и часть йоруба) и христианство (игбо и большая часть йоруба).

Система образования Нигерии медленно, но уверенно развивалась во время колониизации до завершения второй мировой войны. Христианские миссионеры привезли западную систему образования в Нигерию в середине девятнадцатого века.

По данным Национальной университетской комиссии (National Universities Commission) в стране насчитывается 129 универститов, из них 40 федеральных, университетов штатов и 51 частный университет [90]. Национальная университетская комиссия – единственный государственный орган, уполномоченный давать разрешение на учреждение высших учебных заведений, предлагающих образовательные программы, проводящий аккредитацию все учебных программ университетов Нигерии и обеспечивающий качество образования в этих университетах.

Исторически, университеты Нигерии разделены на несколько категорий – университеты первого, второго, третьего, четвертого и пятого поколений. Пять из этих вузов являются университетами первого поколения, созданными в период между 1948 и 1965 годами, в соответствии с рекомендацией Комиссии Эшби (Ashby Commission), созданной британским Колониальным правительством с целью изучить необходимость университетского образования для Нигерии. Эти университеты полностью финансируются федеральным правительством. Они были созданы в первую очередь для удовлетворения потребности Нигерии в квалифицированных сотрудниках в и установления основных стандартов высшего образования.

Университеты первого поколения продолжают играть свою роль для производства квалифицированных кадров и обеспечению стандартов для последующих поколений университетов в Нигерии. К университетам первого поколения относятся:

университет Нигерии в г. Нсукка (University of Nigeria, Nsukka), Ибаданский университет (University of Ibadan), университет Лагоса (University of Lagos), университет им. А. Белло (Ahmadu Bello University) и университет Ифе (University of Ife), который в настоящее время называется университетом им. О. Аволово (Obafemi Awolowo University).Эти университеты отличаются друг от друга по концепции преподавания и обучения, характеру учебных программ и структуре [11].

С ростом населения Нигерии и возрастания потребностей в научнотехнических разработках, стало необходимым создание большего количества университетов. В [93] утверждается, что создание университетов второго поколения также было необходимо для того, чтобы удовлетворять потребности в трудовых ресурсах, нужных для решения задач реконструкции, появлявшихся после окончания гражданской войны в 1970 г. Соответственно, 12 университетов второго поколения были созданы в период между 1970 и 1985 годами.

Необходимость создания университетов для удовлетворения спроса в специальных областях технологий и сельского хозяйства мотивировала создание дополнительных университетов в период между 1985 и 1999 годами. Это и есть университеты третьего поколения.

В период 1979-1983 вопрос о равномерном распределении возможностей получения образования для всех нигерийцев стал одним из политических приоритетов политиков. Квалифицированные студенты из разных штатов Нигерии не могли легко поступить в любой из федеральных университетов. Политическое давление этого фактора на правительства штатов Нигерии стимулировало рождение 19 университетов четвертого поколения –они находятся в собственности штатов (университеты штатов).

Необходимость поощрения участия частного сектора в предоставлении высшего образования привела к созданию правительством Нигерии в 1993 году закон, позволяющий частному сектору создавать университеты по рекомендациям, установленном Правительством [91]. Университеты пятого поколения преимущественно состоят из частных и религиозных университетов и нескольких университетов штатов, которые были созданы во время третьей республики, которая в 1999 г. начиналась В нигерийских вузах программа бакалавриата обычно длится 4 года, а программа мастера – ещё 2 года. Однако существуют несколько университетов, где специальности, связанные с высокими технологиями, правом, медициной, длятся больше обычного срока обучения.

Много институтов и лабораторий были созданы в 1970–80-х гг.Большинство из них были организованы по проблемному признаку и специализировались в области междисциплинарных исследований [11]. Играли ключевые роли в развитии науки ученые таких институтов, как: Нигерийский институт экономических и социальных исследований (1950), Федеральный институт промышленных исследований (1956), Международный институт тропического сельского хозяйства (1924), Национальный институт ветеринарии (1924), Нигерийский институт управления (1973).

Высшее образование в Нигерии сталкивается с разными проблемами – недостаточно развитая инфраструктура и материально-техническая база, некачественные научные исследования и низкий инновационный потенциал, финансовые проблемы, забастовки, политическая обстановка и вмешательство принимающих местностей.

Несмотря на вышеуказанные и другие проблемы высшее образование в Нигерии за эти годы развилось значительно и это привело к высокому среднему уровню грамотности среди населения [91].

Как уже было сказано, на сегодня в Нигерии насчитывается университетов, из них 40 федеральных, 38 университетов штатов и 51 частных университетов. Полный список исследуемых в диссертации университетов будет приведен в следующем параграфе.

§2 Веб-пространство университетов в Нигерии В этом параграфе перечислим полный список исследуемых во второй главе диссертации нигерийских университетов (целевое множество). Исследование проводилось в течение 2010-2011 годов, поэтому целевое множество содержит только работающие сайты нигерийских университетов на тот период.

Обнаружение доменных имен официальных сайтов этих университетов оказалось непростой задачей. Вследствие того, что список доменных имен, указанных в [90], являлся неполным и неточным, он был принят лишь в качестве основы и многократно дополнялся и уточнялся в процессе исследования. В случае отсутствия на сайте NUC данных о доменном имени сайта университета, выполнялся поиск в поисковых системах Google, Yahoo и Bing по его названию. Каждый найденный веб-адрес несколько раз проверялся на работоспособность.

В случае наличия у университета нескольких сайтов, в целевое множество включался сайт, с наибольшими значениями веб-индикаторов, описанных в следующим разделе.

В этом параграфе диссертации мы остановились на целевом множестве, содержащем 99 доменных имен официальных сайтов университетов Нигерии. Из этих 99 университетов 29 федеральных университетов, 30 университетов штатов и 40 частных университетов.

Примеры сайтов целевого множества: www.unimaid.edu.ng (University of Maiduguri), www.unilorin.edu.ng (University of Ilorin), www.wdu.edu.ng (Western Delta University, Oghara), www.bellsuniversity.org (Bells University of Technology, Ota), www.futo.edu.ng (Federal University of Technology, Owerri), www.unizik.edu.ng (Nnamdi Azikiwe University, Awka). В таблице 2.1. приведен список исследуемых в данной главе диссертации нигерийских университетов со своими официальными сайтами.

Таблица 2.1. Список нигерийских университетов и доменных имен их 1 1988 fed NN Abubakar Tafawa Balewa University, Bauchi www.atbu.edu.ng 5 1981 fed SWN Federal University of Technology, Akure www.futa.edu.ng 6 1982 fed NN Federal University of Technology, Minna www.futminna.edu.ng 7 1980 fed SEN Federal University of Technology, Owerri www.futo.edu.ng 8 2011 fed NN Federal University, Dutse, Jigawa State www.fud.edu.ng 11 1988 fed NN Modibbo Adama University of Technology, Yola www.futy.edu.ng 12 2002 fed SWN National Open University of Nigeria, Lagos. www.nou.edu.ng 13 1985 fed NN Nigerian Defence Academy, Kaduna www.nigeriandefenceacademy.edu.ng 15 1962 fed SWN Obafemi Awolowo University, Ile-Ife www.oauife.edu.ng 32 1999 stat SWN Adekunle Ajasin University, Akungba www.ajasin.edu.ng 33 2004 stat SN Akwa Ibom State University of Technology, Uyo www.aksu.edu.ng 37 2006 stat NN Bukar Abba Ibrahim University, Damaturu www.baiu.edu.ng 39 2000 stat SEN Ebonyi State University, Abakaliki www.ebsu-edu.net 40 2009 stat SWN Ekiti State University of Science and Technology www.usti.edu.ng 42 2005 stat NN Ibrahim Badamasi Babangida University, Lapai www.ibbu.edu.ng 45 2000 stat NN Kano University of Science & Technology, Wudil kustportal.edu.ng 52 1982 stat SWN Olabisi Onabanjo University Ago-Iwoye www.oou-ng.com 56 1979 stat SN Rivers State University of Science & Technology www.ust.edu.ng 57 2005 stat SWN Tai Solarin Univ. of Education, Ijebu-Ode www.tasu.edu.ng 58 2006 stat NN Umaru Musa Yar'Adua University, Katsina www.umyu.edu.ng 61 2009 priv SWN Afe Babalola University, Ado-Ekiti - Ekiti State www.abuad.edu.ng 62 2007 priv MB African University of Science & Technology, Abuja aust.edu.ng 63 2005 priv SWN Ajayi Crowther University, Ibadan www.acu.edu.ng 65 2003 priv NN American University of Nigeria, Yola www.americanuniversitynigeria.org 66 1999 priv SWN Babcock University, Ilishan-Remo www.babcockuni.edu.ng 68 2005 priv SWN Bells University of Technology, Ota www.bellsuniversity.org 69 2002 priv SN Benson Idahosa University, Benin City www.idahosauniversity.com 76 2007 priv SWN Fountain University, Oshogbo www.fountainuniversity.edu.ng 79 2006 priv SWN Joseph Ayo Babalola University, Ikeji-Arakeji www.jabu.edu.ng 80 2011 priv MB Landmark University, Omu-Aran. landmarkuniversity.edu.ng 83 2009 priv MB Nigerian-Turkish Nile University, Abuja www.ntnu.edu.ng 86 2009 priv SWN Oduduwa University, Ipetumodu - Osun State www.oduduwauniversity.com 88 2009 priv SEN Paul University, Awka - Anambra State www.pauluniversity.edu.ng 91 2009 priv SN Rhema University, Obeama-Asa - Rivers State www.rhemauniversity.com 93 2011 priv SN Samuel Adegboyega University, Ogwa www.sau.edu.ng 97 2009 priv SN Wellspring University, Evbuobanosa - Edo State www.wellspringuniversity.net 98 2007 priv SWN Wesley University of Science & Technology, Ondo www.wusto.org 99 2007 priv SN Western Delta University, Oghara www.wduniversity.net Таблица 2.1. содержит данные об университетах года основания, принадлежность (федеральные университеты, университеты штатов, частные университеты), географические регионы (Север, Центральный пояс, Юго-Восток, Юг, Юго-Запад), название и доменное имя.

Из таблицы можно сделать вывод, что 59% университетов были созданы в XXI веке. Из исследуемых университетов около 29% являются федеральными, 30% – университетами штатов и 40% – частными университетами. Старейший университет страны – это Ибаданский университет (University of Ibadan). 17 университетов расположены на Севере, 19 – на Центральном поясе, 14 – на Юго-Востоке, 18 – на Юге, больше всего университетов расположены на Юго-Западе (31 университет).

Большинство веб-сайтов целевого множества имеют доменные имена в зоне edu.ng (75 университета), семь сайтов на домене net, два – на домене edu.net, пять – на домене org, один – на домене edu.org, восемь – на домене com и один – в зоне Каждый сайт целевого множества однозначно определяется своим gov.ng.

уникальным доменным именем.

§3 Задача ранжирования веб-сайтов университетов в Нигерии Появление и развитие вебометрических ранжирований университетов является результатом необходимости измерения степени принятия веба университетами в своих деятельностях. Те университеты, имеющие наивысший ранг, по-видимому, являются теми, которые активно используют веб в своих деятельностях. Как правило, они имеют больше ресурсов в вебе, а также больше исходящих и входящих ссылок. Это увеличивает и улучшает их активность и видимость в вебе и, следовательно, есть большая вероятность, что такие университеты будут восприняты заинтересованными сторонами положительно.

Низкое ранжирование может привести к снижению достоинства университета в глазах заинтересованных сторон, особенно потенциальных студентов и финансирующих учреждений. Академический обмен студентов, преподавателей и ученных с авторитетными университетами из других стран мира может также пострадать.

Основываясь на подходах Cybermetrics Lab, автор диссертации в работе [18] провел самостоятельное исследование официальных сайтов университетов, указанных в параграфе 2 этой главы. Это исследование позволило выявить ряд интересных моментов, касающихся как способов измерения основных индикаторов Интернет-ресурсов, так и подходов к ранжированию сайтов и отраженных в данной работе.

индикатора, описанные ранее в параграфе 4 первой главе этой диссертации для построения алгоритма ранжирования сайтов университетов:

общее количество страниц сайта (S – size, размер);

количество уникальных гипертекстовых ссылок с других веб-ресурсов, обнаруживаемых поисковыми системами (V – visibility, цитируемость или количество полнотекстовых файлов, под которыми понимаются файлы с расширениями *.pdf, *.ps, *.doc, *.docx, *.xls, *.xlsx, *.ppt, *.pptx и *.rtf (R Rich files);

количество статей, размещенных на сайте и их цитирований (Sc –scholar, В результате проведенного предварительного анализа из известных поисковых машин были выбраны Google, Yahoo!Search и Bing. Известная поисковая машина Яндекс не была выбрана, так как она в основном индексирует русскоязычную часть Веба [46]. Для измерения так называемой «научности» сайтов используется Google Scholar, не имеющая работоспособных аналогов.

В Google, индикатор S измеряется на странице www.google.com, в строке поиска вводится site:доменное имя сайта. Результаты поиска выводятся под строкой поиска в виде «About S results (T seconds)», где T – время поиска. Индикатор V измеряется на странице http://www.google.com, в строке поиска вводится link:доменное имя сайта. Результаты поиска выводятся под строкой поиска в виде «About V results (T seconds)». Индикатор R измеряется на страницеwww.google.com, в строке поиска вводится filetype:тип site:доменное имя сайта. В позиции «тип»

поочередно выбираются *.pdf, *.ps, *.doc, *.docx, *.xls, *.xlsx, *.ppt, *.pptx и *.rtf. Для каждого типа файла результаты выводятся под строкой поиска в виде «About R results (T seconds) », результаты по всем типам суммируются. Индикатор Sc измеряется на странице scholar.google.com, в строке поиска вводится site:доменное имя сайта, слева выбрать соответствующие опции. Результаты поиска выводятся под строкой поиска, их количество также выводится – сразу под строкой поиска в виде «About Sc results (T sec)».

В Yahoo!Search, параметра S измеряется на странице search.yahoo.com, в строке поиска вводится site:доменное имя сайта. Результаты поиска выводятся под строкой поиска в виде «S results)». Параметра R измеряется на странице search.yahoo.com, в строке поиска вводится filetype:тип site:доменное имя сайта. Последующие действия – как и в случае Google. Для каждого типа файла результаты выводятся под строкой поиска в виде «R results». Результаты по всем типам суммируются.

В Bing, индикатор S измеряется на странице www.bing.com, в строке поиска вводится site:доменное имя сайта. Результаты поиска выводятся под строкой поиска в виде «S RESULTS». Параметра V измеряется на странице www.bing.com, в строке поиска вводится inbody:доменное имя сайта. Результаты поиска выводятся под строкой поиска в виде «V RESULTS». R - измеряется на странице www.bing.com, в строке поиска вводится filetype:тип site:доменное имя сайта. Последующие действия – как у Google. Для каждого типа файла результаты выводятся под строкой поиска в виде «R RESULTS», результаты по всем типам суммируются.

Стоит отметить, что поисковые машины Bing и Yahoo!Search в 2008г. и 2011г.

соответственно отключили в своих системах возможность измерения индикатора V.

Результирующие значения для S и V определяются как сумма результатов измерений. В первом случае минимальное и максимальное значение отбрасываются.

По каждому индикатору сайты ранжируются по убыванию их значений. Для обозначения ранга по заданному индикатору используем обозначения RankV, RankS, RankR и RankSc соответственно (наивысший ранг равен 1).

Так как содержание веба очень часто меняется, а также учитывая постоянную деятельность роботов поисковых машин, следует отметить, что измеренное значение индикатора – это значение, полученное данной поисковой машиной в конкретный момент времени. Измерения индикаторов S, V, R и Sc проводились в январе-феврале 2011 г.

Как уже отмечено в параграфе 4 первой главы, за период с 2006 по настоящее время у Cybermetrics Lab время от времени изменялись не только значения измеряемых индикаторов, но и подходы к определению критериев ранжирования.

Эти изменения не имеют влияния на концептуальные подходы и результаты, формулируемые в этой работе.

модифицированная формула из [105] (раздел Methodology):

Rating(i)=5*RankVav(i)+2*RankSav(i)+1,5*RankRav(i)+1,5*RankSc(i) где Vav – среднее количество уникальных гипертекстовых ссылок с других вебресурсов, обнаруживаемых Google, Yahoo, и Bing; Sav – среднее количество страниц, обнаруживаемых на сайте этими поисковыми машинами; Rav – среднее количество полнотекстовых файлов; RankVav(i) - порядковый номер i-го сайта в упорядоченном по убыванию векторе Vav. RankSav(i), RankRav(i), RankSc(i) определяются аналогично.

Потом тот сайт, у которого значение Rating(i) будет самым маленьким, получает значение WR (Webometrics Rating) равное 1, следующий за ним - 2, и т.д.

Исходя из значений коэффициентов, можно сделать вывод о том, что полнотекстовых файлов и количеству ссылок на научные статьи, найденные Google Scholar, что соответствует принципам Открытого доступа, когда Интернет рассматривается, прежде всего, как «функциональный инструмент базы глобального научного знания», свободного доступа к научным публикациям и другим учебным материалам [56].

Первые десять официальных сайтов университетов, имеющие наивысший ранг, приведены в таблице 2.2.

(formerly known as Edo State Отмечается в Cybermetrics Lab, что существуют серьезные проблемы с точным определением того, что понимать под «единицей анализа». Например, у одного подразделений, имеющих адреса, не ассоциируемые с адресом основного сайта (так называемые скрытых веб-окрестностей) и т.д. Тем не менее, в качестве «единиц анализа» в [105] выбраны адреса официальных сайтов университетов, а не множества адресов всех Интернет-ресурсов данного учреждения, что, очевидно, ограничивает постановку общей задачи.

Можно утверждать, что выбор тех или иных поисковых машин остается спорным вопросом, поскольку во многих работах, включая и данную, есть примеры, которые заставляют задуматься о надежности использования поисковых машин. Это вопрос, который должен быть тщательно исследован специалистами. Конечно, при измерении индикаторов сайтов конкретной страны необходимо использовать в первую очередь поисковые машины, наиболее распространенные в этой стране.

Методики ранжирования и выбор поисковых машин не оказывают значительного влияния на положение явных лидеров [18].

Так как механизмы индексации страниц являются коммерческой тайной, измерение количества страниц на сайте с помощью поисковой машины не обязательно является корректным, иначе было бы надежней измерять его с помощью программ-краулеров (например, [111]), которые дают более точные оценки. В случае использования замеров поисковыми машинами наверняка лучше взять среднее значение V, S, R, Sc, найденных разными поисковыми машинами, что и было сделано в этой работе.

характеризует ссылочную популярность с точки зрения данной поисковой машины.

Остановимся очень кратко на результатах ранжирования сайтов нигерийских университетов. В первую десятку входят 8 федеральных университетов, 1 частный и 1 университет штата. Эти 8 университетов действительно являются одними из самых «крутых» в Нигерии. University of Ibadan – старейший университет Нигерии.

University of Nigeria – один из самых престижных нигерийских университетов со старейшим и очень популярным юридическим факультетом. Ahmadu Bello University – самый большой университет в Нигерии, который был изначально создан для граждан северной Нигерии.

университетом, специализирующемся в области открытого и дистанционного высшего обучения [18]. Единственный университет нигерийского штата, который попал в первую десятку – Lagos State University, находится в Лагосе – один из крупнейших метрополии Африки.

Поэтому можно утверждать, что традиции, современные методы обучения, исторические и географические аспекты повлияли на рейтинг сайтов вышеуказанных университетов.

Заметим, что не попавший в таблицу известный федеральный университет Bayero University Kano занимает низкое 78 место, что также вполне объяснимо.

Раньше он был частью (факультетом) университета Ahmadu Bello University. Кроме того, он несколько раз поменял название и статус (был некоторое время колледжем).

Все это могло негативно влиять на его рейтинг сайта.

Всего 61% частных университетов заняли места ниже среднего. Только федеральных университета имеют такой же показатель, но 3 из этих 4 федеральных университетов – специализированные (в нашем случае это такие направления, как оборона, сельское хозяйство, нефть). Это означает, что количество учебных программ университета влияет на рейтинг его сайта.

15% университетов с количеством S больше 1000, 27% –V больше 100, 12% –R больше 100. У 85% университетов Sc=0, то есть нет ссылок на научные статьи.

Почти у половины сайтов университетов найден либо один полнотекстовый файл, либо не найдено ничего. Из всех частных университетов только 1 имеет S больше 1000, 6 имеют V больше 100, ни один из этих 36 университетов ни имеют R больше 100. Надо отметить, что вполне возможно, что многие университеты имеют библиотечные сайты, где и размещают свои статьи. В данной статье исследуются только официальные сайты, и вопрос о размещении статей на них наверно является спорным.

В целом, сайты федеральных университетов имеют значения рейтингов больше, чем сайты университетов нигерийских штатов и частных университетов.

Федеральные университеты получают большее финансирование, считается, что у них есть более квалифицированные сотрудники, в них сложнее поступить, что и увеличивает их престижность. Можно считать, что указанные факторы нашли свое отражение в Вебе.

Вебометрические исследования рейтингов сайтов смогут послужить основой для более точного количественного сравнительного анализа некоторых характеристик уже созданных веб-ресурсов, а значит, позволит определить направления их дальнейшего развития.

ГЛАВА 3. МОДЕЛЬ ФРАГМЕНТА УНИВЕРСИТЕТСКОГО ВЕБА

НИГЕРИИ

Нигерийские веб-сайты, как и сами университеты, достаточно молоды по сравнению с Европой и Россией. Поэтому академический фрагмент Веба нигерийских университетов представляет собой интересную экспериментальную площадку для исследования взаимосвязей между университетами и отражения сотрудничества университетов с другими организациями Нигерии.

В данной главе основное внимание сосредоточено на трёх вопросах:

Что представляет собой академический Веб Нигерии?

Какова структура академического Веба Нигерии?

Какие рекомендации могут быть сделаны по результатам исследования?

В §3 главы 1 диссертации было сказано о том, что для получения больших объемов информации о гиперссылках можно применить четыре подхода:

использование поисковых систем, использование свободного программного обеспечения, решающего задачи сбора данных о Вебе, использование созданных баз данных о гиперссылках, имеющихся в открытом доступе и создание собственного программного обеспечения.

Автором ранее было показано, что основные поисковые системы, такие, как Google, Yahoo!, Bing (и тем более Яндекс) плохо индексируют нигерийские образовательные сайты[18], поэтому в данной главе для сбора исходящих гиперссылок и оценки размеров сайтов нигерийских университетов использовался краулер BeeBot [20]. Опишем кратко работу этого краулера в соответствии с работой [17].

Многофункциональный программный комплекс BeeBot – это поисковый робот для сбора, визуализации и обработки данных об исходящих гиперссылках с задаваемого множества сайтов, относящихся к одной тематике. Основные технологии, которые были использованы при создании BeeBot’a – MSSQL Server Express, Entity Framework и LINQ для BeeDB, C# версии.Net 4.0 для краулера, для визуализации графов используется библиотека Graph Sharp, для парсинга htmlдокументов используется библиотека HTMLAgility Pack.

Робот BeeBot работает по механизму, описанному в статье [99]. Сайт сканируется с его начальной страницы, и затем робот использует гиперссылки, размещенные на этой странице, для перехода на другие страницы сайта. Робот анализирует каждую страницу на наличие конкретной информации. В случае обнаружения требуемой информации, она копируется в соответствующее хранилище. Повторяется этот процедур до тех пор, пока не будет проанализировано требуемое количество страниц либо пока не будет достигнута некая цель.

В диссертации также используется свободно распространяемый робот Webometric Analyst (ранее LexiURL Searcher) [134] для сбора гиперссылок.

Для визуализации веб-графов фрагмента Веба используется свободное программное обеспечение *ORA, разработанное в организации Center for (http://www.casos.cs.cmu.edu/projects/ora/software.php). Аналитический инструмент *ORA содержит функции построения графов, процедуры для группировки вершин, выявления определенных образцов, сравнения и сопоставления графов и множеств.

Как описано ранее, используются и популярные поисковые машины, такие как Google, Yahoo!Search и Bing для сбора данных. Известная поисковая машина Яндекс не была выбрана, так как она в основном индексирует русскоязычную часть Веба [46].

Методологии исследований, используемые в данной диссертации комплексны.

Основная часть исследования проводилась по методологии, разработанной для фрагментов российского Веба [4]. Вначале определяется целевое множество доменных имен официальных сайтов университетов Нигерии. Обнаружение таких доменных имен оказалось непростой задачей. Вследствие того, что список доменных имен, указанных на сайте Национальной университетской комиссии [90], являлся неполным и неточным, он был принят лишь в качестве основы и многократно дополнялся и уточнялся в процессе исследования. В случае отсутствия на сайте [90] данных о доменном имени сайта университета, выполнялся поиск в поисковых системах Google, Yahoo!Search и Bing по его названию. Каждый найденный вебадрес несколько раз проверялся на работоспособность. В случае наличия у университета нескольких сайтов, в целевое множество включался сайт, с наибольшими значениями веб-индикаторов, описанных во второй главе данной диссертации.

Эти сайты потом сканируются краулером BeeBot с целью формирования базы данных внешних гиперссылок. Анализ построенной базы данных позволяет сформировать множество веб-окрестностей и сопутствующее множество, в котором выделяется подмножество веб-коммуникаторов, т.е. сайтов, на которые сделано достаточно большое количество ссылок с сайтов целевого множества и имеющих обратные ссылки на целевое множество. (Обязательным свойством вебкоммуникатора является наличие хотя бы одной гиперссылки, сделанной с него на сайты целевого множества).

Затем с использованием программы *ORA строятся веб-графы фрагмента Веба, у которых в качестве вершин могут быть сайты целевого множества, единицы анализа и веб-коммуникаторы, а множества дуг – гиперссылки между ними.

Остальные сайты сопутствующего множества исключаются из дальнейшего рассмотрения, поскольку не влияют на связность таких веб-графов.



Pages:     || 2 |


Похожие работы:

«КАБЫЛИНСКИЙ Борис Васильевич КУЛЬТУР-ФИЛОСОФСКИЕ ОСНОВАНИЯ ЭПИСТЕМОЛОГИИ КОНФЛИКТА Специальность 09.00.13 – философская антропология, философия культуры Диссертация на соискание ученой степени кандидата философских наук Научный руководитель – доктор философских наук, профессор Соколов Е.Г. Санкт-Петербург – 2014 СОДЕРЖАНИЕ ВВЕДЕНИЕ ГЛАВА 1. ФЕНОМЕНОЛОГИЧЕСКИЙ ПОДХОД: КОНЦЕПТУАЛИЗАЦИЯ...»

«Бутаков Михаил Игоревич Инструментальное средство синтеза и исполнения транслирующих программ на основе позитивнообразованных формул Специальность 05.13.11 – Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей Диссертация на соискание ученой степени кандидата технических наук Научный руководитель : к.ф.-м.н., доц. В.И. Курганский Иркутск –...»

«СМИРНОВ ВЯЧЕСЛАВ ГЕННАДЬЕВИЧ ИССЛЕДОВАНИЕ ФАЗОВЫХ ПЕРЕХОДОВ ГАЗОГИДРАТОВ МЕТАНА В ПОРИСТОЙ СТРУКТУРЕ УГЛЯ Специальность: 02.00.04 Физическая химия Диссертация на соискание ученой степени кандидата физико-математических наук Научный руководитель : доктор технических наук, профессор Дырдин Валерий...»

«ГОЛУБЕВ ИВАН АНДРЕЕВИЧ ТЕХНОЛОГИЯ МАГНИТНО-ФИЛЬТРОВАЛЬНОЙ ОЧИСТКИ НЕФТЕЗАГРЯЗНЕННЫХ СТОЧНЫХ ВОД ПРЕДПРИЯТИЙ ТЭК Специальность 25.00.36 – Геоэкология (в горно-перерабатывающей промышленности) ДИССЕРТАЦИЯ на соискание ученой степени кандидата технических наук Научный...»

«ТЕРЕЩЕНКО Алексей Николаевич ДИСЛОКАЦИОННАЯ ЛЮМИНЕСЦЕНЦИЯ В КРЕМНИИ С РАЗЛИЧНЫМ ПРИМЕСНЫМ СОСТАВОМ Специальность 01.04.07 – физика конденсированного состояния ДИССЕРТАЦИЯ на соискание ученой степени кандидата физико-математических наук Научный руководитель : доктор физико-математических наук, ведущий научный сотрудник Штейнман Эдуард Александрович Черноголовка СОДЕРЖАНИЕ ДИССЕРТАЦИОННОЙ РАБОТЫ ВВЕДЕНИЕ.....»

«Пивень Ирина Григорьевна СОВЕРШЕНСТВОВАНИЕ ОРГАНИЗАЦИОННОГО И МЕТОДИЧЕСКОГО ОБЕСПЕЧЕНИЯ СТРАТЕГИЧЕСКОГО УПРАВЛЕНИЯ СОЦИАЛЬНО-ЭКОНОМИЧЕСКИМ РАЗВИТИЕМ РЕГИОНА Специальность: 08.00.05 – Экономика и управление народным хозяйством (региональная экономика) ДИССЕРТАЦИЯ на соискание ученой степени кандидата экономических наук...»

«Белоусов Евгений Викторович УДК 62-83::621.313.3 ЭЛЕКТРОПРИВОД МЕХАНИЗМА ПОДАЧИ СТАНА ХОЛОДНОЙ ПРОКАТКИ ТРУБ с СИНХРОННОЙ РЕАКТИВНОЙ МАШИНОЙ НЕЗАВИСИМОГО ВОЗБУЖДЕНИЯ Специальность 05.09.03 – “Электротехнические комплексы и системы” Диссертация на соискание учёной степени кандидата технических наук Научный руководитель – кандидат технических наук Григорьев М.А. Челябинск – ОГЛАВЛЕНИЕ...»

«Индекс ББК: 65.826 Х 76 ХОМЯКОВА ЛЮБОВЬ ИГОРЕВНА ПРОБЛЕМЫ ФОРМИРОВАНИЯ И ФУНКЦИОНИРОВАНИЯ ЕДИНОЙ ПЛАТЕЖНОЙ СИСТЕМЫ В ЕС 08.00.14 - Мировая экономика Диссертация на соискание ученой степени кандидата экономических наук Научный руководитель : Кандидат экономических наук, доцент Баранова Елена Петровна Заслуженный деятель науки РФ, доктор экономических наук, профессор Красавина Лидия Николаевна Москва - ВВЕДЕНИЕ...»

«КАМИЛОВА ТАГИРА НАДЫР КЫЗЫ ПРОБЛЕМЫ СОЦИАЛЬНОЙ АДАПТАЦИИ БЕЗНАДЗОРНЫХ И БЕСПРИЗОРНЫХ ДЕТЕЙ В ТРАНСФОРМИРУЮЩЕМСЯ ОБЩЕСТВЕ (на примере Мурманской области) Специальность 22.00.04. Социальная структура, социальные институты и процессы ДИССЕРТАЦИЯ на соискание ученой степени кандидата социологических наук Научный руководитель : д-р. соц. наук, доцент Васильева В.Н. Мурманск 2014 г. СОДЕРЖАНИЕ Введение.. 1....»

«Качинский Владимир Леонидович ТЕХНОГЕННЫЕ УГЛЕВОДОРОДЫ В ПОЧВАХ АРКТОТУНДРОВЫХ ЛАНДШАФТОВ ОСТРОВА БОЛЬШОЙ ЛЯХОВСКИЙ (НОВОСИБИРСКИЕ ОСТРОВА) 25.00.23 - физическая география и биогеография, география почв и геохимия ландшафтов Диссертация на соискание ученой степени кандидата географических наук Научный руководитель : д.г.н., проф. Геннадиев А.Н. Москва- ОГЛАВЛЕНИЕ Введение.. Глава 1....»

«УДК 517.984 Ишкин Хабир Кабирович О классах возмущений спектрально неустойчивых операторов 01.01.01 – Вещественный, комплексный и функциональный анализ ДИССЕРТАЦИЯ на соискание ученой степени доктора физико-математических наук Научный консультант д. ф.-м. н., проф. З. Ю. Фазуллин Уфа – 2013 Содержание Введение........................»

«Федченко Ярослав Олегович ПРИМЕНЕНИЕ МЕТОДОВ РЕНТГЕНОХИРУРГИИ В ЛЕЧЕНИИ ТЭЛА И ПРОФИЛАКТИКЕ РАЗВИТИЯ ПОСТЭМБОЛИЧЕСКОЙ ЛЁГОЧНОЙ ГИПЕРТЕНЗИИ ДИССЕРТАЦИЯ на соискание учной степени кандидата медицинских наук (14.01.13 – лучевая диагностик, лучевая терапия) (14.01.26 –...»

«МУРЗАБЕКОВ Тимур Магометович ВЗАИМОДЕЙСТВИЕ ИНСТИТУТОВ ГОСУДАРСТВА И ГРАЖДАНСКОГО ОБЩЕСТВА В СОЦИАЛЬНО-ПОЛИТИЧЕСКОМ РАЗВИТИИИ РЕСПУБЛИКИ ИНГУШЕТИЯ Специальность 23.00.05 – Политическая регионалистика. Этнополитика. Диссертация на...»

«ШАРЫПОВА НАТАЛЬЯ ГАВРИИЛОВНА Механизмы повреждений плазматических мембран лимфоцитов крови у больных опийной наркоманией в состоянии абстинентного синдрома 14.00.16 – патологическая физиология 14.00.45 – наркология Диссертация на соискание ученой степени кандидата медицинских наук Научный руководитель : доктор медицинских наук, профессор СЕРЕБРОВ В.Ю....»

«УДК: 618.146-006.5-02 Ирена ДИГОЛ ФАКТОРЫ РИСКА ИНФИЦИРОВАНИЯ ШЕЙКИ МАТКИ ОНКОГЕННЫМИ ТИПАМИ ВИРУСА ПАПИЛЛОМЫ ЧЕЛОВЕКА 14.00.14 – Онкология и радиотерапия Диссертация на соискание ученой степени доктора медицинских наук КИШИНЕВ – 2005 Содержание Введение.. 4 Глава I. Возбудители инфекций, передаваемых половым путем, и их роль в онкогенезе (Обзор литературы).. Глава 1. 1. Роль...»

«УДК 512.54+512.55+512.54.03 Бунина Елена Игоревна Автоморфизмы и элементарная эквивалентность групп Шевалле и других производных структур 01.01.06 — математическая логика, алгебра и теория чисел Диссертация на соискание ученой степени доктора физико-математических наук Научный консультант : д. ф.-м. н., профессор Михалев Александр Васильевич Москва 2010 Оглавление 1 Автоморфизмы...»

«ЗАКЛЮЧЕНИЕ ДИССЕРТАЦИОЛННОГО СОВЕТА Д 212.198.06 НА БАЗЕ ФЕДЕРАЛЬНОГО ГОСУДАРСТВЕННОГО БЮДЖЕТНОГО ОБРАЗОВАТЕЛЬНОГО УЧРЕЖДЕНИЯ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ РОССИЙСКИЙ ГОСУДАРСТВЕННЫЙ ГУМАНИТАРНЫЙ УНИВЕРСИТЕТ В СООТВЕТСТВИИ С ПРИКАЗОМ МИНОБРНАУКИ РОССИИ №428/НК ОТ 12 АВГУСТА 2013 Г. ПО ДИССЕРТАЦИИ НА СОИСКАНИЕ УЧЕНОЙ СТЕПЕНИ КАНДИДАТА НАУК, аттестационное дело №_ решение диссертационного совета от 16 июня 2014 г., протокол № 8 О присуждении САМБУР МАРИНЕ ВЛАДИМИРОВНЕ, ГР. РФ степени...»

«КУКЛИНА Ирина Николаевна ЯВЛЕНИЯ ФРАЗЕОЛОГИЗАЦИИ И ДЕФРАЗЕОЛОГИЗАЦИИ В ЯЗЫКЕ СОВРЕМЕННОЙ ПРЕССЫ 10. 02. 01 – Русский язык Диссертация на соискание ученой степени кандидата филологических наук Научный руководитель : доктор филологических наук, профессор П.А. Лекант МОСКВА – 2006 СОДЕРЖАНИЕ Предисловие Введение 1. Проблема определения объёма фразеологического состава 2. Проблема узуализации и отражения фразеологизмов в...»

«Фадеев Евгений Александрович СЕЛЕКЦИОННАЯ ЦЕННОСТЬ ИСХОДНОГО МАТЕРИАЛА ГОРОХА (Pisum sativum L.) С РАЗЛИЧНОЙ МОРФОЛОГИЕЙ ЛИСТА И БОБА Диссертация на соискание ученой степени кандидата сельскохозяйственных наук Специальность: 06.01.05 – селекция и семеноводство сельскохозяйственных растений Научный руководитель - доктор биологических наук, профессор Пономарева...»

«КАРПОВА ИРИНА ПЕТРОВНА ИССЛЕДОВАНИЕ И РАЗРАБОТКА ПОДСИСТЕМЫ КОНТРОЛЯ ЗНАНИЙ В РАСПРЕДЕЛЕННЫХ АВТОМАТИЗИРОВАННЫХ ОБУЧАЮЩИХ СИСТЕМАХ 05.13.13 – Телекоммуникационные системы и компьютерные сети ДИССЕРТАЦИЯ на соискание ученой степени кандидата технических наук Научный руководитель доктор технических наук, профессор САКСОНОВ Е.А. Москва Содержание Введение 1. АВТОМАТИЗИРОВАННЫЕ ОБУЧАЮЩИЕ...»






 
2014 www.av.disus.ru - «Бесплатная электронная библиотека - Авторефераты, Диссертации, Монографии, Программы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.