На правах рукописи
НВОХИРИ АНТОНИ МЕТУМАРАИБЕ
Разработка математических методов исследования гиперссылочных связей
информационных ресурсов университетов развивающихся стран
(на примере Нигерии)
05.13.18 – Математическое моделирование, численные методы и комплексы
программ
Автореферат диссертации на соискание учёной степени кандидата технических наук
Санкт-Петербург – 2014
Работа выполнена на кафедре технологии программирования факультета прикладной математики – процессов управления Санкт-Петербургского государственного университета.
Научный руководитель: доктор технических наук, доцент Печников Андрей Анатольевич
Официальные оппоненты: доктор технических наук, профессор Горохов Андрей Витальевич профессор кафедры прикладной математики и информационных технологий ФГБОУ ВПО «Поволжский государственный технологический университет»
кандидат физико-математических наук, Пашкевич Василий Эрикович Генеральный директор ЗАО «Капитал Программ».
Ведущая организация: ФГБОУ ВПО «Государственный университет морского и речного флота имени адмирала С.О.
Макарова»
Защита состоится «20» июня 2014 г. в 16:00 часов на заседании диссертационного совета Д 212.190.03 на базе ФГБОУ ВПО «Петрозаводский государственный университет» по адресу: 185910, г. Петрозаводск, пр. Ленина, 33.
С диссертацией можно ознакомиться в научной библиотеке Петрозаводского государственного университета и на сайте petrsu.ru.
Автореферат разослан «» 2014 г.
Ученый секретарь Воронов Роман Владимирович диссертационного совета
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. Диссертационное исследование «Разработка математических методов исследования гиперссылочных связей информационных ресурсов университетов развивающихся стран (на примере Нигерии)» выполнено в таком относительно молодом направлении компьютерных наук, как вебометрика, в рамках которого исследуются количественные аспекты конструирования и использования информационных ресурсов, структур и технологий применительно к World Wide Web (далее – Веб).
Количество исследовательских работ, посвященных вебометрическим исследованиям сайтов университетов развивающих стран, очень мало.
Существует проблема оценки качества (степени) присутствия в Вебе различных академических веб-ресурсов, особенно у развивающих стран. Причём для развивающихся стран наиболее характерно неэффективное использование внешних гиперссылок как одного из основных инструментов коммуникации в Вебе, низкая степень развитости сетевых научных коммуникаций ученых, слабое развитие университетского образовательного веб-пространства, в частности, из-за полного отсутствия сайтов научных конференций и семинаров, совместных проектов и региональных советов ректоров. При этом мы не утверждаем, что такие мероприятия и организации в развивающихся странах отсутствуют вовсе, а говорим о том, что они не находят отражения в Вебе.
Степень разработанности темы: Вышеупомянутые проблемы практически отсутствуют у сайтов университетов в развитых странах и поэтому они не исследуются.
В современной научной литературе описаны различные подходы и методы исследования, учитывающие общие для развитых стран, стандартные параметры. Эти методы недостаточны для анализа сайтов университетов развивающихся стран.
Для анализа университетских веб-ресурсов развивающих стран и разработки более адекватных моделей их поведения требуется выявление дополнительных признаков и параметров исследуемых сайтов, отражающих их специфику, и модификация уже имеющихся методов.
Цель и задачи исследования: Цель исследования заключается в развитии известных и разработке новых математических методов исследования официальных сайтов университетов развивающихся стран на примере Нигерии, направленных на улучшение их присутствия и взаимосвязей в Вебе.
Для достижения указанной цели решается ряд взаимосвязанных задач:
1. Исследование набора уже существующих стандартных характеристик присутствия веб-сайтов нигерийских университетов – размер сайта (общее количество страниц сайта), цитируемость или видимость сайта (количество уникальных гипертекстовых ссылок с других веб-ресурсов), количество полнотекстовых файлов, под которыми понимаются файлы с расширениями типа *.pdf, *.doc, и т.д., научность сайта (количество статей, размещенных на сайте и их цитирований) с использованием известных алгоритмов ранжирования. Автором выявлен набор новых показателей характеризующих эти сайты – возраст университета, исторические и географические аспекты, подчинённость (федеральные, университеты штатов и частные университеты), традиции и этно-культурные признаки региона фактического нахождения университета;
2. Создание модифицированного алгоритма ранжирования на основе расширенного набора характеристик и исследование веб-графа, построенного на множестве сайтов нигерийских университетов с применением теоретикографовых моделей и методов;
3. Исследование качественных характеристик внешних гиперссылок, сделанных с университетских сайтов Нигерии с точки зрения мотивации создания таких гиперссылок с использованием методов математической статистики.
Объект исследования: официальные веб-сайты университетов в Нигерии и другие веб-сайты Нигерии, имеющие отношение к науке и образованию.
Методы исследований. В диссертационной работе используются вебометрические методы ранжирования, методы сбора вебометрической информации с помощью поисковых систем и краулеров, теоретико-графовые модели и методы математической статистики.
Основные положения, выносимые на защиту:
1. Алгоритмы извлечения вебометрических индикаторов и ранжирования веб-сайтов, ориентированные на страны, у которых веб-пространство вузов находится в начальной стадии развития, и их программная реализация с апробацией и адаптацией на примере университетов Нигерии.
2. Новые математические методы получения теоретико-графовых характеристик веб-графа реального фрагмента университетского Веба, показывающие взаимосвязь веб-сайтов как данного сообщества, так и взаимосвязь с университетскими сообществами веб-сайтов развитых стран и их содержательная интерпретация.
3. Математический метод моделирования мотиваций создания гиперссылок на университетских сайтах, представляющий собой классификационную схему и статистические методы, позволяющие получать доминирующие мотивации по географическим регионам страны.
4. Рекомендации для руководства и разработчиков веб-сайтов университетов развивающихся стран (на примере Нигерии), направленные на улучшение использования внешних гиперссылок как одного из основных инструментов коммуникации в Вебе.
Научная новизна работы заключается в следующем:
ранжирования и построения и анализа веб-пространства официальных веб-сайтов университетов для стран, у которых веб-пространство вузов находится в начальной стадии развития. Исследование позволило установить зависимость вебометрических рангов университетов как от их ведомственной принадлежности (федеральные, университеты штата или частные), так и от внешних ссылок на сайты, сделанных с сайтов университетов высокоразвитых стран.
2. Построенный веб-граф реального фрагмента нигерийского университетского Веба позволил установить существенную значимость веб-коммуникаторов (в случае Нигерии – это единственный веб-сайт National Universities Commission) для связности веб-графа и незначительную взаимосвязь веб-сайтов университетов между собой.
3. Разработана новая классификационная схема мотивации создания гиперссылок (на примере университетов Нигерии), позволяющая с использованием статистических методов получить разные доминирующие мотивации по различным регионам Нигерии.
Теоретическая и практическая значимость работы. Предложенные методы позволяют дать рекомендации разработчикам веб-ресурсов университетов (особенно университетов стран, у которых веб-пространство вузов находится в начальной стадии развития) по улучшению содержания, усилению связности посредством гиперссылок и изменению мотивации создания гиперссылок, что в целом будет способствовать улучшению присутствия веб-сайтов этих университетов в Вебе.
исследования докладывались и обсуждались на 42-й и 43-й международных конференциях «Процессы управления и устойчивость» (2011, 2012 гг., г.СанктПетербург), на V Всероссийской научно-практической конференции «Информационная среда вуза XXI века» (2011 г., Петрозаводск) и на семинарах кафедры технологии программирования СПбГУ.
Личный вклад автора. Все результаты диссертационного исследования получены автором лично.
Публикации. По материалам диссертации опубликованы 6 работ, 3 из рекомендованных ВАК РФ для опубликования результатов диссертаций (в том числе одна статья опубликована в журнале, входящем в базу данных Scopus), – статьи материалах конференций и 1 – тезисы, опубликованные в материалах конференции. Список работ приведен в конце автореферата.
Достоверность и обоснованность полученных результатов, полученных в диссертации, основаны на большом объеме собранного, обработанного и исследованного фактического материала, корректно применяемых математических методах и моделях.
Структура и объем диссертации. Диссертация работа состоит из введения, четырёх глав, заключения, списка использованных источников и литературы, включающего 138 наименований, списка иллюстративного материала, и 2 приложения. Общий объем диссертации 128 страниц машинописного текста, из них основная часть работы содержит 98 страниц и включает 7 рисунков и 11 таблиц; 1 приложение имеет объем 13 страниц.
КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ
диссертационной работы, формулируются цель и задачи исследования, определяются объект и методы исследования и формулируются положения научной новизны исследований и основные полученные результаты.
В первой главе описывается вебометрика и основные направления исследований в этой области науки. Рассматриваются инструментальные средства сбора данных о Вебе, вебометрические методы ранжирования сайтов, модели Веба и классификации гиперссылок. Сделаны обобщающие выводы из анализа научных источников.
Вторая глава описывает университетский Веб Нигерии. Приводится краткая история развития высшего образования в Нигерии, необходимая для официальных сайтов этих университетов и создается целевое множество исследований.
Далее описывается задача ранжирования вышеуказанных сайтов, для решения которой предложен модифицированный подход известного метода Cybermetrics Lab1. В этих модификациях предлагается учесть, например, такие индикаторы как количество публикаций в печатных изданиях, потенциальных авторов, и другие. Данный подход использует следующие понятия:
S – общее количество страниц сайта (от size, размер);
V – количество уникальных гипертекстовых ссылок с других вебресурсов, обнаруживаемых поисковыми системами (от visibility, узнаваемость или видимость);
R – количество полнотекстовых файлов, под которыми понимаются файлы с расширениями типа *.pdf,, *.doc, и других (от Richfiles, насыщенные или богатые файлы);
Sc – количество статей, размещенных на сайте, и обнаруживаемых Google Scholar (от scholar, «научность сайта»).
Для ранжирования сайтов используется формула:
Ranking Web of World Universities [Электронный ресурс]. – Режим доступа:
http://www.webometrics.info.
Rating(i)=5*RankVav(i)+2*RankSav(i)+1,5*RankRav(i)+1,5*RankSc(i) где Vav – среднее количество уникальных гипертекстовых ссылок с других вебресурсов, обнаруживаемых известными поисковыми машинами Google, Yahoo, и Bing; Sav – среднее количество страниц, обнаруживаемых на сайте этими поисковыми машинами; Rav – среднее количество полнотекстовых файлов;
RankVav(i) - порядковый номер i-го сайта в упорядоченном по убыванию векторе Vav. RankSav(i), RankRav(i), RankSc(i) определяются аналогично. Потом тот сайт, у которого значение Rating(i) будет самым маленьким, получает значение WR (Webometrics Rating) равное 1, следующий за ним - 2, и т.д.
Значения коэффициентов при RankVav(i), RankSav(i), RankRav(i), RankSc(i) определяются в соответствии с Берлинской декларацией открытого доступа 2, когда наибольшая значимость придается количеству размещенных на сайте полнотекстовых файлов и количеству ссылок на научные статьи, когда Интернет рассматривается, прежде всего, как «функциональный инструмент публикациям и другим учебным материалам.
В целом, сайты федеральных университетов имеют значения рейтингов университетов. Федеральные университеты получают большее финансирование, они привлекают более квалифицированных сотрудников, в них сложнее поступить, что и увеличивает их престижность. Можно считать, что указанные факторы нашли свое отражение в Вебе.
Третья глава посвящена модели фрагмента университетского Веба Нигерии. В данной главе основное внимание сосредоточено на трёх вопросах:
Что представляет собой академический Веб Нигерии?
Berlin Declaration on Open Access to Knowledge in the Sciences and Humanities. Conference on Open Access to Knowledge in the Sciences and Humanities, October 20-22, 2003, Berlin. [Электронный ресурс] – http://oa.mpg.de/openaccess-berlin/berlindeclaration.html.
Какова структура академического Веба Нигерии?
методологий для сбора больших объемов информации о гиперссылках.
Затем описывается исследование университетских сайтов Нигерии.
Сначала сканируются сайты посредством краулера BeeBot 3 до 5-го уровня глубины с целью сбора внешних гиперссылок, сделанных с этих сайтов. Анализ базы данных внешних гиперссылок, построенной в результате сканирования сайтов целевого множества, позволил обнаружить веб-сайты, являющихся сайтами множества веб-окрестностей (т.е. сайтов, относящихся к веб-ресурсам университетов, но не являющихся их официальными сайтами).
Переход от официальных сайтов нигерийских университетов к единицам анализа представляет собой агрегирование веб-ресурсов (официальных сайтов и веб-окрестностей) каждого университета, что привело к существенному приросту страниц и внешних ссылок. Привязка университетов по регионам также позволила выявить ряд интересных особенностей.
университетского фрагмента Веба Нигерии. Эти веб-графы построены на вершинах, соответствующих веб-сайтам целевого множества. Обнаруживается степень связности этих веб-графов и исследуется методы для улучшения их степени связности.
В конце главы рассматривается академический фрагмент нигерийского Веба и с помощью известных вебометрических инструментов и краулера анализируется его связность с сайтами вузов Англии, США и Австралии. Также Свидетельство о гос. регистрации программы для ЭВМ «Программа для поиска и сбора внешних гиперссылок BeeCrawler» Федеральной службы по интеллектуальной собственности, патентам и товарным знакам РФ № 2012619665 от 26 октября 2012 г.// Д. И. Чернобровкин, А. А.
Печников.
описывается инструментарий, который был разработан специально для такого рода исследований.
Результаты анализа демонстрируют ярко выраженный географический аспект, который заключается в преобладании университетов с большим количеством связей с иностранными учебными заведениями в южной части страны.
Также проверяется, существует ли корреляция между количеством таких гиперссылок и рейтингом Webometrics (www.webometrics.info) испанской исследовательской группы Cybermetrics Lab.
Результаты проведенных экспериментов показывают, что ссылки, сделанные с иностранных зарубежных учебных заведений важнее, чем ссылки, исходящие с сайтов нигерийских университетов, хотя в данной работе внимание уделяется и содержательной ценности исходящих ссылок.
В четвертой главе изучаются мотивации создания гиперссылок в университетском Вебе Нигерии. В начале главы содержится подробное описание ранее проведенных подобных исследований задач и методов исследования, поскольку они применяются в дальнейшем. Авторы подобных исследований, рассмотренных в данной диссертации, пришли к трем основным выводам:
мотивации для создания ссылок на основе изучения только исходных и целевых страниц трудно классифицировать потому, что (а) существуют различные возможные мотивации, (б) сложно правильно угадать истинные намерения авторов в некоторых (в) потенциально существуют многократные мотивации; отсюда авторы делают вывод, что лучшая схема классификации могла бы привести к «более надежным результатам»;
британских университетов не является подобной мотивации цитирования журнальных статей в научных публикациях;
учебные материалы одного университета очень редко используются в финансирование объединенного межучережденческого обучения», и это, возможно, является показателем того, что финансирование подобных проектов объединенного межуниверситетского обучения неэффективно.
гиперссылок, сделанных с сайтов нигерийских университетов, подразумевает ответы на следующие два вопроса:
какие мотивации стоят за размещением гиперссылок на нигерийских университетских сайтах?
какие мотивации создания гиперссылок наиболее характерны для этногеографических регионов Нигерии?
В качестве инструмента для сбора гиперссылок использовался уже отсканировано 86 сайтов университетов Нигерии, на которых было обнаружено более 6300 исходящих гиперссылок.
В данной главе разрабатывается классификационная схема мотивации создания гиперссылок университетов Нигерии и примененные к ней статистические методы, позволяющие получить разные доминирующие мотивации по различным регионам Нигерии.
В настоящее время не существует оценки причин создания гиперссылок.
Автором предлагается следующая схема.
Изначально из 33 мотиваций, предложенных в работе А.А. Печникова4 с соавторами для российских научных организаций, были выделены 24 основные мотивации, объясняющие мотивы исходящих гиперссылок, сделанных с сайтов нигерийских университетов, из которых здесь укажем только наиболее часто встречающиеся:
учебные материалы для обучающихся;
информация для обучающихся и поступающих;
ресурсы поддержки научных исследований;
организация-партнер;
библиотеки и электронные журналы;
подобная по виду деятельности организация;
служебный сайт (закрытые и почтовые порталы);
вышестоящая организация;
нижестоящая организация;
органы государственной власти;
коммерческая организация;
неклассифицированный сайт;
неработающая ссылка.
Классификационная схема была упрощена путем объединения столбцов (все исследуемые университеты были собраны по регионам в 5 групп) и строк (количество мотиваций) классификационной схемы. Цель такого действие – сократить количество нулей и сделать объем данных более компактным для изучения.
Количество мотиваций (строк таблицы) было сокращено с 24 до 9. Это сделано, во-первых, и по такой же причине, как в случае столбцов, а во-вторых Печников, А. А. Разработка инструментов для вебометрических исследований гиперссылок научных сайтов / А. А. Печников, Н.Б. Луговая, Ю. В. Чуйко, И.Э. Косинец // Вычислительные технологии. – 2009. – Т. 14. – №5. – С. 66-78.
(и это главное) – чтобы минимизировать количество совпадений мотиваций. В итоге из 24 получились 9 основных мотиваций (см. таблицу 1).
проверки независимости номинальных переменных на основе статистики хиквадрат позволило получить разные доминирующие мотивации по различным регионам Нигерии.
Информации для обучающихся и Подобная (по деятельности) организация и Общее количество исследуемых Проведенный анализ показал, что для каждого региона можно выделить доминирующую мотивацию создания внешних гиперссылок. В Северном и Юго-Западном регионах и Центральном поясе такой доминантой является поддержка научных исследований, а в Южном и Юго-Восточном регионах отсылка к служебным сайтам.
Между университетами имеется совершенно разное по регионам поведение содержательное объяснение обнаруженным различиям. Можно предположить, что на Юге вопрос с финансовой поддержкой научных исследований полностью решен, а на Севере наблюдается плохое финансирование, а может быть, наоборот, на Севере научные исследования ведутся очень интенсивно, а на Юге они полностью отсутствуют. Но при этом результаты исследования позволяют дать ряд рекомендаций разработчикам нигерийских университетских сайтов.
Проведенное исследование позволяет высказать ряд рекомендаций руководству и ИТ-специалистам университетов развивающихся стран.
усовершенствованию системы доменных имен веб-сайтов университетов Нигерии. При этом наблюдающий орган, такой как National Universities Commission, должен издать распоряжение о том, чтобы все университеты перешли к использованию доменных имен в зоне edu.ng и избегали использования доменных имен-синонимов, обозначающих один и тот же вебресурс (сравните – www.aust-abuja.org и www.aust.edu.ng).
Во-вторых, все ресурсы университета, составляющие веб-окрестность официального сайта, должны быть прямыми окрестностями официального сайта, то есть их доменные имена должны быть поддоменами официального сайта и они должны быть связаны с официальным сайтом прямыми и обратными гиперссылками.
В-третьих, следует обратить особое внимание на создание вебкоммуникаторов. К примеру, в случае проведения конференции с участием большого числа нигерийских университетов, на сайте конференции рекомендуется сформировать ссылки на все официальные сайты университетовучастников. Та же рекомендация относится и ко всем университетам, участвующим в конференции. При этом не следует забывать об имеющемся веб-коммуникаторе, – сайте National Universities Commission, – возможности которого на сегодня используются очень слабо.
По поводу связей академического фрагмента нигерийского Веба с академическими сайтами зарубежных стран, первый вывод, который можно сделать на основе проведенных исследований, связан с географическим расположением университетов с большим количеством связей с иностранными учебными заведениями. Ярко выражено преобладание таких университетов в южной части страны. Отсюда следует обратить больше внимания на связи с зарубежными университетами северных университетов: если такие связи есть на практике, следует отобразить их в Вебе посредством гиперссылок.
Второй вывод касается значимости входящих и исходящих ссылок. В результате проведенных экспериментов оказалось, что ссылки, сделанные с сайтов иностранных зарубежных учебных заведений важнее, чем ссылки, исходящие с сайтов нигерийских университетов. Отсюда следует, что для повышения своего вебометрического рейтинга университетам нужно развивать связи с внешним миром, что, в принципе, должно всесторонне благотворно влиять на любые университеты, а не только университеты Нигерии.
Результаты исследований веб-сайтов нигерийских университетов представляют определенную ценность для государственных органов образования, руководства университетов, администраторов и разработчиков веб-сайтов. Реализация этих рекомендаций будет способствовать лучшей узнаваемости веб-ресурсов университетов Нигерии и других стран поисковыми машинами и улучшению связности фрагмента университетского Веба этих стран.
Заключение. В качестве заключения в диссертации сформулированы итоги выполненного исследования, рекомендации по использованию полученных результатов и перспективы дальнейшей разработки темы.
СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ
Публикации в изданиях, рекомендуемых ВАК РФ Нвохири A.М., Печников А.А. Анализ веб-сайтов нигерийских университетов // Дистанционное и виртуальное обучение. – 2012. – Nwohiri A.M., Pechnikov A.A. Webometric analysis of Nigerian university websites // Webology. – 2012. – Vol. 9, No. 1. Article 96. – Режим доступа:
http://www.webology.org/2012/v9n1/a95.html.
Нвохири A.М., Печников А.А. Изучение мотиваций создания внешних гиперссылок на университетских веб-сайтах: опыт Нигерии // Информационное общество. – 2012. – №6. – С.26-34.
Нвохири А.М. Ранжирование веб-сайтов нигерийских университетов // Процессы управления и устойчивость: Труды 42-й международной научной конференции аспирантов и студентов / Под ред. А. С. Ерёмина, Н. В. Смирнова. – Санкт-Петербург: Издательский Дом СанктПетербургского государственного университета. – 2011. – С. 321-326.
Нвохири A.М., Печников А.А. Сравнение вебометрического и вебнезависимого ранжирований университетов Нигерии // Информационная среда вуза XXI века: материалы V Всероссийской научно-практической конференции. – Петрозаводск. – 2011. – C. 133.
Нвохири А.М., Чернобровкин Д.И.Разработка вебометрических инструментов и их апробация на веб-сайтах нигерийских университетов // Процессы управления и устойчивость: Труды 43-й международной научной конференции аспирантов и студентов / Под ред. А. С. Ерёмина, Н. В. Смирнова. – Санкт-Петербург: Издательский Дом СанктПетербургского государственного университета. – 2012. – С. 371-375.
Свидетельство о регистрации программы 7. Нвохири А.М., Огийко А.А., Печников А.А. Свидетельство о государственной регистрации программы для ЭВМ «Программа сбора вебометрических индикаторов по данным Google» Федеральной службы по интеллектуальной собственности, патентам и товарным знакам РФ № 2014613369 от 25 марта 2014 г.