«28 июня 2011 года г. Москва СБОРНИК МАТЕРИАЛОВ КОНФЕРЕНЦИИ Рязань 2011 Бизнес-аналитика. Использование аналитической платформы Deductor в учебном процессе вуза: сборник материалов II Межвуз. науч.-практ. конф. – Рязань: ...»
Используя имеющуюся в хранилище данных информацию о мониторинге водных объектов Нижегородской области за 3 года: с 2008 по 2010 год, была построена модель прогноза динамики загрязнения выбранного водного объекта тем или иным загрязнителем на основе метода выделения компонент временного ряда. С помощью инструментов Deductor Studio «Настройка набора данных» и «Фильтр» были выбраны необходимые данные для построения прогноза, а именно был выбран водный объект «озеро Нижневыксунское» и загрязнитель «ХПК». Для проверки результатов прогноза в модель не было включено последнее из имеющихся значений загрязнителя. Точность модели оценивалась по ошибке MAPE, которая составила 1,6 %, что говорит о хорошем качестве построенной модели. После построения прогноза значение загрязнителя за 01.12.2010 год было сравнено с имеющимся реальным значением на ту же дату. Расхождение прогнозируемого значения с фактическим составило 0,9, что составляет 3,9 % и говорит о довольно точном результате построенной модели прогноза.
С помощью АП Deductor также были построены несколько нейросетевых моделей прогноза.
После построения прогноза значение загрязнителя за 01.12. год было сравнено с имеющимся реальным значением на ту же дату.
Расхождение прогнозируемого значения с фактическим составило 0, (для первого случая), что составляет 1,02 %; 0,702 (для второго случая), что составляет 3,05 % и 0,28 (для третьего случая), что составляет 1, Также в качестве критерия оценки точности построенных нейронных сетей были использованы диаграмма рассеяния и среднеквадратическая ошибки прогноза. Для нейросетевой модели с тремя нейронами во входном слое получились наиболее близкая к эталонному значению диаграмма рассеяния и наименьшая среднеквадратическая ошибка (12 %).
Для обеспечения автоматического доступа к инструментарию аналитической платформы Deductor Studio из СУБД MS Access 2007 был разработан специальный механизм интеграции, позволяющий аналитику непрерывно работать с информационной системой. Интеграция приложений выполнена в данной работе средствами MS Access (рис. 2). Главная форма организует запуск приложений путем использования встроенных макросов. Аналитическая платформа Deductor, в свою очередь, имеет возможность выполнения автоматизированных сценариев и готовых отчетов путем применения пакетной обработки. Данный механизм позволяет обеспечить автоматический запуск платформы с открытием панели отчетов необходимого сценария.
После обеспечения интеграции был проведен расчет возможной экономической эффективности внедрения АИС в работу Министерства экологии и природных ресурсов. Для оценки эффективности разработанной автоматизированной информационной системы были составлены функциональные модели процесса проведения мониторинга водных ресурсов в системе ARIS. Были составлены диаграммы процессов проведения мониторинга водных ресурсов до и после оптимизации и проведена симуляция работы процессов. В результате сравнения полученной статистики было установлено, что использование разработанной АИС позволяет снизить временные затраты на проведение данного процесса более, чем в 5 раз за счет уменьшения времени, затрачиваемого на обработку, анализ данных и составление отчетности. Это позволяет освободить время для решения сотрудниками отдела экологического мониторинга других задач.
Таким образом, на основании проделанной работы, можно сделать вывод о том, что разработанная АИС для проведения мониторинга водных ресурсов региона позволит эффективнее организовать работу сотрудников Министерства экологии и природных ресурсов Нижегородской области, усилит взаимодействие между участниками проекта и впоследствии повысит эффективность проведения мониторинга водных ресурсов в Нижегородской области.
ИСПОЛЬЗОВАНИЕ АП DEDUCTOR ДЛЯ АНАЛИЗА
РЕЗУЛЬТАТОВ И ПЛАНИРОВАНИЯ
ПРОФОРИЕНТАЦИОННОЙ РАБОТЫ ВУЗА
Рыбанов А.А., доцент, Зайчук О.А., студент, Волжский политехнический институт (филиал) ВолгГТУ, г. Волжский Конкурентоспособность и эффективное развитие института высшего образования обеспечивается путем непрерывного постоянного инновационного процесса, ключевые направления которого:· внедрение новых информационных технологий;
· использование современных методов управления.
Повысить эффективность такой сложной системы, как ВУЗ, можно лишь путем адекватного регулирования многообразных связей между различными видами деятельности. Обеспечение руководства аналитической информацией позволит управлять вузом с максимально возможной степенью эффективности.
Во многих вузах применяются различные информационные системы для автоматизации работы приемной комиссии [1]. Значительный объем информации, вводимый в процессе работы приемной комиссии, можно использовать для интеллектуального анализа данных с целью стратегического управления и планирования в рамках работы с контингентом абитуриентов и студентов.
Организация специального сбора информации для этих целей – трудоемкий и дорогостоящий процесс, поэтому для поддержки принятия решений представляется логичным использование данных приемных комиссий.
Проведение аналитической работы, по результатам работы приемной комиссии, предполагает, как правило, следующие задачи анализа данных:
· анализ количества поданных заявлений с различных школ, в которых была проведена профориентационная работа;
· анализ выбора направлений обучения и факультетов вуза абитуриентами различных школ, районов области;
· анализ качества подготовки выпускников различных школ, районов области;
· анализ географии абитуриентов вуза;
· анализ выбора вуза абитуриентами различных школ, районов · анализ соотношения количества подавших документы и зачисленных в вуз, по различным школам, районам области.
· анализ количества абитуриентов по школам, районам области за различные годы (увеличение, уменьшение);
· анализ выбора абитуриентами отдельной школы факультетов и направлений обучения;
· анализ средних баллов, по результатам вступительных испытаний;
· анализ конкурса на отдельные факультеты (направления) за различные годы.
Эта информация необходима и вузу для определения перспектив развития и планирования профориентационной работы.
Встроенные в Deductor инструментальные средства для решения задач классификации, кластеризации, поиска ассоциативных правил, прогнозирования временных рядов, прогнозирования на основе линейных и нейросетевых моделей позволяют успешно решать указанные выше задачи анализа данных [2].
Встроенный в Deductor механизм визуализации обеспечивает удобное представление результатов анализа с точки зрения их интерпретации.
Важным преимуществом аналитической отчетности в Deductor является быстрый доступ к результатам анализа, не требующий от пользователя навыков анализа данных и работы в системе. При работе с отчетами пользователь не видит сценарий анализа данных, ему доступны только конечные результаты (выдержки) из работы аналитика.
Использование аналитической платформы Deductor способствует совершенствованию процедур оперативного анализа данных приемной комиссии и планированию стратегии профориентационной работы.
Литература 1. Рыбанов А.А. Подходы к использованию информационных технологий в профориентационной работе. // Новые информационные технологии в образовании: матер. междунар. науч.-практ.
конф. (Екатеринбург, 1-4 марта 2011 г.) / ФГАОУ ВПО "Рос.
гос. профессионально-педагогический ун-т" [и др.]. – Екатеринбург, 2011. – Ч. I. – C. 234-237.
2. Рыбанов А.А. Информационные технологии в профориентационной работе // Школьные технологии. – 2011. – № 3. – C. 173НЕКОТОРЫЕ ПОДХОДЫ К ПРОГНОЗИРОВАНИЮ СПРОСА
НА ПРОДУКЦИЮ ПРЕДПРИЯТИЯ
С ИСПОЛЬЗОВАНИЕМ АП DEDUCTOR
Ровненский государственный гуманитарный университет, г. Ровно Как известно, прогнозирование продаж актуально практически для каждой компании. Качественный прогноз является первым шагом в решении множества бизнес-задач: оптимизация закупок, распределение ресурсов, минимизация кассовых разрывов, бюджетирование [1]. Для некоторых компаний прогнозирование стает жизненно важной задачей, котораяможет существенно способствовать финансовой стабильности и укреплению позиций на рынке.Классический пример сказанного выше – ЗАО «Галичина», которая является одной из крупнейших компаний в Западной Украине по производству молочной продукции. Производство и реализация такого вида продукции имеет две главные особенности. Первая – это небольшой срок хранения молочной продукции, что определяет необходимость сопоставления скорости реализации (то есть объема реализации за определенный временной период) и складского запаса, который в свою очередь зависит от скорости производства. Вторая особенность обусловлена дефицитом молочного сырья на украинском рынке. Это в свою очередь ограничивает возможность быстрого наращивания производства при внезапном (вернее неожиданном) для компании и повышении спроса. Все это делают прогнозирование продаж (спроса) особенно важной задачей для оптимального планирования закупок сырья и производства продукции.
В данной статье предложены некоторые подходы к прогнозированию объемов реализации ЗАО «Галичина» как агрегированного показателя.
Первым и, наверное, самым важным условием качественного прогнозирования является наличие достаточного количества исходных данных. На данном этапе уже очень много предприятий Украины не только внедрили учетные системы класса ERP и CRM в свою деятельность, но и накопили в них достаточный для анализа объем данных (ЗАО «Галичина» не исключение). Поэтому проблема количества исходных данных перестает быть критической. Очевидно, что это не снимает требования к качеству данных.
Для решения задачи прогнозирования в контексте данной статьи был сформирован исходный набор данных, фрагмент которого представлен на рис. 1. В исходный набор данных попали помесячные данные о реализации за период 2006-2009 г. плюс за девять месяцев 2010 года, измеренные денежных единицах, хотя также имеет смысл прогноз и в натуральных единицах.
Рис. 1. Фрагмент исходных данных для прогноза общей реализации Теперь более детально остановимся на сценариях прогнозирования. Было построено два типа моделей. Условно назовем их эндо- и экзомоделями1.
Идея эндомодели состоит в том, что объем реализации Yt в месяце t зависит от объемов реализации в трех предыдущих месяцах:
Yt = F (Yt -1,Yt -2,Yt -3 ). Данная идея предложена в работе [2, c. 678].
В случае с экзомоделью сделаем предположение, что объем реализации в месяце t зависит от объема реализации в месяце t – 1 ( Yt -1 ), а также некоторых макроэкономических показателей: индекса инфляции месяца t – 1 ( I t -1 ), номинального обменного курса на конец месяца t – ( ERt -1 ) и средней заработной платы по стране месяца t – 1 (Wt -1 )2.
Данное предположение кажется справедливым, поскольку очевидно, что молочную продукцию покупают конечные потребители на часть дохода (зарплату), которая может обесцениваться через инфляцию. Если рост инфляции больше чем рост зарплаты, то падает покупательская способность и, соответственно, потенциальный объем реализации. Кроме этого, объем реализации может изменяться под воздействием обменного курса, который может влиять на объем экспорта и импорта.
«Эндо-» и «экзо-» указывают на происхождение исходных переменных моделей по отношению к предприятию. Модель, исходные данные которой являются производственными показателями данного предприятия, имеют приставку «эндоЕсли же частично исходные данные модели являются внешними (например, макроэкономическими) данными, то она имеет приставку «экзо-».
Значения показатели индекса инфляции и номинального обменного курсу доступны сразу после окончания месяца. Значение номинальной средней зарплаты публикуют к середине месяца, поэтому, в крайнем случае, можно взять за месяц Параметризация и получение прогнозных результатов для каждой из моделей сделана с помощью методов линейной регрессии и нейронной сети.
Перед построением моделей сделано следующее:
1. Произведена оценка исходных данных на предмет шумов, выбросов, пропусков. Последних обнаружено не было. Для сглаживания данных применена Парциальная обработка, результаты до и после которой показаны на рис. 2, а и 2, б.
Рис. 2, a. До сглаживания данных Рис. 2, б. После сглаживания данных 2. С помощью обработчика Слияние с узлом объединены данные о реализации и макроэкономические показатели.
3. С помощью обработчика Скользящее окно входные массивы данных преобразованы следующим образом:
· для эндомодели объем реализации с глубиной погружения 3;
· для экзомедели все 4 входных параметра с глубиной погружения 1.
Ветки сценариев прогнозирования с использованием обработчиков Линейная регрессия и Нейронная сеть для экзо- и эндомеделей ничем не отличаются и приведены в таблице 1 и таблице 2.
Ветка сценария прогноза на основе линейной регрессии Ветка сценария прогноза модели на основе нейросети Следует отметить, что после проведения корреляционного анализа были получены следующие результаты:
1. Эндомодель: все входные параметры (реализация за три предыдущих месяца) сильно положительно коррелируют с выходным параметром (коэффициент – 0,93-0,99), что вполне очевидно и предсказуемо.
2. Экзомодель: два входных параметра (средняя зарплата и обменный курс) имеет высокую степень положительной корреляции (>0,9), в то же время индекс инфляции – низкую (–0,13). Поэтому последний показатель из модели следует исключить. Данный результат (низкую корреляцию) можно объяснить вхождением молочной продукции в базовый потребительский набор, который слабо эластичен к цене.
Сам же процесс прогнозирования с использованием экзо- и эндоподходов дал следующие результаты (таблица 3). Анализ общих ошибок модели позволяет сделать вывод о наилучшем качестве нейросетевой эндомодели. По истечению прогнозированного периода представилась возможность сопоставить реальные данные за октябрь 2010 года (37821 тыс. грн.) и данные прогноза за этот же период. В результате более точным оказался прогноз регрессионной эндомодели.
Стоит отметить, что на основе эндомоделей можно делать прогноз с интервалом больше чем один период. В тоже время экзомодели следует использовать для прогноза на один период вперед, поскольку для прогноза на два и больше периода нет макроэкономических данных, хотя можно взять их прогнозное значение или сделать предположение об их неизменности.
Литература 1. Прогнозирование продаж [Электронный ресурс]. – Режим доступа:
http://www.basegroup.ru/solutions/tasks/forecasting.
2. Паклин Н.Б., Орешков В.И. Бизнес-аналитика: от данных к знаниям (+ СD): Учеб. пособие. – 2-е изд., перераб. и доп. – СПб.: Питер, class='zagtext'> ПРОГНОЗИРОВАНИЕ РОССИЙСКОЙ СТАТИСТИКИ
Традиционный подход [1, 2] в анализе связи двух переменных y и x заключается в сопоставлении табличным данным парной регрессии. Далее проводится сопоставление этим данным линейной регрессии или нелинейных регрессий.
Нелинейная регрессия относительно включенных в анализ объясняющих переменных, но линейных по оцениваемым параметрам:
· полиномы разных степеней, например, y = a + b1x + b2x2 + b3x3 + · равносторонняя гипербола y= a + b/x +.
Нелинейная регрессия по оцениваемым параметрам:
· показательная y = abx;
· экспоненциальная y = ea+bx.
Далее проводится анализ тесноты связи изучаемых явлений через линейный коэффициент парной корреляции и индекс корреляции. Исследуется дисперсия зависимой переменной. Проводится F-тест на оценивание качества уравнения регрессии. Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются tкритерий Стьюдента и доверительные интервалы каждого из показателей.
Не меньший, если не больший объём работы предстоит, если пытаться использовать модели временных рядов.
Таким образом, построение даже простейших моделей и анализ их адекватности достаточно сложен.
В тоже время, эти модели в том или ином виде реализованы в различных пакетах прикладных программ (например Deductor, Excel, Statgraphics, Statistica и др.). Их использование не требует высокой математической квалификации персонала. Особенно, если воспользоваться более широким пониманием методов Data mining.
В качестве возможного подхода, аналогичного задачам «обучение с учителем», проведём прогноз потерь от пожаров в Российской Федерации на 2011 год, исходя из официальной статистики пожаров МЧС 2003годы [3] (таблица 1).
Год Количество пожаров Погибло человек Ущерб, млрд. руб.
С помощью пакета прикладных программ Excel подберём лучший прогноз из данных 2003-2009 гг. на 2010г. и выберем лучший с учётом реальных данных на этот год. Лучшей моделью оказалась полиноминальная регрессия второй степени. Погрешность прогноза на 2010 год не превышает 2,5 %.
В выбранную модель подставим данные за 2010 г. и получим прогноз на 2011 год. Официальный прогноз [3]: «в 2011 году количество погибших при техногенных пожарах и на водных объектах, взрывов бытового газа прогнозируется на уровне 2010 года (не более: 13 000 погибших при техногенных пожарах)…».
В построенной модели этот показатель имеет следующий вид (рис.
1-3).
По прогнозу полученной модели в 2011 году произойдет 161 тыс.
пожаров, что на 10,1% меньше чем в 2010 году. Количество погибших составит не менее 11 тыс. 700 человек (уменьшение по сравнению с годом составит 9,8%). Прямой материальный ущерб составит 12, млрд. руб., что на 8,5% больше по сравнению с 2010 годом.
Литература 1. Четыркин Е.М. Статистические методы прогнозирования. Изд.
2-е, перераб. и доп. – М.: Статистика, 1977.
2. Эконометрика: Учебник // Под ред. И.И. Елисеевой – М.: Финансы и статистика, 2003.
3. Официальный сайт МЧС России http://www.mchs.gov.ru.
BaseGroup Labs – профессиональный поставщик продуктов и решений в области анализа данных. Мы имеем многолетний опыт работы в области разработки аналитических алгоритмов и создания законченных систем. BaseGroup Labs предлагает полностью интегрированные продукты, объединяющие все необходимые инструменты анализа: хранилища данных, аналитическую отчетность, механизмы поиска закономерностей и построения моделей, средства интеграции аналитических систем с платформами сторонних производителей.
Системы от BaseGroup Labs выполнены с применением самых современных информационных технологий.
Консолидация анализируемых дан- Прогнозирование ных, обеспечение непротиворечивоПоиск закономерностей и зависимости данных Быстрый доступ к необходимой инИзвлечение правил формации § Автоматическое обновление данных § Богатый семантический слой многомерный анализ данных обнаружение знаний в базах данных Многомерная отчетность, позволяю- Механизмы улучшения качества исщая извлечь максимум полезной ин- ходных данных (очистка, преобразоформации из имеющихся данных вание и трансформация данных) Гибкие механизмы навигации и мани- Построение сценариев обработки Наши системы базируются на собственном аналитическом ядре, что обеспечивает беспрецедентную гибкость при выборе способов анализа и создании прикладных решений. Применение самообучающихся механизмов дает возможность быстрой адаптации решения под постоянно изменяющиеся условия.
Россия, 390046, г. Рязань, Введенская, д. 115, оф. Deductor – флагманский продукт BaseGroup Labs, концентрирующий многолетний опыт компании и вобравший в себя самые удачные архитектурные идеи и современный математический аппарат. В Deductor реализованы технологии анализа структурированных данных: нейронные сети, деревья решений, хранилища данных и OLAP, ассоциативные правила, карты Кохонена и многое другие. Использование Deductor в учебном процессе поможет студентам освоить алгоритмы машинного обучения и системы интеллектуальной обработки информации на практике, решая актуальные задачи по консолидации, очистке, прогнозированию, классификации, кластеризации, скорингу.
Для высших учебных заведений BaseGroup Labs предлагает специальные условия.
Заключив с нами соглашение о сотрудничестве, преподаватели и сотрудники учебного заведения получают следующие возможности:
§ Аналитическую платформу Deductor Academic для проведения практикумов по дисциплинам, связанным с информационно-аналитическими системами, интеллектуальными информационными системами, системами поддержки принятия решений и другим курсам для прикладных информатиков и экономистов.
§ Бесплатное e-learning обучение преподавателей на образовательном портале edu.basegroup.ru в полноценной системе дистанционного обучения и сертификацию по результатам обучения, обсуждение возникающих вопросов на § Большое число методических разработок для проведения практических занятий со студентами по всем современным технологиям анализа данных.
Участие в программе полностью бесплатное. Образовательная инициатива действует с 2005 года и за это время более 90 вузов России, Украины и Беларуси стали нашими партнерами и используют аналитическую платформу Deductor в учебном процессе. Вот некоторые из них:
§ Российская экономическая академия имени Г.В. Плеханова;
§ Государственный университет управления;
§ Московский авиационный институт;
§ Санкт-Петербургский государственный университет;
§ Белорусский государственный университет информатики и радиоэлектроники.
Форму и условия партнерства, полный список вузов-партнеров и другую дополнительную информацию можно получить на образовательном портале http://edu.basegroup.ru.
Россия, 390046, г. Рязань, Введенская, д. 115, оф.