«Цуканова Ольга Анатольевна МАТЕМАТИЧЕСКИЕ МЕТОДЫ МОДЕЛИРОВАНИЯ ЭКОНОМИЧЕСКИХ СИСТЕМ Учебное пособие Санкт-Петербург 2012 2 Цуканова О. А. Математические методы моделирования экономических систем: уч. пособие. – СПб.: ...»
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
САНКТ-ПЕТЕРБУРГСКИЙ НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ
УНИВЕРСИТЕТ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ, МЕХАНИКИ И ОПТИКИ
Цуканова Ольга Анатольевна
МАТЕМАТИЧЕСКИЕ МЕТОДЫ МОДЕЛИРОВАНИЯ
ЭКОНОМИЧЕСКИХ СИСТЕМ
Учебное пособие
Санкт-Петербург 2012 2 Цуканова О. А. Математические методы моделирования экономических систем: уч. пособие. – СПб.: НИУ ИТМО, 2012 В настоящем учебном пособии излагаются методы экономикоматематического моделирования, которые широко используются в различных областях экономики при принятии управленческих решений. Во всех разделах приведены краткие теоретические сведения, сформулированы актуальные экономические проблемы, ряд задач снабжен решениями.
Учебное пособие разработано в соответствие с программой дисциплины «Математические методы моделирования экономических систем» и предназначено для магистров по направлению 230700.68 «Прикладная информатика», 080005 «Бизнес-информатика».
В 2009 году Университет стал победителем многоэтапного конкурса, в результате которого определены 12 ведущих университетов России, которым присвоена категория «Национальный исследовательский университет». Министерством образования и науки Российской Федерации была утверждена Программа развития государственного образовательного учреждения высшего профессионального образования «Санкт-Петербургский государственный университет информационных технологий, механики и оптики» на 2009–2018 годы.
© Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, © О. А. Цуканова,
ВВЕДЕНИЕ
Современный специалист при принятии управленческих решений должен хорошо разбираться в экономико-математических методах, уметь их применять на практике при анализе рыночных процессов, внешней и внутренней среды предприятия, уметь конструировать с использованием известных математических методов экономические системы и анализировать динамику составляющих их идентификаторов.Данное учебное пособие предназначено для студентов ВУЗов, обучающихся по направлению «Прикладная информатика». Учебное пособие также может быть использовано студентами, аспирантами, преподавателями экономических вузов, менеджерами предприятий.
Целевая направленность – дать общее представление о возможностях использования математических методов для моделирования экономических систем. В соответствии с этим учебное пособие включает в себя рассмотрение следующих аспектов:
использование вероятностных методов моделирования экономических систем;
применение инструментария статистического моделирования;
использование оптимизационных методов и моделей в управлении экономическими системами;
рассмотрение ряда типовых моделей управления в различных областях экономики.
Учебное пособие разработано в компетентностном формате, то есть описывает содержание (знания) через решение актуальных проблем и практических задач. Предусмотрена отработка навыков подготовки и принятия управленческих решений с реализацией типовых задач менеджмента на компьютере с использованием прикладных программ.
СОДЕРЖАНИЕ
ВВЕДЕНИЕСОДЕРЖАНИЕ
1. ВЕРОЯТНОСТНЫЕ МЕТОДЫ МОДЕЛИРОВАНИЯ
ЭКОНОМИЧЕСКИХ СИСТЕМ1.1. Основы вероятностных методов анализа и моделирования экономических систем
1.1.1. Элементарные понятия о случайных величинах, событиях и функциях
1.1.2. Числовые характеристики случайных величин
1.1.3. Статистическая оценка законов распределения случайных величин.
1.1.4. Основные законы распределения случайных величин. Выбор теоретического закона распределения
1.2. Моделирование экономических систем с использованием марковских случайных процессов
1.2.1. Основные понятия марковских процессов
1.2.2. Марковские цепи
1.2.3. Непрерывные цепи Маркова
1.3. Моделирование систем массового обслуживания
1.3.1. Компоненты и классификация моделей массового обслуживания. 1.3.2. Определение характеристик систем массового обслуживания.......
2. СТАТИСТИЧЕСКОЕ МОДЕЛИРОВАНИЕ ЭКОНОМИЧЕСКИХ
СИСТЕМ2.1. Статистические показатели. Средние величины и изучение вариации.. 2.2. Индексы
2.3. Парная регрессия и корреляция в экономических исследованиях.......... 2.3.1. Линейная регрессия и корреляция: смысл и оценка параметров..... 2.3.2. Интервальный прогноз на основе линейного уравнения регрессии 2.3.3. Нелинейная регрессия
2.4. Множественная регрессия и корреляция
2.4.1. Спецификация модели. Отбор факторов для построения модели... 2.4.2. Выбор формы уравнения регрессии. Оценка параметров уравнения множественной регрессии
3. ОПТИМИЗАЦИОННЫЕ МЕТОДЫ И МОДЕЛИ В УПРАВЛЕНИИ
ЭКОНОМИЧЕСКИМИ СИСТЕМАМИ3.1. Линейное программирование
3.1.1. Построение экономико-математических моделей задач линейного программирования
3.1.2. Графическое решение задач линейного программирования............ 3.1.3. Симплекс-метод
3.1.4. Методы нахождения опорного решения задачи линейного программирования
3.1.5. Экономическая интерпретация решения задачи линейного программирования
3.1.6. Экономико-математический анализ полученных оптимальных решений
3.2. Транспортные задачи
3.2.1. Математическая модель транспортной задачи
3.2.2. Опорное решение транспортной задачи
3.2.3. Метод потенциалов
3.3. Теория игр
3.3.1. Управление в условиях неопределенности
3.3.2. Принятие решений в условиях неопределенности
3.3.3. Теория игр. Стратегия игры. Метод линейного программирования для нахождения решения игр
4. ТИПОВЫЕ МОДЕЛИ УПРАВЛЕНИЯ
4.1. Модели маркетинга
4.1.1. Игровая модель обмена товарами
4.1.2. Задача прикрепления потребителей к поставщикам
4.1.3. Модель определения стадии жизненного цикла товара................. 4.1.4. Модель выбора сегментов рынка
4.1.5. Регрессионная модель спроса
4.1.6. Анализ риска инноваций
4.2. Модели финансового менеджмента
4.2.3. Модель оценки риска проекта
4.2.3. Опционные модели
4.3. Модели антикризисного менеджмента
4.3.1. Модели оптимизации управления нововведениями
4.3.2. Модель оптимизации управления продажами и транзакциями..... 4.3.3. Модель оптимизации управления ресурсным потенциалом.......... 4.4. Модели экономической безопасности
4.4.2. Модель определения зон защиты предприятия в условиях ограниченности средств
4.4.3. Модель определения объектов защиты в условиях независимости ущербов
4.4.4. Модель распределения работы службы безопасности предприятия...
ЛИТЕРАТУРА
Приложение 1
Задачи по теме «Основы вероятностных методов анализа и моделирования экономических систем»
Задачи по теме «Моделирование экономических систем с использованием марковских случайных процессов»
Задачи по теме «Моделирование систем массового обслуживания»............ Задачи по теме «Парная регрессия и корреляция в экономических исследованиях»
Задачи по теме «Множественная регрессия и корреляция»
Задачи по теме «Линейное программирование»
Задачи по теме «Транспортные задачи»
Задачи по теме «Теория игр»
Задачи по теме «Типовые модели управления»
1. ВЕРОЯТНОСТНЫЕ МЕТОДЫ МОДЕЛИРОВАНИЯ ЭКОНОМИЧЕСКИХ СИСТЕМ
1.1. Основы вероятностных методов анализа и моделирования экономических систем 1.1.1. Элементарные понятия о случайных величинах, событиях и функциях В результате многократного повторения одних и тех же условий, которые носят название испытаний или опытов, можно наблюдать появление или непоявление в них некоторого события. Такое событие, которое может произойти или не произойти в результате опыта, называется случайным. Совокупность условий, в которых рассматривается данное событие, называют комплексом условий, а реализацию этого комплекса условий на практике испытанием. В зависимости от связи между событиями и соответствующими комплексами условий различают достоверные, невозможные и случайные события.Достоверным называется такое событие (U), которое наступает каждый раз при реализации данного комплекса условий.
Невозможным называется событие (), которое никогда не наступает при реализации данного комплекса условий.
Случайным называется событие, которое может либо наступить при реализации данного комплекса условий, либо не наступить.
Элементарное событие – это один из нескольких возможных, но несовместных исходов того или иного опыта (испытания). Совокупность или множество их составляют пространство элементарных событий.
В общем случае пространство элементарных событий может быть любой природы: конечным и бесконечным, дискретным и непрерывным. Пространство элементарных событий является синонимом достоверного события, так как один из его элементов непременно наступит.
Пустое множество – это множество, не содержащее элементарных событий. Очевидно, что пустое множество является синонимом невозможного события.
При изучении случайных событий в ходе системного анализа и моделирования информационных процессов и систем используется группа событий, между которыми существуют определенные соотношения, позволяющие выражать одни события через другие.
Рассмотрим эти соотношения:
1) Событие А содержится в событии В(А В). Если при каждом испытании, при котором происходит событие А, непременно происходит и событие В, то говорят, что событие А содержится в событии В или принадлежит событию В;
2) Тождественные события (А = В). Если событие А содержится в событии В, а событие В содержится в событии А, то говорят, что события А и В тождественны или равносильны;
3) Произведение событий ( = ). Произведением (или пересечением) событий А и В называется событие С, состоящее в совместном наступлении этих событий. Другими словами, множество С содержит элементы, принадлежащие множествам А и В (, = );
4) Несовместные события (А * В = ). События А и В называются несовместными, если их совместное появление при испытании невозможно;
5) Сумма событий ( = + или = ). Суммой событий А и В называется событие С, состоящее в наступлении хотя бы одного из этих событий. Множество С содержит элементы, принадлежащие хотя бы одному из множеств А или В;
6) Полная группа событий ( = + =). События А и В составляют полную группу событий, если при реализации заданного комплекса условий непременно появится хотя бы одно из этих событий. Сумма всех таких событий есть событие достоверное;
7) Противоположное событие. Два события А и А (читается «не А») называются противоположными, если они составляют полную группу несовместных событий, т.е. удовлетворяют условию + =; = 0.
При классическом определении за вероятность события А принимается отношение числа благоприятных этому событию элементарных исходов (m) к общему числу возможных исходов (n):
Вероятность и частота ( ) события тесно связаны между собой.
Зная частоту, вычисленную при достаточно большом числе испытаний, есть все основания считать ее близкой к соответствующей вероятности и полагать, что Такой способ определения вероятности события Р(А) называется статистическим.
Частота случайного события А находится в интервале [0;1]:
Частота достоверного события равна единице. Частота невозможного события равна нулю.
Свойства вероятностей событий:
1. Вероятность невозможного события равна нулю, т. е. = 0 ;
2. Для любого события А вероятность противоположного события равна 3. Если событие А влечет за собой событие В, т. е. А В, то ();
4. Вероятность события А заключена между нулем и единицей, т.е.
5. Вероятность двух событий А и В равна сумме вероятностей этих событий без вероятности их произведения: + = + ().
Вероятность события определяется при условии реализации некоторой совокупности условий. Если никаких ограничений, кроме упомянутых условий, при вычислении вероятности Р(А) не налагается, то такие вероятности называются безусловными. Однако в ряде случаев приходится находить вероятности событий при условии, что произошло некоторое событие B, имеющее положительную вероятность. Такие вероятности называются условными и обозначаются Р(А/В).
Событие А называется независимым от другого события В, если вероятность события А не изменяется от того, наступает событие В или нет. В противоположном случае событие А называется зависимым от события В. Следовательно, если события А и В независимые, то Р(А/В) = Р(А).
Вероятность произведения двух событий равна произведению вероятности одного из этих событий на условную вероятность другого при условии, что первое произошло:
Вероятность произведения независимых событий равна:
Вероятность произведения n случайных событий равна произведению вероятности одного из них на условные вероятности остальных, вычисленных при условии, что все предшествующие события произошли.
Правило сложения вероятностей двух событий гласит, что вероятность наступления хотя бы одного из двух событий равна сумме вероятностей этих событий без вероятности их совместного наступления:
Если события несовместны, то правило сложения вероятностей принимает вид:
Если несовместные события составляют полную группу, т. е.
Случайные события могут быть представлены через случайные величины. Случайной называется такая величина, которая в результате испытания (реализации определенного комплекса условий) может принять то или иное значение, причем до испытания неизвестно, какое именно. Если повторять испытания, то результатом каждого будет какое-либо одно значение случайной величины из множества возможных.
Случайные величины подразделяются на дискретные и непрерывные.
Множество значений дискретной случайной величины конечно или счетно, например: количество отказов автомобилей автопредприятия в течение рабочей смены; число рабочих, пришедших в бухгалтерию завода в течение одного часа получать заработную плату, и т. д.
Множество значений непрерывной случайной величины представляет собой множество всех точек, принадлежащих какому-либо интервалу числовой оси, например: расход топлива на километр пробега; время безотказной работы автомобиля и т. д.
Кроме дискретной и непрерывной случайных величин встречаются случайные величины смешанного типа, для которых наряду с участками непрерывных значений имеются отдельные, изолированные значения.
Закон распределения случайной величины представляет собой соотношение, позволяющее определить вероятность появления случайной величины в любом интервале.
Основными формами закона распределения являются: ряд распределения, функция распределения и плотность распределения.
Ряд распределения представляет собой таблицу, в которой перечислены возможные значения случайной величины и соответствующие им вероятности:
В таблице Xi - i-е значение случайной величины Х; P i - вероятность появления i-го значения случайной величины X. При этом = Эмпирический ряд распределения представляет собой таблицу, в которой перечислены наблюдаемые значения (фактические реализации) случайной величины и соответствующие им частоты:
В таблице x i — i-я фактическая (наблюдаемая) реализация случайной величины Х; m i — количество появлений (частота) величины х i.
Ряды распределения, образованные из значений случайной величины, характеризующей качественный признак, называются атрибутивными. Ряды распределений, образованные из значений случайной величины, характеризующей количественный признак явления (события), называются вариационными.
Ряд распределения не может служить характеристикой непрерывной случайной величины, поскольку значения этой величины нельзя перечислить, так как множество их несчетно. Кроме того, вероятность отдельного значения непрерывной случайной величины равна нулю.
Для характеристики непрерывной случайной величины определяют вероятность появления значения случайной величины меньшего x, где x — текущая переменная, т. е. определяют вероятность события X < х. Вероятность этого события зависит от x, т. е. является функцией х. Эта функция называется функцией распределения случайной величины X и обозначается F(x):
Таким образом, функцией распределения случайной величины X называется функция аргумента х, равная вероятности того, что случайная величина X примет любое значение, меньшее х.
Вероятность попадания случайной величины в полузамкнутый интервал [а, b) равна разности значений функции распределения в точках b и а:
Функция распределения есть неубывающая функция, значения которой начинаются с нуля и доходят до единицы, причем в отдельных случаях функция может иметь скачки — разрывы. Функцию распределения дискретной случайной величины можно определить, зная ее ряд распределения, по формуле:
что и является распределением Пуассона. Распределение Пуассона зависит только от одного параметра – математического ожидания М[Х] = а. Основные числовые характеристики случайной величины, имеющей распределение Пуассона, равны величине а > 0, а именно дисперсия случайной величины X, имеющей распределение Пуассона, численно равна ее математическому ожиданию. Этим свойством пользуются для оценки близости эмпирического распределения к распределению Пуассона.
Пример 1.5. Определить вероятность того, что на АЗС находится один или хотя бы один автомобиль, если среднее число автомобилей, находящихся в данном интервале времени на АЗС, а = 3.
Вероятность нахождения одного автомобиля на АЗС следующая:
2. Вероятность того, что на АЗС будет находиться хотя бы один автомобиль, равна вероятности того, что на АЗС будет находиться не менее одного автомобиля, т. е.
Непрерывные распределения вероятностей Наиболее известным непрерывным распределением является нормальное. Плотность нормального распределения определяется по формуле:
Непрерывная случайная величина X принимает значения от - до +.
Соответствующая функция распределения равна:
Типичные графики плотности вероятности f(х) и функции нормального распределения приведены на рис. 1.7.
Рис. 1.7. Графики кривых нормального распределения Основные свойства нормального распределения:
1. нормальное распределение полностью характеризуется математическим ожиданием и дисперсией;
2. кривая плотности вероятности f(х ) нормального распределения симметрична относительно математического ожидания т х. Максимум плотности распределения соответствует абсциссе, равной т х ;
3. при |х| ветви кривой распределения асимптотически приближаются 4. математическое ожидание случайной величины X, распределенной в соответствии с нормальным законом, совпадает по величине с ее модой и медианой;
5. коэффициенты асимметрии и эксцесса нормального распределения равны нулю.
При значении x = 1 и т х = 0 нормальную кривую называют нормированной, а соответствующий закон распределения — стандартным нормальным законом распределения с плотностью:
Пример 1.6. Среднее время обслуживания персонального компьютера (ПК) t = 2 ч.
Среднее квадратическое отклонение времени обслуживания равно t = 0,403 ч. Определить вероятность окончания обслуживания ПК в течение интервала времени от 1,5 до 2, 1. Вероятность попадания случайной величины t в интервал [1,5; 2,5] будет равна:
p(1,5 t 2,5) F (2,5) F (1,5) 3. По таблицам «Функция распределения для закона Гаусса» определим значение стандартной нормальной функции распределения:
4. Вероятность окончания обслуживания ПК в течение интервала времени [1,5; 2,5] будет равна: р( 1, 5 < t < 2,5) = Ф( z 2 ) - Ф(z1) = 0,892 - 0,107 = 0,785.
Гамма-распределение и распределение Эрланга Неотрицательная случайная величина X имеет гамма-распределение, если ее плотность распределения вычисляется по формуле:
Г (k) – гамма-функция:
Если k – целое неотрицательное число, то Г(k) = k!
Математическое ожидание случайной величины X, подчиненной гаммаk распределению, равно: mx При этом дисперсия величины Х определяется по формуле: Dx При целом k > 1 гамма-распределение превращается в распределение Эрланга k-го порядка, т. е.
Закону Эрланга k-го порядка подчинена сумма независимых случайных величин х1, + х 2 +... + х к, каждая из которых распределена но показательному закону с параметром.
При k = 1 гамма-распределение превращается в показательное с параметром.
Непрерывная случайная величина X имеет показательное распределение, если ее плотность распределения выражается формулой:.
Положительная величина является параметром показательного распределения.
Функция распределения случайной величины X выглядит следующим образом:
Графики функции и плотности показательного распределения приведены на рис. 1.8.
Рис. 1.8. Графики показательного распределения Математическое ожидание случайной величины X, имеющей показательное распределение, обратно его параметру, т. е. mx Дисперсия случайной величины X, имеющей показательное распределение, равна Dx Коэффициент вариации случайной величины Х, имеющей показательное Существует важное соотношение между пуассоновским и экспоненциальным распределениями. Если случайная величина подчинена закону Пуассона и представляет собой число отказов в единицу времени, то случайная величина, которая определяет промежуток времени между двумя последовательными отказами, распределена по экспоненциальному закону.
Экспоненциальное распределение можно, в сущности, вывести из распределения Пуассона.
Непрерывная случайная величина X имеет равномерное распределение на отрезке [a,b], если на этом отрезке плотность распределения постоянна, а вне его равна нулю.
Кривая равномерного распределения показана на рис. 1.9.
Рис. 1.9. Кривая равномерного распределения Значения f ( х ) в крайних точках а и b участка (а, b ) не указываются, так как вероятность попадания в любую из этих точек для непрерывной случайной величины X равна нулю.
Математическое ожидание случайной величины X, имеющей равномерab Вероятность попадания равномерно распределенной случайной величины X на участок [a, b]: P( X ).
Пример 1.7. Троллейбусы прибывают на остановку через 4 мин. Какова вероятность того, что время ожидания троллейбуса не превысит 3 мин?
Так как ( - ) = 3 мин., a ( b - а ) = 4 мин., то P(0< X t0) зависит только от ее состояния в настоящем (при t = t0) и не зависит от того, когда и каким образом система S пришла в это состояние.
Классификация марковских случайных процессов производится в зависимости от непрерывности или дискретности множества значений функции Х(t) и параметра t.
Различают следующие основные виды марковских случайных процессов:
с дискретными состояниями и дискретным временем (цепь Маркова);
с непрерывными состояниями и дискретным временем (марковские последовательности);
с дискретными состояниями и непрерывным временем (непрерывная с непрерывным состоянием и непрерывным временем.
Марковские процессы с дискретными состояниями удобно иллюстрировать с помощью графа состояний (рис. 1.10), где кружками обозначены состояния S1, S 2,…,системы S, а стрелками – возможные переходы из состояния в состояние. На графе отмечаются только непосредственные переходы, а не переходы через другие состояния. Возможные задержки в прежнем состоянии изображают «петлей», т. е. стрелкой, направленной из данного состояния в него же. Число состояний системы может быть как конечным, так и бесконечным (но счетным).
Рис. 1.10. Граф состояний системы S 1.2.2. Марковские цепи Марковский случайный процесс с дискретными состояниями и дискретным временем называют марковской цепью. Для такого процесса моменты t 1, t2,…, когда система S может менять свое состояние, рассматривают как последовательные шаги процесса, а в качестве аргумента, от которого зависит процесс, выступает не время t, а номер шага 1, 2,.... k,... Случайный процесс в этом случае характеризуется последовательностью состояний S(0), S(1), S ( 2 ), S ( k ), где S(0) – начальное состояние системы (перед первым шагом);
S(1) – состояние системы после первого шага; S(k) - состояние системы после k-го шага.
Событие { S ( k ) = Si}, состоящее в том, что сразу после k-го шага система находится в состоянии Si (i= 1, 2,...), является случайным событием. Последовательность состояний S(0), S(1),…,S ( k ) можно рассматривать как последовательность случайных событий. Такая случайная последовательность событий называется марковской цепью, если для каждого шага вероятность перехода из любого состояния Si в любое Sj не зависит от того, когда и как система пришла в состояние Si. Начальное состояние S(0) может быть заданным заранее или случайным.
Вероятностями состояний цепи Маркова называются вероятности Pj ( k ) того, что после k-го шага (и до ( k +1)-го) система S будет находиться в состоянии Si (i= 1, 2, …, п). Очевидно, для любого k Начальным распределением вероятностей марковской цепи называется распределение вероятностей состояний в начале процесса P1(0), P2(0), …, Pi(0), …, Pn(0).
В частном случае, если начальное состояние системы S в точности известно S ( 0 ) = S i, то начальная вероятность Pi(0)= 1, а все остальные равны нулю.
Вероятностью перехода (переходной вероятностью) на k-м шаге из состояния S i в состояние S j называется условная вероятность того, что система S после k-го шага окажется в состоянии S j при условии, что непосредственно перед этим (после k - 1 шага) она находилась в состоянии S i.
Поскольку система может пребывать в одном из п состояний, то для каждого момента времени t необходимо задать n2 вероятностей перехода Pij, которые удобно представить в виде матрицы переходных вероятностей:
где P i j - вероятность перехода за один шаг из состояния S i в состояние S j, Pij — вероятность задержки системы в состоянии S j.
Если переходные вероятности не зависят от номера шага (от времени), а зависят только от того, из какого состояния в какое осуществляется переход, то соответствующая цепь Маркова называется однородной.
Переходные вероятности однородной марковской цепи P i j образуют квадратную матрицу размера n x n, особенности которой заключаются в следующем:
1. каждая строка характеризует выбранное состояние системы, а ее элементы представляют собой вероятности всех возможных переходов за один шаг из выбранного (из i-го) состояния, в том числе и переход в самое себя;
2. элементы столбцов показывают вероятности всех возможных переходов системы за один шаг в заданное (j-е) состояние (иначе говоря, строка характеризует вероятность перехода системы из состояния, столбец – в состояние);
3. сумма вероятностей каждой строки равна единице, так как переходы образуют полную группу несовместных событий:
по главной диагонали матрицы переходных вероятностей стоят вероятности Р ij того, что система не выйдет из состояния S i, а останется в нем.
Если для однородной марковской цепи заданы начальное распределение вероятностей и матрица переходных вероятностей ||Р ij ||, то вероятности состояний системы P i ( k ) ( i 1, n ; j 1, n ) определяются по рекуррентной формуле:
Пример 1.8. Рассмотрим процесс функционирования системы - автомобиль. Пусть автомобиль (система) в течение одной смены (суток) может находиться в одном из двух состояний: исправном (S1) и неисправном ( S 2 ). Граф состояний системы представлен на рис. 1.11.
Рис. 1.11. Граф состояний автомобиля В результате проведения массовых наблюдений за работой автомобиля составлена следующая матрица вероятностей перехода:
где Р11 = 0,8 – вероятность того, что автомобиль останется в исправном состоянии;
Р12 = 0,2 – вероятность перехода автомобиля из состояния «исправен» в состояние «неисправен»;
Р 21 = 0.9 – вероятность перехода автомобиля из состояния «неисправен» в состояние «исправен»;
Р 22 = 0,1 – вероятность того, что автомобиль останется в состоянии «неисправен».
Вектор начальных вероятностей состояний автомобиля задан P(0), Требуется определить вероятности состояний автомобиля через трое суток.
Используя матрицу переходных вероятностей, определим вероятности состояний P i ( k ) после первого шага (после первых суток):
Р 1 (1) = Р1(0)*P11 + P2(0)* P21 = 0 * 0, 8 + 1 *0,9=0, Р 2 ( 1 ) = Р1(0)*Р12 + Р2(0)*Р 22 = 0 *0,2 + 1*0,1 = 0,1.
Вероятности состояний после второго шага (после вторых суток) таковы:
Р 1 ( 2 ) = Р1(1)* Р11 + Р2(1)* Р 21 = 0,9* 0,8 + 0,1*0,9 = 0,81;
Р2 (2) = Р1(1)*Р12 + Р2(1)* Р22 = 0,9* 0,2 + 0,1* 0,1 = 0,19.
Вероятности состояний после третьего шага (после третьих суток) равны:
Р1 (3) = Р1(2)* Р11+ Р2(2)* Р21 = 0,81* 0,8 + 0,19* 0,9 = 0,819;
Р2 (3) = Р1(2)* Р12 + Р2(2)* Р 22 = 0,81* 0,2 + 0,19 * 0,1 = 0,181.
Таким образом, после третьих суток автомобиль будет находиться в исправном состоянии с вероятностью 0,819 и в состоянии «неисправен» с вероятностью 0,181.
1.2.3. Непрерывные цепи Маркова Марковский случайный процесс с дискретными состояниями и непрерывным временем называется непрерывной цепью Маркова при условии, что переход системы из состояния в состояние происходит не в фиксированные, а в случайные моменты времени.
В экономике часто встречаются ситуации, которые указать заранее невозможно (например, любая деталь или агрегат автомобиля могут выйти из строя в любой, непредсказуемый заранее момент времени). Для описания таких систем в отдельных случаях можно использовать математический аппарат непрерывной цепи Маркова.
Пусть система характеризуется п состояниями S0, S 1, S2, …, S n, а переход из состояния в состояние может осуществляться в любой момент времени. Обозначим через Pi(t) вероятность того, что в момент времени t система S будет находиться в состоянии Si (i = 0,1,....,n). Требуется определить для люn бого t вероятности состояний P 0 (t), P 1 ( t ),.... Р n (t). Очевидно, что i Для процесса с непрерывным временем вместо переходных вероятностей Р ij рассматриваются плотности вероятностей перехода ij, представляющие собой предел отношения вероятности перехода системы за время t из состояния S i в состояние S j к длине промежутка t:
где Р ij (t, t) - вероятность того, что система, пребывавшая в момент t в состоянии S i за время t перейдет из него в состояние S j (при этом всегда i j).
Если ij = const то процесс называется однородным, если плотность вероятности зависит от времени ij = ij ( t ), то процесс - неоднородный. При рассмотрении непрерывных марковских процессов принято представлять переходы системы S из состояния в состояние как происходящие под влиянием некоторых потоков событий. Потоком событий называется последовательность однородных событий, следующих одно за другим через случайные интервалы времени. Плотность вероятности перехода интерпретируется как интенсивность ij соответствующих потоков событий. Если все эти потоки пуассоновские, то процесс, протекающий в системе S, будет марковским.
При изучении марковских случайных процессов с дискретными состояниями и непрерывным временем в графе состояний над стрелками, ведущими из состояния Si в Sj, проставляют соответствующие интенсивности ij. Такой граф состояний называют размеченным (рис. 1.12).
Рис. 1.12. Граф состояний системы Задачи по теме «Моделирование экономических систем с использованием марковских случайных процессов» представлены в Приложении учебного пособия.
1.3. Моделирование систем массового обслуживания 1.3.1. Компоненты и классификация моделей массового обслуживания Системы массового обслуживания – это такие системы, в которые в случайные моменты времени поступают заявки на обслуживание, при этом поступившие заявки обслуживаются с помощью имеющихся в распоряжении системы каналов обслуживания.
С позиции моделирования процесса массового обслуживания ситуации, когда образуются очереди заявок (требований) на обслуживание, возникают следующим образом. Поступив в обслуживающую систему, требование присоединяется к очереди других (ранее поступивших) требований. Канал обслуживание выбирает требование из находящихся в очереди, с тем чтобы приступить к его обслуживанию. После завершения процедуры обслуживания очередного требования канал обслуживании приступает к обслуживанию следующего требования, если таковое имеется в блоке ожидания.
Цикл функционирования системы массового обслуживания подобного рода повторяется многократно в течение всего периода работы обслуживающей системы. При этом предполагается, что переход системы на обслуживание очередного требования после завершения обслуживания предыдущего требования происходит мгновенно, в случайные моменты времени.
Примерами систем массового обслуживания могут служить: посты технического обслуживания автомобилей; посты ремонта автомобилей; персональные компьютеры, обслуживающие поступающие заявки или требования на решение тех или иных задач; станции технического обслуживания автомобилей; аудиторские фирмы; отделы налоговых инспекций, занимающиеся приемкой и проверкой текущей отчетности предприятий; телефонные станции и т. д.
Основными компонентами системы массового обслуживания любого вида являются: входной поток поступающих требований или заявок на обслуживание; дисциплина очереди; механизм обслуживания.
Входной поток требований. Для описания входного потока требуется задать вероятностный закон, определяющий последовательность моментов поступления требований на обслуживание и указать количество таких требований в каждом очередном поступлении.
Дисциплина очереди определяет принцип, в соответствии с которым поступающие на вход обслуживающей системы требования подключаются из очереди к процедуре обслуживания. Чаще всего используются дисциплины очереди, определяемые следующими правилами: первым пришел – первый обслуживаешься; пришел последним – обслуживаешься первым; случайный отбор заявок; отбор заявок по критерию приоритетности; ограничение времени ожидания момента наступления обслуживания (имеет место очередь с ограниченным временем ожидания обслуживания, что ассоциируется с понятием «допустимая длина очереди»).
Механизм обслуживания определяется характеристиками самой процедуры обслуживания и структурой обслуживающей системы. К характеристикам процедуры обслуживания относятся: продолжительность процедуры обслуживания; количество требований, удовлетворяемых в результате выполнения каждой такой процедуры; вероятность выхода обслуживающего прибора по истечении некоторого ограниченного интервала времени.
Структура обслуживающей системы определяется количеством и взаимным расположением каналов обслуживания (механизмов, приборов и т.
п.). Прежде всего следует подчеркнуть, что система обслуживания может иметь не один канал обслуживания, а несколько. Система такого рода способна обслуживать одновременно несколько требований. В этом случае все каналы обслуживания предлагают одни и те же услуги, и, следовательно, можно утверждать, что имеет место параллельное обслуживание.
Система обслуживания может состоять из нескольких разнотипных каналов обслуживания, через которые должно пройти каждое обслуживаемое требование, т. е. в обслуживающей системе процедуры обслуживания требований реализуются последовательно. Механизм обслуживания определяет характеристики выходящего (обслуженного) потока требований.
Рассмотрев основные компоненты систем обслуживания, можно констатировать, что функциональные возможности любой системы массового обслуживания определяются следующими основными факторами:
вероятностным распределением моментов поступлений заявок на обслуживание (единичных или групповых);
вероятностным распределением времени продолжительности обслуживания;
конфигурацией обслуживающей системы (параллельное, последовательное или параллельно-последовательное обслуживание);
количеством и производительностью обслуживающих каналов;
дисциплиной очереди;
мощностью источника требований.
В качестве основных критериев эффективности функционирования систем массового обслуживания в зависимости от характера решаемой задачи могут выступать:
вероятность немедленного обслуживания поступившей заявки;
вероятность отказа в обслуживании поступившей заявки;
относительная и абсолютная пропускная способность системы;
средний процент заявок, получивших отказ в обслуживании;
среднее время ожидания в очереди;
средняя длина очереди;
средний доход от функционирования системы в единицу времени и т.п.
Предметом теории массового обслуживания является установление зависимости между факторами, определяющими функциональные возможности системы массового обслуживания, и эффективностью ее функционирования. В большинстве случаев все параметры, описывающие системы массового обслуживания, являются случайными величинами или функциями, поэтому эти системы относятся к стохастическим системам.
Случайный характер потока заявок (требований), а также, в общем случае, и длительности обслуживания приводит к тому, что в системе массового обслуживания происходит случайный процесс. По характеру случайного процесса, происходящего в системе массового обслуживания (СМО), различают системы марковские и немарковские. В марковских системах входящий поток требований и выходящий поток обслуженных требований (заявок) являются пуассоновскими. Пуассоновские потоки позволяют легко описать и построить математическую модель системы массового обслуживания. Данные модели имеют достаточно простые решения, поэтому большинство известных приложений теории массового обслуживания используют марковскую схему. В случае немарковских процессов задачи исследования систем массового обслуживания значительно усложняются и требуют применения статистического моделирования, численных методов с использованием ЭВМ.
Независимо от характера процесса, протекающего в системе массового обслуживания, различают два основных вида СМО:
системы с отказами, в которых заявка, поступившая в систему в момент, когда все каналы заняты, получает отказ и сразу же покидает очередь;
системы с ожиданием (очередью), в которых заявка, поступившая в момент, когда все каналы обслуживания заняты, становится в очередь и ждет, пока не освободится один из каналов.
Системы массового обслуживания с ожиданием делятся на системы с ограниченным ожиданием и системы с неограниченным ожиданием.
В системах с ограниченным ожиданием может ограничиваться: длина очереди; время пребывания в очереди.
В системах с неограниченным ожиданием заявка, стоящая в очереди, ждет обслуживание неограниченно долго, т.е. пока не подойдет очередь.
Все системы массового обслуживания различают по числу каналов обслуживания: одноканальные системы; многоканальные системы.
Приведенная классификация СМО является условной. На практике чаще всего системы массового обслуживания выступают в качестве смешанных систем. Например, заявки ожидают начала обслуживания до определенного момента, после чего система начинает работать как система с отказами.
1.3.2. Определение характеристик систем массового обслуживания Простейшей одноканальной моделью с вероятностными входным потоком и процедурой обслуживания является модель, характеризуемая показательным распределением как длительностей интервалов между поступлениями требований, так и длительностей обслуживания. При этом плотность распределения длительностей интервалов между поступлениями требований имеет вид:
где - интенсивность поступления заявок в систему.
Плотность распределения длительностей обслуживания:
где - интенсивность обслуживания.
Потоки заявок и обслуживаний простейшие. Система работает с отказами.
Данная система массового обслуживания может быть представлена в виде графа (рис. 1.13), у которого имеются два состояния:
S0 - канал свободен (ожидание);
S1 - канал занят (идет обслуживание заявки).
Рис. 1.13. Граф состояний одноканальной СМО с отказами Обозначим вероятности состояний:
P0(t) — вероятность состояния «канал свободен»;
P1(t) — вероятность состояния «канал занят».
Для одноканальной СМО с отказами вероятность P0(t) есть не что иное, как относительная пропускная способность системы q. Действительно, P0— вероятность того, что в момент t канал свободен и заявка, пришедшая к моменту t, будет обслужена, а следовательно, для данного момента времени t среднее отношение числа обслуженных заявок к числу поступивших также равно P0(t), т.е. q P (t ) По истечении большого интервала времени (при t ) достигается стационарный (установившийся) режим:
Зная относительную пропускную способность, можно найти абсолютную. Абсолютная пропускная способность (А) – среднее число заявок, которое может обслужить система массового обслуживания в единицу времени:
Вероятность отказа в обслуживании заявки будет равна вероятности состояния «канал занят»:
Данная величина Pотк может быть интерпретирована как средняя доля необслуженных заявок среди поданных.
Пример 1.9. Пусть одноканальная СМО с отказами представляет собой один пост ежедневного обслуживания (ЕО) для мойки автомобилей. Заявка – автомобиль, прибывший в момент, когда пост занят – получает отказ в обслуживании. Интенсивность потока автомобилей 1,0 (автомобиль в час). Средняя продолжительность обслуживания - 1, часа. Поток автомобилей и поток обслуживаний являются простейшими.
Требуется определить в установившемся режиме предельные значения: относительной пропускной способности q; абсолютной пропускной способности А; вероятности отказа Pотк.
Необходимо сравнить фактическую пропускную способность СМО с номинальной, которая была бы, если бы каждый автомобиль обслуживался точно 1,8 часа и автомобили следовали один за другим без перерыва.
1. Определим интенсивность потока обслуживания:
2. Вычислим относительную пропускную способность:
Величина q означает, что в установившемся режиме система будет обслуживать примерно 35% прибывающих на пост ЕО автомобилей.
3. Абсолютную пропускную способность определим по формуле:
Это означает, что система (пост ЕО) способна осуществить в среднем 0,356 обслуживания автомобилей в час.
3. Вероятность отказа:
Это означает, что около 65% прибывших автомобилей на пост EO получат отказ в обслуживании.
4. Определим номинальную пропускную способность системы (автомобилей в час):
ная способность, вычисленная с учетом случайного характера потока заявок и времени обслуживания.
Рассмотрим одноканальную СМО с ожиданием.
Система массового обслуживания имеет один канал. Входящий поток заявок - простейший поток с интенсивностью. Интенсивность потока обслуживания равна (т. е. в среднем непрерывно занятый канал будет выдавать обслуженных заявок). Длительность обслуживания – случайная величина, подчиненная показательному закону распределения. Поток обслуживаний является простейшим пуассоновским потоком событий. Заявка, поступившая в момент, когда канал занят, становится в очередь и ожидает обслуживания.
Предположим, что независимо от того, сколько требований подступает на вход обслуживающей системы, данная система (очередь + обслуживаемые клиенты) не может вместить более N-требований (заявок), т. е. клиенты, не попавшие в ожидание, вынуждены обслуживаться в другом месте. Источник, порождающий заявки на обслуживание, имеет неограниченную (бесконечно большую) емкость.
Граф состояний СМО в этом случае имеет вид, показанный на рис 1.14.
Рис. 1.14. Граф состояний одноканальной СМО с ожиданием (схема гибели и размножения) Состояния СМО имеют следующую интерпретацию:
S0 — «канал свободен»;
S1— «канал занят» (очереди нет);
S2 — «канал занят» (одна заявка стоит в очереди);
………………………… Sn— «канал занят» (n — 1 заявок стоит в очереди);
………………………… SN — «канал занят» (N — 1 заявок стоит в очереди).
Стационарный процесс в системе будет описываться системой алгебраических уравнений, решение которой для модели СМО имеет вид:
Определим характеристики одноканальной СМО с ожиданием и ограниченной длиной очереди, равной (N- 1):
вероятность отказа в обслуживании заявки:
относительная пропускная способность системы:
абсолютная пропускная способность:
среднее число находящихся в системе заявок:
среднее время пребывания заявки в системе:
средняя продолжительность пребывания клиента (заявки) в среднее число заявок (клиентов) в очереди (длина очереди) Рассмотрим пример одноканальной СМО с ожиданием.
Пример 1.10. Специализированный пост диагностики представляет собой одноканальную СМО. Число стоянок для автомобилей, ожидающих проведения диагностики, ограниченно и равно 3 [(N-1) = 3]. Если все стоянки заняты, т. е. в очереди уже находится три автомобиля, то очередной автомобиль, прибывший на диагностику, в очередь на обслуживание не становится. Поток автомобилей, прибывающих на диагностику, распределен по закону Пуассона и имеет интенсивность = 0,85 (автомобиля в час). Время диагностики автомобиля распределено по показательному закону и в среднем равно 1,05 час.
Требуется определить вероятностные характеристики поста диагностики, работающего в стацио 1. Параметр потока обслуживаний автомобилей:
2. Приведенная интенсивность потока автомобилей определяется как отношение интенсивностей и, т. е.
3. Вычислим финальные вероятности системы:
4. Вероятность отказа в обслуживании автомобиля:
5. Относительная пропускная способность поста диагностики:
6. Абсолютная пропускная способность поста диагностики (автомобиля в час) 7. Среднее число автомобилей, находящихся на обслуживании и в очереди (т.е. в системе массового обслуживания):
8. Среднее время пребывания автомобиля в системе (час):
9. Средняя продолжительность пребывания заявки в очереди на обслуживание 10. Среднее число заявок в очереди (длина очереди):
Работу рассмотренного поста диагностики можно считать удовлетворительной, так как пост диагностики не обслуживает автомобили в среднем в 15,8% случаев ( Pотк 0,158 ).
Рассмотрим одноканальную СМО с ожиданием без ограничения на вместимость блока ожидания (т. е. N ). Остальные условия функционирования СМО остаются без изменений.
Характеристики одноканальной СМО с ожиданием, без ограничения на длину очереди, следующие:
средняя продолжительность пребывания клиента в системе:
среднее число клиентов в очереди на обслуживании:
средняя продолжительность пребывания клиента в очереди:
Пример 1.11. Специализированный пост диагностики представляет собой одноканальную СМО. Пост диагностики располагает неограниченным количеством площадок для стоянки прибывающих на обслуживание автомобилей, т. е. длина очереди не ограничена. Поток автомобилей, прибывающих на диагностику, распределен по закону Пуассона и имеет интенсивность = 0,85 (автомобиля в час). Время диагностики автомобиля распределено по показательному закону и в среднем равно 1,05 час.
Требуется определить финальные значения следующих вероятностных характеристик: вероятности состояний системы (поста диагностики); среднее число автомобилей, находящихся в системе (на обслуживании и в очереди); среднюю продолжительность пребывания автомобиля в системе (на обслуживании и в очереди); среднее число автомобилей в очереди на обслуживании; среднюю продолжительность пребывания автомобиля в очереди.
1. Параметр потока обслуживания и приведенная интенсивность потока автомобилей определены в примере 1.10:
2. Вычислим предельные вероятности системы по формулам Следует отметить, что P0 определяет долю времени, в течение которого пост диагностики вынужденно бездействует (простаивает). В нашем примере она составляет 10,7%, так как P0= 0,107.
3. Среднее число автомобилей, находящихся в системе (на обслуживании и в очереди):
4. Средняя продолжительность пребывания клиента в системе (час):
5. Среднее число автомобилей в очереди на обслуживание:
6. Средняя продолжительность пребывания автомобиля в очереди (час):
7. Относительная пропускная способность системы:
т. е. каждая заявка, пришедшая в систему, будет обслужена.
8. Абсолютная пропускная способность:
В подавляющем большинстве случаев на практике системы массового обслуживания являются многоканальными, и, следовательно, модели с n обслуживающими каналами (где n > 1) представляют несомненный интерес.
Процесс массового обслуживания, описываемый данной моделью, характеризуется интенсивностью входного потока, при этом параллельно может обслуживаться не более n клиентов (заявок). Средняя продолжительность обслуживания одной заявки равняется 1/. Входной и выходной потоки являются пуассоновскими. Режим функционирования того или иного обслуживающего канала не влияет на режим функционирования других обслуживающих каналов системы, причем длительность процедуры обслуживания каждым из каналов является случайной величиной, подчиненной экспоненциальному закону распределения. Конечная цель использования n параллельно включенных обслуживающих каналов заключается в повышении (по сравнению с одноканальной системой) скорости обслуживания требований за счет обслуживания одновременно n клиентов.
Граф состояний многоканальной системы массового обслуживания с отказами имеет вид, показанный на рис. 3. Рис. 1.15. Граф состояний многоканальной СМО с отказами Состояния данной СМО имеют следующую интерпретацию:
S0 — все каналы свободны;
S1— занят один канал, остальные свободны;
Sk – заняты ровно k каналов, остальные свободны;
………………………… Sn – заняты все n каналов, заявка получает отказ в обслуживании.
Начальные условия решения системы таковы:
P0(0) = 1, P1(0) = P2(0) = … = Pk(0) = … = Pn(0) = Стационарное решение системы имеет вид:
Формулы для вычисления вероятностей Pk называются формулами Эрланга.
Вероятностные характеристики функционирования многоканальной СМО с отказами в стационарном режиме:
вероятность отказа (заявка получает отказ, если приходит в момент, когда все n каналов заняты. Величина Pотк характеризует полноту обслуживания входящего потока):
вероятность того, что заявка будет принята к обслуживанию (она же — относительная пропускная способность системы q) дополняет Pотк абсолютная пропускная способность:
среднее число каналов, занятых обслуживанием ( k ) следующее:
Величина k характеризует степень загрузки СМО.
Пример 1.12. Пусть n-канальная СМО представляет собой вычислительный центр (ВЦ) с тремя (n = 3) взаимозаменяемыми ПЭВМ для решения поступающих задач. Поток задач, поступающих на ВЦ, имеет интенсивность = 1 задаче в час. Средняя продолжительность обслуживания tобсл = 1,8 час. Поток заявок на решение задач и поток обслуживания этих заявок являются простейшими.
Требуется вычислить финальные значения: вероятности состояний ВЦ; вероятности отказа в обслуживании заявки; относительной пропускной способности ВЦ; абсолютной пропускной способности ВЦ; среднего числа занятых ПЭВМ на ВЦ.
1. Определим параметр потока обслуживаний:
2. Приведенная интенсивность потока заявок:
3. Предельные вероятности состояний найдем по формулам Эрланга:
4. Вероятность отказа в обслуживании заявки:
5. Относительная пропускная способность ВЦ:
6. Абсолютная пропускная способность ВЦ:
7. Среднее число занятых каналов — ПЭВМ:
Таким образом, при установившемся режиме работы СМО в среднем будет занято 1,5 компьютера из трех — остальные полтора будут простаивать. Работу рассмотренного ВЦ вряд ли можно считать удовлетворительной, так как центр не обслуживает заявки в среднем в 18% случаев (P3— 0,180). Очевидно, что пропускную способность ВЦ при данных и можно увеличить только за счет увеличения числа ПЭВМ.
Рассмотрим многоканальную систему массового обслуживания с ожиданием. Процесс массового обслуживания при этом характеризуется следующим: входной и выходной потоки являются пуассоновскими с интенсивностями и соответственно; параллельно обслуживаться могут не более С клиентов. Система имеет С каналов обслуживания. Средняя продолжительность обслуживания одного клиента равна 1/µ.
В установившемся режиме функционирование многоканальной СМО с ожиданием и неограниченной очередью может быть описано с помощью системы алгебраических уравнений, решение которой имеет вид:
Вероятностные характеристики функционирования в стационарном режиме многоканальной СМО с ожиданием и неограниченной очередью определяются по следующим формулам:
вероятность того, что в системе находится n клиентов на обслуживании, определяется по формулам:
среднее число клиентов в очереди на обслуживание среднее число находящихся в системе клиентов (заявок на обслуживание и в очереди) средняя продолжительность пребывания клиента (заявки на обслуживание) в очереди средняя продолжительность пребывания клиента в системе Пример 1.13. Механическая мастерская завода с тремя постами (каналами) выполняет ремонт малой механизации. Поток неисправных механизмов, прибывающих в мастерскую, — пуассоновский и имеет интенсивность = 2,5 механизма в сутки, среднее время ремонта одного механизма распределено по показательному закону и равно t = 0, сут. Предположим, что другой мастерской на заводе нет, и, значит, очередь механизмов перед мастерской может расти практически неограниченно.
Требуется вычислить следующие предельные значения вероятностных характеристик системы: вероятности состояний системы; среднее число заявок в очереди на обслуживание; среднее число находящихся в системе заявок; среднюю продолжительность пребывания заявки в очереди; среднюю продолжительность пребывания заявки в системе.
Решение 1. Определим параметр потока обслуживаний: Поскольку / c, то очередь не растет безгранично и в системе наступает предельный стационарный режим работы.
3. Вычислим вероятности состояний системы:
4. Вероятность отсутствия очереди у мастерской:
5. Среднее число заявок и очереди ни обслуживание:
6. Среднее число находящихся в системе заявок:
Средняя продолжительность пребывания механизма в очереди на обслуживаLq 0, 8. Средняя продолжительность пребывания механизма в мастерской (суток):
Задачи по теме «Моделирование систем массового обслуживания»
представлены в Приложении 1 учебного пособия.
2. СТАТИСТИЧЕСКОЕ МОДЕЛИРОВАНИЕ ЭКОНОМИЧЕСКИХ СИСТЕМ
2.1. Статистические показатели. Средние величины и изучение вариации Статистический показатель – это обобщающая характеристика какого-то свойства совокупности, группы. Этим он отличается от индивидуальных значений, которые называются признаками (например, средняя продолжительность ожидаемой жизни родившегося поколения в стране – статистический показатель, а продолжительность жизни конкретного человека – признак).Статистический показатель имеет указание на территориальные границы объекта и границы во времени.
Объектами статистического исследования могут быть самые разнообразные явления и процессы. Поэтому чрезвычайно велико и разнообразие статистических показателей.
Показатели конкретных свойств изучаемого объекта – это, например, средний возраст работников предприятия, объем реализованной продукции предприятия, валовой внутренний продукт государства и т.д. Особенностью этих показателей является то, что они формируются не только статистикой.
В построении этих показателей их качественное содержание определяется конкретной предметной наукой: показатель рождаемости – демографией, показатель внутреннего валового продукта – теорией экономики.
Качественный экономический анализ должен быть основан не на отдельных показателях, а на системе показателей. При этом нужно следовать определенным принципам их построения. Особые сложности возникают, когда показатель должен обобщить разнонаправленные значения (положительные, отрицательные, нулевые).
Статистика изучает массовые явления и процессы. Каждое из таких явлений обладает как общими для всей совокупности, так и особенными, индивидуальными свойствами. Различие между индивидуальными явлениями называют вариацией.
Главное значение средних величин состоит в их обобщающей функции, то есть замене множества различных индивидуальных значений признака средней величиной, характеризующей всю совокупность явлений.
Виды средних величин различаются прежде всего тем, какое свойство, какой параметр исходной варьирующей массы индивидуальных значений признака должен быть сохранен неизменным.
Средней арифметической величиной называется такое значение признака в расчете на единицу совокупности, при вычислении которого общий объем признака в совокупности сохраняется неизменным (например, средняя заработная плата, средний доход и т.д.). Формула средней арифметической величины имеет вид:
где – средняя величина;
n – численность совокупности.
Если при замене индивидуальных величин признака на среднюю величину необходимо сохранить неизменной сумму квадратов исходных величин, то средняя будет являться квадратической средней величиной ( кв). Ее формула такова:
Пример 2.1. Имеются три участка земельной площади со сторонами квадрата: Х1 = 100м, Х2 = 200 м, Х3 = 300 м. Найти среднюю длину участка.
Заменяя разные значения длины сторон на среднюю, мы, очевидно, должны исходить из сохранения общей площади всех участков. Арифметическая средняя величина (100+200+300)/3 = 200 м не удовлетворяет этому условию, так как общая площадь трех участков со стороной 200 м была бы равна 3*(200 м)2 = 120 000 м2. В то же время площадь исходных трех участков равна: (100м)2+(200м)2+(300м)2 = 140000м2. Правильный ответ дает квадратическая средняя:
Если при замене индивидуальных величин признака на среднюю величину необходимо сохранить неизменными произведение индивидуальных величин, то следует применить геометрическую среднюю величину. Ее формула такова:
Основное применение геометрическая средняя находит при определении средних темпов роста.
Пример 2.2. В результате инфляции за первый год цена товара возросла в 2 раза к предыдущему году, а за второй год еще в 3 раза к уровню предыдущего года. Каков средний темп роста цены за год?
Ясно, что за два года цена выросла в 6 раз. Арифметическая средняя здесь непригодна, ибо если за год цены возросли бы в (2+3)/2 = 2,5 раза, то за два года цена возросла бы в 2,5*2,5 = 6,25 раза, а не в 6 раз. Геометрическая средняя дает правильный ответ: 6 = 2,45 раза.
Геометрическая средняя величина дает наиболее правильный результат осреднения, если задача состоит в нахождении такого значения признака, который качественно был бы равноудален как от максимального, так и от минимального значения признака.
Пример 2.3. Максимальный размер выигрыша в лотерее составляет 1 000 000 руб., а минимальный – 100 руб. Какую величину выигрыша можно считать средней?
Решение Средняя арифметическая явно непригодна, она составляет 500 050 руб., а это, как и 1 000 000 руб., крупный, никак не средний выигрыш – он качественно однороден с максимальным и резко отличен от минимального. Геометрическая средняя дает верный с точки зрения экономики и логики ответ: 100 1 000 000 = 10 000 руб.
Если по условиям задачи необходимо, чтобы при осреднении неизменной оставалась сумма величин, обратных индивидуальным значениям признака, то средняя величина является гармонической средней. Формула ее такова:
Пример 2.4. Автомобиль с грузом от предприятия до склада ехал со скоростью км/ч, а обратно порожняком со скорость 60 км/ч. Какова средняя скорость автомобиля за обе поездки?
Пусть расстояние перевозки составляло S км. Никакой роли при расчете средней скорости величина S не играет. При замене индивидуальных значений скорости Х1 = 60 и Х2 =40 на среднюю величину необходимо, чтобы неизменной величиной осталось время, затраченное на обе поездки.
Время поездок есть S/X1 + S/X2. Итак, S/Xср + S/Xср = S/X1 + S/X2. Сократив все члены равенства на S, получим: 1/Xср + 1/Xср = 1/X1 + 1/X2, т.е. выполняется условие гармонической средней. Подставляя Х1 и Х2, получаем Хср = 48 км/ч Арифметическая средняя 50 км/ч неверна, так как приводит к другому времени движения, чем на самом деле.
Существует следующее соотношение, которое называется правилом мажорантности средних:
2.2. Индексы В статистике индексы пользуются в качестве показателей изменений.
Индекс – это показатель сравнения двух состояний одного и того же явления (простого или сложного, состоящего из соизмеримых или несоизмеримых элементов). Индексы измеряют изменения сложных явлений. С их помощью можно не только дать обобщенную оценку изменения, но и выявить роль отдельных факторов.
Индексы являются показателями сравнения как с прошлым периодом, так и с другой территорией, а также с некоторым нормативом или плановым заданием.
Каждый индекс включает отчетные и базисные данные.
Сравнение с отдаленной базой может быть проведено непосредственно с помощью базисного индекса, охватывающего весь период, или поэтапно – с помощью цепных индексов.
Индексы подразделяются на сводные (общие) и обозначается как I, и индивидуальные – обозначается i.
Часто можно слышать, что уровень потребительских цен понизился или повысился. Речь в этом случае идет об индексе цен на потребительские товары. Общее изменение образуется под влиянием изменений цен на отдельные товары. Таким образом, имеется ряд отношений:
где pij – цены на товар j в период времени i.
Эти отношения не что иное, как индивидуальные индексы, и сводный индекс представляет собой средний из них:
где j – номер товара.
На практике, если говорить конкретно об измерении динамики цен на все продовольственные или непродовольственные товары, то ясно, что если, например, цены на ювелирные изделия из золота удвоятся, а цены на хлеб останутся неизменными, это не значит, что в целом цены выросли на 50% ((2+1)/2=1,5). Таким образом, индекс цен для каждого товара должен сопровождаться неким «весом», которые позволяет оценить относительную значимость этого индекса для потребителя. В качестве веса используют удельный вес в общей стоимости покупок в базисном периоде:
где qoj – объем потребления товара j.
Если обозначить удельный вес отдельных затрат doi, то получим общий индекс цен как средний арифметический взвешенный из индивидуальных индексов цен:
Каждый сводный индекс может быть представлен как средний из индивидуальных. В этом смысле, как и любая средняя, сводный индекс характеризует центральную тенденцию. Значение индекса среднего из индивидуальных зависит от изменений осредняемых индивидуальных индексов и от изменений признака-веса.
Пример 2.5. Цены на товары A, B, C, D, E составили в базисном периоде 10, 15, 20, 25, 30 руб. соответственно, в отчетном периоде – 11, 30, 28, 40, 27 руб. Доля товаров в базисной выручке – 15, 26, 19, 25, 15 % соответственно. Рассчитать невзвешенный и взвешенный средний индекс цен.
Составим таблицу 2.1 для расчета индексов.
Среднее значение веса: = = 0, Индексы считаются правильно построенными, если они удовлетворяют ряду тестов: обратимости во времени; обратимости по факторам; «кружному» испытанию; соизмеримости; пропорциональности; включенияисключения.
Индексы широко используются для анализа изменений средних взвешенных величин (средней, заработной платы, производительности труда, трудоемкости и т.д.).
2.3. Парная регрессия и корреляция в экономических исследованиях 2.3.1. Линейная регрессия и корреляция: смысл и оценка параметров Большинство явлений и процессов в экономике находятся в постоянной взаимной связи. Исследование взаимозависимостей между объективно существующими явлениями играет большую роль в экономике. Оно дает возможность глубже понять сложный механизм причинно-следственных отношений между явлениями. Для исследования интенсивности, вида и формы зависимостей широко применяется корреляционно-регрессионный анализ, который является методическим инструментарием при решении задач прогнозирования, планирования и анализа хозяйственной деятельности предприятий.
Различают два типа связей между различными явлениями и их признаками: функциональную или жестко детерминированную и статистическую или стохастически детерминированную.
Функциональная связь двух величин возможна лишь при условии, что вторая из них зависит только от первой. В реальной природе, обществе, экономике такие связи крайне редки.
Если с изменением значения одной из переменных вторая может в определенных пределах принимать любые с некоторыми вероятностями, но ее среднее значение или иные статистические (массовые) характеристики изменяются по определенному закону, связь является статистической. То есть при статистической связи разным значениям одной переменной соответствуют разные распределения значений другой переменной.
Корреляционной связью называют важнейший частный случай статистической связи, состоящий в том, что разным значениям одной переменной соответствуют различные средние значения другой. С изменением значения признака X закономерным образом изменяется среднее значение признака Y, в то время как в каждом отдельном случае значение признака Y (с различными вероятностями) может принимать множество различных значений.
Если же с изменением значения признака Х среднее значение признака Y не изменяется закономерным образом, но закономерно изменяется другая статистическая характеристика (показатели вариации, асимметрии, эксцесса и т.п.), то связь является не корреляционной, а статистической.
Статистическая связь между двумя признаками (переменными величинами) предполагает, что каждый из них имеет случайную вариацию индивидуальных значений относительно средней величины. Если же такую вариацию имеет только один из признаков, а значения другого являются жестко детерминированными, то говорят лишь о регрессии (например, при анализе динамических рядов можно измерять регрессию уровней ряда урожайности в зависимости от различных лет). Таким образом, односторонняя вероятностная зависимость между случайными величинами есть регрессия.
Регрессия относительно числа переменных может быть простой (регрессия между двумя переменными) и множественной (регрессия между зависимой переменной Y и несколькими объясняющими переменными (x1, x2, … xm)).
Относительно формы зависимости регрессия бывает линейной (выражается линейной функцией) и нелинейной (выражается нелинейной функцией).
При использовании на практике корреляционно-регрессионного метода необходимо выполнение следующих условий:
наличие данных по достаточно большой совокупности, число которых зависит от цели анализа, требуемой точности и надежности параметров связи, от числа факторов, корреляция с которыми изучается. Обычно считается, что число наблюдений должно быть в 5-10 раз больше числа надежное выражение закономерности в средней величине;
необходимость подчинения распределения совокупности по результативному и факторным признакам нормальному закону распределения вероятностей.
В соответствии с сущностью корреляционной связи ее изучение ставит следующие основные задачи:
измерение параметров уравнения, выражающего связь средних значений зависимой переменной со значениями независимой переменной – одной или нескольких (зависимость средних величин результативного признака от значений одного или нескольких факторных признаков);
измерение тесноты связи двух (или большего числа признаков между Первая задача решается оценкой параметров уравнения регрессии. Вторая - расчетом коэффициентов корреляции.
Поясним на графике (рис. 2.1, а и б) различия между корреляцией и регрессией.
Угол наклона линии регрессии относительно оси абсцисс один и тот же на рисунках а и б. Однако, на рисунке а точки корреляционного поля концентрируются около линии регрессии, тогда как на рисунке б точки поля корреляции разбросаны. Очевидно, что теснота связи, то есть мера корреляции между х и у, в случае а будет высокой, а в случае б – низкой. Следовательно, уравнение регрессии в случае а будет статистически значимо, а в случае б оно может быть статистически незначимо. Таким образом, случаи а и б различаются величиной коэффициентов корреляции, но в то же время будут иметь одинаковые коэффициенты регрессии:
Рис. 2.1. Регрессия при разной интенсивности корреляции:
а – тесная корреляция; б – слабая корреляция Вторая задача специфична для статистических связей, а первая разработана для функциональных связей и является общей. Основным методом решения задачи нахождения параметров уравнения связи является метод наименьших квадратов (МНК), разработанный К. Ф. Гауссом (1777—1855). Он состоит в минимизации суммы квадратов отклонений фактически измеренных значений зависимой переменной у от ее значений, вычисленных по уравнению связи с факторным признаком, одним или несколькими, х.
Для измерения тесноты связи применяется ряд показателей. При парной связи теснота связи измеряется прежде всего корреляционным отношением, которое обозначается греческой буквой. Квадрат корреляционного отношения – это отношений межгрупповой дисперсии результативного признака, которая выражает влияние различий группировочного факторного признака на среднюю величину результативного признака, к общей дисперсии результативного признака, выражающей влияние на него всех причин и условий.
Квадрат корреляционного отношения называется коэффициентом детерминации:
где k – число групп по факторному признаку;
– общее среднее значение;
fj – частота в j-й группе;
n – число единиц в совокупности;
yi – значение результативного признака для i-й единицы;
yi – среднее значение y в j-ой группе.
Простейшей системой корреляционной связи является линейная связь между двумя – парная линейная корреляция.
Практическое ее значение в том, что есть системы, в которых среди всех факторов, влияющих на результативный признак, выделяется один важнейший фактор, который в основном определяет вариацию результативного признака. Измерение парных корреляций составляет необходимый этап в изучении сложных многофакторных связей.
Уравнение парной линейной корреляционной связи называется уравнением парной регрессии и имеет вид:
где y – среднее значение результативного признака у при определенном значении факторного признака х;
а – свободный член уравнения;
b – коэффициент регрессии, измеряющий среднее отношение отклонения результативного признака от его средней величины к отклонению факторного признака от его средней величины на одну единицу его измерения, - вариация у, приходящаяся на единицу вариации х.
Параметры уравнения рассчитываются методом наименьших квадратов (МНК) по данным о значениях признаков x и y в изучаемой совокупности, состоящей из n единиц.
Исходное условие МНК для прямой линии имеет вид:
Для отыскания значений параметров а и b, при которых f (a,b) принимает минимальное значение, частные производные функции приравниваем к нулю и преобразуем полученные уравнения, которые называются нормальными уравнениями МНК для прямой:
Отсюда система нормальных уравнений имеет вид:
Путем преобразований получаем:
Коэффициент парной линейной регрессии, обозначенный b, имеет смысл показателя силы связи между вариацией факторного признака х и вариацией результативного признака у. Он измеряет среднее по совокупности отклонение y от его средней величины при отклонении признака х от своей средней величины на принятую единицу измерения.
Теснота парной линейной корреляционной связи, как и любой другой формы связи, может быть измерена корреляционным отношением. Кроме того, при линейной форме уравнения применяется другой показатель тесноты связи – коэффициент корреляции ryx. Этот показатель представляет собой стандартизованный коэффициент регрессии, то есть коэффициент, выраженный не в абсолютных единицах измерения признаков, а в долях среднего квадратического отклонения результативного признака:
Коэффициент корреляции может принимать значения -1 r 1; по абсолютной величине 0 |r| 1. Отрицательные значения ryx свидетельствуют об обратной связи признаков у и x, положительные – о прямой связи.
Обычно считают связь сильной, если r > 0,7; средней – при 0,5 < r < 0,7;
слабой – при r < 0,5. Максимально тесная связь – это связь функциональная:
rxy_max = 1.
Пример 2.6. Рассмотрим анализ корреляционной парной линейной связи по данным 16 сельскохозяйственных предприятий о затратах на 1 корову и надое молока на 1 корову (таблица 2.2).
Средние значения признаков: = 1605 руб.\голов, = 35,2 ц/голов.
Сопоставляя знаки отклонений признаков x и y от средних величин, видим явное преобладание совпадающих по знакам пар отклонений: их 14, и только 2 пары, несовпадающих знаков.
Немецкий психиатр Г. Т. Фехнер предложил меру тесноты связи в виде отношения разности числа совпадающих и несовпадающих знаков пар отклонений к сумме этих чисел:
КФехнера = (С – Н)/(С + Н) = (14 – 2)/ (14 + 2) = 0, Коэффициент Фехнера – очень грубый показатель тесноты связи, не учитывающий величину отклонений признаков от средних значений, но он может служить некоторым ориентиром в оценке интенсивности связи. В данном случае значение коэффициента указывает на тесную связь признаков.
Вычислим на основе итоговой строки табл. 2.2 параметр уравнения парной линейной корреляции – коэффициент регрессии:
Он означает, что в среднем по изучаемой совокупности отклонение затрат на 1 корову от средней величины на 1 руб. приводило к отклонению с тем же знаком среднего надоя молока на 0,0347 ц, т.е. на 3,47 кг на корову.
Корреляция между затратами на 1 корову и надоем молока в среднем от 1 коровы Источник: Елисеева И.И., Юзбашев М.М. Общая теория статистики.
Свободный член уравнения регрессии: а = 35,2 - 0,0347 * 1605 = -20, Уравнение регрессии в целом имеет вид: = 0,0347x - 20,49 (рис. 2.2).
Отрицательная величина свободного члена уравнения означает, что область существования признака у не включает нулевого значения признака х и близких к нулю значений.
Можно рассчитать минимально возможную величину фактора x, при котором обеспечивается наименьшее значение признака y.
- это наименьшая сумма затрат на 1 корову, при которых корова способна давать молоко.
Если же область существования результативного признака включает нулевое значение признака-фактора, то свободный член является положительным и означает среднее значение результативного признака при отсутствии данного фактора, например, среднюю урожайность картофеля при отсутствии органических удобрений.
Коэффициент корреляции равен:
Полученное в примере значение 0,916 свидетельствует об очень тесной связи надоев молока с затратами в расчете на 1 корову.
Полученное значение гораздо больше коэффициента Фехнера. Квадрат коэффициента корреляции, т.е. коэффициент детерминации, составил 0,839, или 83,9%. Отсюда можно сделать вывод о том, что вариация надоев молока на 1 корову связана с вариацией затрат в хозяйствах, произведенных в среднем на 1 корову.
Рис. 2.2. Зависимость удойности от затрат на содержание коров Показатели корреляционной связи, вычисленные по ограниченной совокупности (по выборке), являются лишь оценками той или иной статистической закономерности, поскольку в любом параметре сохраняется элемент не полностью погасившейся случайности, присущей индивидуальным значения признаков. Поэтому необходима статистическая оценка степени точности и надежности параметров корреляции. Под надежностью здесь понимается вероятность того, что значение проверяемого параметра не равно нулю, не включает в себя величины противоположных знаков.
Вероятностная оценка параметров корреляции проводится по общим правилам проверки статистических гипотез, разработанным математической статистикой, в частности путем сравнения оцениваемой величины со средней случайной ошибкой оценки. Для коэффициента парной регрессии bсредняя ошибка оценки вычисляется как:
где - расчетные значения результативного признака для i-й единицы;
n-2 – число степеней свободы (теряются 2 степени свободы, поскольку линейная парная регрессия имеет два параметра).
Зная среднюю ошибку оценки коэффициента регрессии можно вычислить вероятность того, что нулевое значение коэффициента входит в интервал возможных с учетом ошибки значений. С этой целью находится отношение коэффициента к его средней ошибке, т. е.t-критерий Стъюдента Расчетное значение t-критерия Стъюдента сравнивается с табличным (таблицы в справочной литературе «Значения t-критерия Стъюдента при уровнях значимости 0,10; 0,05; 0,01»).
Если полученное (расчетное) значение критерия намного больше табличного, то вероятность нулевого значения коэффициента регрессии меньше 10%, 5% или 1 % (в зависимости от выбранного уровня значимости), и, соответственно, в сконструированной регрессионной модели влияние факторааргумента х на фактор-результат y существенно.
Пример 2.7. На основе данных из примера 2.6 вычислим среднюю ошибку оценки коэффициента регрессии:
Зная среднюю ошибку оценки коэффициента регрессии, вычислим вероятность того, что нулевое значение коэффициента входит в интерал возможных с учетом ошибки значений. С этой целью найдем соотношение коэффициента к его средней ошибке, т.е. tкритерий Стъюдента:
Табличное значение t-критерия Стьюдента при 16-2 степенях свободы и уровне значимости 0,01 (см. таблицы «Значения t-критерия Стъюдента при уровнях значимости 0,10;
0,05; 0,01») составляет 2,98. Полученное значение критерия намного больше, следовательно, вероятность нулевого значения коэффициента регрессии менее 0,01. Гипотезу о несущественности этого коэффициента можно отклонить: данные табл. 2.2 надежно говорят о влиянии вариации затрат на 1 корову на вариацию надоя молока от коров.
2.3.2. Интервальный прогноз на основе линейного уравнения регрессии Уравнение регрессии применимо и для прогнозирования возможных ожидаемых значений результативного признака. При этом следует учесть, что перенос (экстраполяция) закономерности связи, измеренной в варьирующей совокупности в статике на динамику не является, строго говоря, корректным и требует проверки условий допустимости такого решения, которое выходит за рамки статистики и может быть сделано только специалистом, хорошо знающим объект (систему) и возможности его развития.
Ограничением прогнозирования на основе регрессионного уравнения, тем более парного, служит условие стабильности или по крайней мере малой изменчивости других факторов и условий изучаемого процесса, не связанных с ними. Если резко изменится «внешняя среда» протекающего процесса, прежнее уравнение регрессии результативного признака потеряет свое значение.
При таком прогнозировании следует соблюдать еще одно ограничение:
нельзя подставлять значения факторного признака, значительно отличающиеся от входящих, в базисную информацию, по которой вычислено уравнение регрессии. При качественно иных уровнях фактора, если они возможны в принципе, параметры уравнения были бы другими. Можно рекомендовать при определении значений факторов не выходить за пределы 1/3 размаха вариации как минимального, так и максимального значения признака-фактора, имеющегося в исходной информации.
Прогноз, полученный подстановкой в уравнение регрессии ожидаемого значения фактора, называют точечным прогнозом. Вероятность точной реализации такого прогноза крайне мала. Необходимо сопроводить его значением средней ошибки прогноза, или доверительным интервалом прогноза, с достаточно большой вероятностью. Средняя ошибка положения линии регрессии в генеральной совокупности при значении факторного признака, равном xk, вычисляется следующим образом:
где ( ) - средняя ошибка положения линии регрессии в генеральной совокупности при x=xk;
_ост – оценка среднего квадратического отклонения результативного признака от линии регрессии в генеральной совокупности с учетом степеней свободы вариации;
xk — ожидаемое значение фактора;
– среднее значение фактора по совокупности;
n — объем выборки.
Для вычисления доверительных границ прогноза линии регрессии нужно умножить ее среднюю ошибку на t-критерий Стьюдента (табличное значение при различных степенях свободы и уровне значимости).
Средняя ошибка прогноза для индивидуального значения по правилу дисперсии суммы независимых переменных образуется из ошибки прогноза положения линии регрессии и среднего квадратического отклонения индивидуальных значений от линии регрессии (остаточной вариации), т.е.
Главным источником ошибки (неопределенности) прогноза индивидуальных значений является не столько неопределенность прогноза линии регрессии, сколько значительная вариация надоев за счет других факторов, кроме входящих в уравнение регрессии.
Пример 2.8. Рассчитать точечный прогноз и доверительные границы прогноза индивидуальных значений надоя молока на 1 корову при расходе 2200 руб. на 1 голову (по данным примера 2.6).
Прогнозируемое значение результативного показателя получается при подстановке в уравнение регрессии ожидаемой величины факторного признака. Так, если подставить в уравнение = 0,0347x - 20,49 расход средств на одну корову, равный 2200 руб., то получим ожидаемый надой молока от коровы, равный 55,85 ц.
Сопроводим полученный точечный прогноз доверительным интервалом прогноза.
По данным табл. 2.2 находим _ост:
При xk = 2200 руб. на 1 голову имеем:
Для вычисления доверительных границ прогноза линии регрессии нужно умножить ее среднюю ошибку на t-критерий Стьюдента. При 14 степенях свободы и доверительной вероятности 0,95 ( = 0,05) значение t-критерия равно 2,14. Получаем доверительные границы: 55,85 ± 2,629 *2,14, или от 50,22 до 61,48 ц от 1 коровы. Интервал довольно широкий. Значительная неопределенность прогноза линии регрессии связана с малым объемом выборки. При объеме совокупности, равном 400, и той же вариации надоев ошибка прогноза была бы в 5 раз меньше и доверительный интервал был бы уже.
Средняя ошибка прогноза для индивидуального значения:
Доверительные границы прогноза индивидуальных значений надоя молока на 1 корову при расходе 2200 руб. на 1 голову составляют с вероятностью нахождения внутри границ, равной 0,95:
55,85 ± 4,568 *2,14, или от 46,07 до 65,63 ц.
2.3.3. Нелинейная регрессия Если между общественными и экономическими явлениями существуют нелинейные соотношения, то они выражаются с помощью соответствующих нелинейных функций: например, равносторонней гиперболы, параболы второй степени и др.
Различают два класса нелинейных регрессий:
регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам;
регрессии, нелинейные по оцениваемым параметрам.
Примером нелинейной регрессии по включенным в нее объясняющим переменным могут служить следующие функции:
равносторонняя гипербола: = + +.
К нелинейным регрессиям по оцениваемым параметрам относятся функции:
Нелинейная регрессия по включенным параметрам не имеет никаких сложностей для оценки ее параметров. Они определяются, как в линейной регрессии, методом наименьших квадратов, ибо эти функции линейны по параметрам. Так, в параболе второй степени заменив переменные х=х1, х2=х2, получим двухфакторное уравнение линейной регрессии:
для оценки которого используется метод наименьших квадратов.
Соответственно, для полинома третьего порядка при замене х=х1, х =х2, х3=х3, получим трехфакторную модель линейной регрессии Следовательно, полином любого порядка сводится к линейной регрессии с ее методами оценивания параметров и проверки гипотез. Среди нелинейной полиномиальной регрессии чаще всего используется парабола второй степени; в отдельных случаях – полином третьего порядка. Ограничения в применении полиномов более высоких степеней связаны с требованием однородности исследуемой совокупности: чем выше порядок полинома, тем больше изгибов имеет кривая и, соответственно, меньше однородность совокупности по результативному признаку.
Парабола второй степени целесообразна к применению, если для определенного интервала значений фактора меняется характер связи рассматриваемых признаков: прямая связь изменяется на обратную или обратная на прямую. В этом случае определяется значение фактора, при котором достигается максимальное (или минимальное) значение результативного признака:
приравниваем к нулю первую производную параболы второй степени:
Если же исходные данные не обнаруживают изменения направленности связи, то параметры параболы второго порядка становятся трудно интерпретируемы, а форма связи часто заменяется другими нелинейными моделями.
При b>0 и c 0 имеем обратную зависимость, которая при x характеризуется нижней асимптотой, т.е. минимальным предельным значением y, оценкой которого служит параметр a. Так, для кривой Филлипса = 0,00679 + 0,1842 величина параметра а, равная 0,00679 означает, что с ростом безработицы темп прироста заработной платы в пределе стремится к нулю. Соответственно, можно определить тот уровень безработицы, при котором заработная плата оказывается стабильной и темп ее прироста равен нулю.
При b < 0 имеем повышающуюся функцию с верхней асимптотой при х, т.е. максимальным предельным уровнем y, оценку которого в уравнении дает параметр a. Примером может служить взаимосвязь доли расходов на товары длительного пользования и общих сумм расходов (или доходов).
Математическое описание подобного рода взаимосвязей получило название кривой Энгеля. В 1857 году немецкий статистик Э. Энгель на основе исследования семейных расходов сформулировал закономерность – с ростом дохода доля доходов, расходуемых на продовольствие, уменьшается. Соответственно, с увеличением дохода доля расходов на непродовольственные товары будет возрастать. Однако этот рост не беспределен, ибо сумма долей на все товары не может быть больше 100%, а на отдельные непродовольственные товары данный предел может соответствовать величине параметра a для уравнения вида где - доля расходов на непродовольственные товары;
х – доходы (или общая сумма расходов как индикатор дохода).
Вместе с тем равносторонняя гипербола не является единственно возможной функцией для описания кривой Энгеля. В 1943 г. Уоркинг и в 1964 г.
Лизер для этих целей применили полулогарифмическую кривую Заменив ln на z, вновь получим линейное уравнение = + +.
Данная функция линейна по параметрам и нелинейна по объясняющей переменной х. Оценка параметров a и b может быть найдена МНК.
Иначе обстоит дело с регрессией, нелинейной по оцениваемым параметрам. Данный класс нелинейных моделей подразделяется на внутренне линейные и внутренне нелинейные. Если нелинейная модель внутренне линейна, то с помощью соответствующих преобразований она может быть приведена к линейному виду. Если же нелинейная модель внутренне нелинейна, то она не может быть сведена к линейной функции. Например, в эконометрических исследованиях при изучении эластичности спроса от цены широко используется степенная функция где y – спрос (количество);
х – цена;
- случайная ошибка.
Данная модель нелинейна относительно оцениваемых параметров, ибо включает параметры a и b неаддитивно. Однако ее можно считать внутренне линейной, ибо логарифмирование данного уравнения по основанию e приводит его к линейному виду: ln = ln + ln + ln Соответственно оценки параметров a и b могут быть найдены МНК.
Если модель внутренне нелинейна по параметрам, то для оценки параметров используются итеративные процедуры, успешность которых зависит от вида уравнений и особенностей итеративной процедуры.
Среди нелинейных функций, которые могут быть приведены к линейному виду, в эконометрических исследованиях очень широко используется степенная функция =. Это связано с тем, что параметр b в ней имеет четкое экономическое истолкование, т.е. является коэффициентом эластичности. Это значит, что величина коэффициента b показывает, на сколько процентов изменится в среднем результат, если фактор изменится на 1 %.
Так, если зависимость спроса от цен характеризуется уравнением вида х = 105,56 1,12, то, следовательно, с увеличением цена на 1% спрос снижается в среднем на 1,12%.
В силу того, что коэффициент эластичности для линейной функции не является величиной постоянной, а зависит от соответствующего значения х, обычно рассчитывается средний показатель эластичности по формуле:
Для оценки параметров степенной функции применяется МНК к линеаризованному уравнению ln = ln +b*ln + ln.
Уравнение вида х = характеризует прямую зависимость результативного признака от фактора. Оно целесообразно при очень медленном повышении уровня результативного признака и росте значений фактора.
Задачи по теме «Парная регрессия и корреляция в экономических исследованиях» представлены в Приложении 1 учебного пособия.
2.4. Множественная регрессия и корреляция 2.4.1. Спецификация модели. Отбор факторов для построения модели Парная регрессия может дать хороший результат при моделировании, если влиянием других факторов, воздействующих на объект исследования, можно пренебречь. Вместе с тем исследователь никогда не может быть уверен в справедливости данного предположения. Например, для того, чтобы иметь правильное представление о влиянии дохода на потребление, необходимо изучить их корреляцию при неизменном уровне других факторов. В этом случае следует попытаться выявить влияние других факторов, введя их в модель, т.е. построить уравнение множественной регрессии.
Общий вид многофакторного уравнения регрессии следующий:
где k – число факторных признаков (независимых переменных).
Коэффициенты условно чистой регрессии bj – частные производные потребления y по соответствующим факторам xj:
в предположении, что все остальные xj постоянны.
Свободный член уравнения вычисляется по формуле:
Термин «коэффициент условно-чистой регрессии» означает, что каждая из величин bj измеряет среднее по совокупности отклонение результативного признака от его средней величины при отклонении данного фактора хj – от своей средней величины на единицу его измерения и при условии, что все прочие факторы, входящие в уравнение регрессии, закреплены на средних значениях (не изменяются, не варьируют).
Таким образом, в отличие от коэффициента парной регрессии коэффициент условно-чистой регрессии измеряет влияние фактора, абстрагируясь от связи вариации этого фактора с вариацией остальных факторов. Если было бы возможным включить в уравнение регрессии все факторы, влияющие на вариацию результативного признака, то величины можно было бы считать мерами чистого влияния факторов.
Включить все факторы в уравнение регрессии невозможно, так как: 1) часть факторов может быть неизвестна современной науке, познание любого процесса всегда неполное; 2) по части известных теоретически факторов нет информации либо таковая ненадежна; 3) численность изучаемой совокупности (выборки) ограничена, что позволяет включить в уравнение регрессии ограниченное число факторов.
Факторы, включаемые в уравнение множественной регрессии, должны отвечать следующим требованиям:
быть количественно измеримы. Если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то нужно придать ему количественную определенность (например, в модели урожайности качество почвы задается в виде баллов; в модель стоимости объектов недвижимости учитывается место нахождения недвижимости: районы могут быть проранжированны);
не должны быть коррелированны между собой и тем более находиться в точной функциональной связи.
Многофакторная система требует уже не одного, а множества показателей тесноты связей, имеющих разный смысл и применение. Основой измерения связей является матрица парных коэффициентов корреляции (табл. 2.3).
Матрица парных коэффициентов корреляции (общий вид) По этой матрице можно судить о тесноте связи факторов с результативным признаком и между собой. Хотя все эти показатели относятся к парным связям, все же матрицу можно использовать для предварительного отбора факторов для включения их в уравнение регрессии. Не рекомендуется включать в уравнение факторы, слабо связанные с результативными признаками, но тесно связанные с другими факторами. Совершенно недопустимо включать в анализ факторы, функционально связанные друг с другом, т.е. с коэффициентом корреляции, равным (или близким) 1. Включение таких пар признаков приводит к вырожденной матрице коэффициентов корреляции и неопределенности решения.