АКАДЕМИЯ УПРАВЛЕНИЯ «ТИСБИ»
А.К. Шалабанов, Д.А. Роганов
ПРАКТИКУМ ПО ЭКОНОМЕТРИКЕ
С ПРИМЕНЕНИЕМ MS EXCEL
Линейные модели парной и множественной
регрессии
КАЗАНЬ 2008
Рекомендовано к печати
Научно-методическим советом
Академии управления «ТИСБИ»
Шалабанов А.К., Роганов Д.А.
Составители:
К.ф-м.н, доц. кафедры теоретической кибернетики Рецензенты:
Казанского государственного университета Нурмеев Н.Н.
К.т.н. доцент кафедры математики Академии управления «ТИСБИ» Печеный Е.А.
Практикум по эконометрики содержит основные понятия и формулы эконометрики из разделов по парной и множественной регрессии и корреляции. Предназначено для студентов дневного и дистанционного отделения Академии управления «ТИСБИ». Подробно разобраны типовые задачи. Продемонстрирована возможность реализации решения задач в MS Excel. Представлены варианты индивидуальных контрольных заданий.
Содержание Введение 1. Определение эконометрики 2. Парная регрессия и корреляция 2.1. Теоретическая справка 2.2. Решение типовой задачи 2.3. Решение типовой задачи в MS Excel 3. Множественная регрессия и корреляция 3.1. Теоретическая справка 3.2. Решение типовой задачи 3.3. Решение типовой задачи в MS Excel 4. Задания для контрольной работы 5. Рекомендации к выполнению контрольной работы Приложения Список литературы Введение Успешная работа современного экономиста в любой области экономики тесным образом связана с использованием математических методов и средств вычислительной техники. При решении задач из различных областей человеческой деятельности часто приходится использовать методы, основанные на эконометрических моделях.
Эконометрика – одна из базовых дисциплин экономического образования во всем мире, но в России данный предмет только начал входить в учебные планы обучения будущих экономистов, так как прежде в СССР в условиях централизованной плановой экономике эконометрика была попросту не нужна.
Практикум по эконометрики предназначен для студентов дневного и дистанционного отделения Академии управления «ТИСБИ» и содержит в себе подробные примеры решения типовых задач и варианты контрольных заданий. Предлагаемый материал должен способствовать формированию у студентов практических навыков использования Предполагается, что студенты ознакомлены с курсами линейной алгебры, математического анализа, теории вероятностей и математической статистики.
Для самостоятельного решения студентам предлагается две задачи.
Для большего понимания перед их решением желательно изучить теоретический материал по учебникам, которые приведены в списке литературы, хотя необходимые формулы и методы приведены в методических указаниях. Так же, предлагаемые задачи могут быть решены (частично или полностью) на компьютере с помощью различных пакетов прикладных программ (ППП). В данном пособии приведены примеры решения в MS Excel, т.к. данная программа присутствует в подавляющем большинстве персональных компьютеров.
При решении без использования компьютера рекомендуется производить промежуточные вычисления с точностью до пяти–шести знаков после запятой.
Эконометрика – быстроразвивающаяся отрасль науки, цель которой состоит в том, чтобы придать количественные меры экономическим отношениям.
П. Цьемпой (Австро-Венгрия, 1910 г.). Цьемпа считал, что если к данным бухгалтерского учета применить методы алгебры и геометрии, то будет получено новое, более глубокое представление о результатах хозяйственной деятельности. Это употребление термина, как и сама концепция, не прижилось, но название «эконометрика» оказалось весьма удачным для определения нового направления в экономической науке, которое выделилось в 1930 г.
Слово «эконометрика» представляет собой комбинацию двух слов:
«экономика» и «метрика» (от греч. «метрон»). Таким образом, сам термин подчеркивает специфику, содержание эконометрики как науки:
количественное выражение тех связей и соотношений, которые раскрыты и обоснованы экономической теорией. И. Шумпетер (1883–1950), один из первых сторонников выделения этой новой дисциплины, полагал, что в соответствии со своим назначением эта дисциплина должна называться «экономометрика». Советский ученый А.Л. Вайнштейн (1892–1970) считал, что название настоящей науки основывается на греческом слове метрия (геометрия, планиметрия и т.д.), соответственно по аналогии – эконометрия. Однако в мировой науке общеупотребимым стал термин «эконометрика». В любом случае, какой бы мы термин ни выбрали, эконометрика является наукой об измерении и анализе экономических явлений.
междисциплинарного подхода к изучению экономики. Эта наука возникла в результате взаимодействия и объединения в особый «сплав» трех компонент: экономической теории, статистических и математических методов. Впоследствии к ним присоединилось развитие вычислительной техники как условие развития эконометрики.
В журнале «Эконометрика», основанном в 1933 г. Р. Фришем (1895– 1973), он дал следующее определение эконометрики: «Эконометрика – это не то же самое, что экономическая статистика. Она не идентична и тому, что мы называем экономической теорией, хотя значительная часть этой теории носит количественный характер. Эконометрика не является синонимом приложений математики к экономике. Как показывает опыт, каждая из трех отправных точек – статистика, экономическая теория и математика – необходимое, но не достаточное условие для понимания количественных соотношений в современной экономической жизни. Это – эконометрику».
количественное выражение взаимосвязей экономических явлений и процессов.
Парная (простая) линейная регрессия представляет собой модель, рассматривается как функция одной независимой (объясняющей) переменной x, т.е. это модель вида:
Так же y называют результативным признаком, а x признаком-фактором.
функциональной зависимости.
Практически в каждом отдельном случае величина y складывается из двух слагаемых:
где – фактическое значение результативного признака;
теоретическое значение результативного признака, найденное исходя из уравнения регрессии; – случайная величина, характеризующая теоретического, найденного по уравнению регрессии.
Случайная величина называется также возмущением. Она включает влияние не учтенных в модели факторов, случайных ошибок и особенностей измерения. Ее присутствие в модели порождено тремя источниками: спецификацией модели, выборочным характером исходных данных, особенностями измерения переменных.
Различают линейные и нелинейные регрессии.
Линейная регрессия:
Нелинейные регрессии делятся на два класса: регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам, и регрессии, нелинейные по оцениваемым параметрам. Например:
регрессии, нелинейные по объясняющим переменным:
• равносторонняя гипербола y = a + регрессии, нелинейные по оцениваемым параметрам:
• экспоненциальная y = ea +bx +.
Построение уравнения регрессии сводится к оценке ее параметров.
Для оценки параметров регрессий, линейных по параметрам, используют метод наименьших квадратов (МНК). МНК позволяет получить такие фактических значений результативного признака y от теоретических yx минимальна, т.е.
Для линейных и нелинейных уравнений, приводимых к линейным, решается следующая система относительно a и b :
Можно воспользоваться готовыми формулами, которые вытекают непосредственно из решения этой системы:
дисперсия признака x и (Ковариация – числовая характеристика совместного распределения произведения отклонений этих случайных величин от их математических случайной величины от ее математического ожидания. Математическое ожидание – сумма произведений значений случайной величины на соответствующие вероятности.) Тесноту связи изучаемых явлений оценивает линейный коэффициент парной корреляции rxy для линейной регрессии 1 rxy 1 :
и индекс корреляции xy – для нелинейной регрессии 0 xy 1 :
уравнения регрессии y x = f ( x ).
Оценку качества построенной модели даст коэффициент (индекс) детерминации rxy (для линейной регрессии) либо xy (для нелинейной регрессии), а также средняя ошибка аппроксимации.
Средняя ошибка аппроксимации – среднее отклонение расчетных значений от фактических:
Допустимый предел значений A – не более 10%.
Средний коэффициент эластичности Э показывает, на сколько процентов в среднем по совокупности изменится результат у от своей средней величины при изменении фактора x на 1% от своего среднего значения:
После того как найдено уравнение линейной регрессии, проводится оценка значимости как уравнения в целом, так и отдельных его параметров.
Проверить значимость уравнения регрессии – значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной.
Оценка значимости уравнения регрессии в целом производится на основе F -критерия Фишера, которому предшествует дисперсионный анализ. Согласно основной идее дисперсионного анализа, общая сумма раскладывается на две части – «объясненную» и «необъясненную»:
квадратов отклонений, объясненная регрессией (или факторная сумма отклонений, характеризующая влияние неучтенных в модели факторов.
Схема дисперсионного анализа имеет вид, представленный в таблице 1.1 ( n – число наблюдений, m – число параметров при переменной x ).
Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду (напомним, что степени свободы – это числа, показывающие количество элементов варьирования, которые могут характеристик). Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим величину F -критерия Фишера:
табличным значением Fтабл ( ; k1; k2 ) при уровне значимости и степенях свободы k1 = m и k2 = n m 1. При этом, если фактическое значение F критерия больше табличного, то признается статистическая значимость уравнения в целом.
Для парной линейной регрессии m = 1, поэтому Величина F -критерия связана с коэффициентом детерминации rxy, и ее можно рассчитать по следующей формуле:
Для оценки статистической значимости параметров регрессии и корреляции рассчитываются t -критерий Стьюдента и доверительные интервалы каждого из показателей. Оценка значимости коэффициентов регрессии и корреляции с помощью t -критерия Стьюдента проводится путем сопоставления их значений с величиной случайной ошибки:
коэффициента корреляции определяются по формулам:
Сравнивая фактическое и критическое (табличное) значения t статистики – t табл и tфакт – делаем вывод о значимости параметров регрессии и корреляции. Если t табл < tфакт то параметры a, b и rxy не систематически действующего фактора x. Если t табл > tфакт, то признается случайная природа формирования a, b или rxy.
Для расчета доверительного интервала определяем предельную ошибку для каждого показателя:
Формулы для расчета доверительных интервалов имеют следующий вид:
Если в границы доверительного интервала попадает ноль, т.е.
нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр принимается нулевым, так как он не может одновременно принимать и положительное, и отрицательное значения.
Связь между F -критерием Фишера и t -статистикой Стьюдента выражается равенством В прогнозных расчетах по уравнению регрессии определяется предсказываемое индивидуальное значение y0 как точечный прогноз при соответствующего значения x. Однако точечный прогноз явно нереален, поэтому он дополняется расчетом стандартной ошибки прогнозного значения y0 :
Пример. По территориям региона приводятся данные за 199X г.
Среднедушевой прожиточный Среднедневная заработная Номер региона Требуется:
Построить линейное уравнение парной регрессии y по x.
Рассчитать линейный коэффициент парной корреляции, коэффициент детерминации и среднюю ошибку аппроксимации.
Оценить статистическую значимость уравнения регрессии в целом и отдельных параметров регрессии и корреляции с помощью F критерия Фишера и t -критерия Стьюдента.
Выполнить прогноз заработной платы y при прогнозном значении среднедушевого прожиточного минимума x, составляющем 107% от среднего уровня.
Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал.
теоретическую прямую.
1. Для расчета параметров уравнения линейной регрессии строим расчетную таблицу 2.3.
Среднее значение По формулам (2.5) находим параметры регрессии Получено уравнение регрессии:
Параметр регрессии позволяет сделать вывод, что с увеличением среднедушевого прожиточного минимума на 1 руб. среднедневная заработная плата возрастает в среднем на 0,92 руб. (или 92 коп.).
После нахождения уравнения регрессии заполняем столбцы 7– таблицы 2.3.
2. Тесноту линейной связи оценит коэффициент корреляции (2.6):
Т.к. значение коэффициента корреляции больше 0,7, то это говорит о наличии весьма тесной линейной связи между признаками.
Коэффициент детерминации:
Это означает, что 52% вариации заработной платы ( y ) объясняется вариацией фактора x – среднедушевого прожиточного минимума.
Качество модели определяет средняя ошибка аппроксимации (2,7):
Качество построенной модели оценивается как хорошее, так как A не превышает 10%.
3. Оценку статистической значимости уравнения регрессии в целом проведем с помощью F -критерия Фишера. Фактическое значение F критерия по формуле (2.9) составит значимости и степенях свободы k1 = 1 и k2 = 12 2 = 10 составляет Fтабл = 4,96. Так как Fфакт = 10, 41 > Fтабл = 4,96, то уравнение регрессии признается статистически значимым.
корреляции проведем с помощью t -статистики Стьюдента и путем расчета доверительного интервала каждого из параметров.
Табличное значение t -критерия для числа степеней свободы df = n 2 = 12 2 = 10 и уровня значимости = 0,05 составит t табл = 2,23.
Определим стандартные ошибки ma, mb, mrxy (остаточная дисперсия на одну степень свободы S значение:
поэтому параметры a, b и rxy не случайно отличаются от нуля, а статистически значимы.
Рассчитаем доверительные интервалы для параметров регрессии a и b. Для этого определим предельную ошибку для каждого показателя:
Доверительные интервалы Анализ верхней и нижней границ доверительных интервалов приводит к выводу о том, что с вероятностью p = 1 = 0,95 параметры a и b, находясь в указанных границах, не принимают нулевых значений, т.е.
являются статистически значимыми и существенно отличны от нуля.
4. Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Если прогнозное значение прожиточного минимума y0 = 77,02 + 0,92 91,6 = 161,29 руб.
5. Ошибка прогноза составит:
Предельная ошибка прогноза, которая в 95% случаев не будет превышена, составит:
Доверительный интервал прогноза:
Выполненный прогноз среднемесячной заработной платы является надежным ( p = 1 = 1 0,05 = 0,95 ) и находится в пределах от 131,92 руб.
до 190,66 руб.
6. В заключение решения задачи построим на одном графике исходные данные и теоретическую прямую (рис. 2.1):
Рис. 2.1.
C помощью инструмента анализа данных Регрессия можно получить результаты регрессионной статистики, дисперсионного анализа, доверительных интервалов, остатки и графики подбора линии регрессии.
Если в меню сервис еще нет команды Анализ данных, то необходимо сделать следующее. В главном меню последовательно выбираем СервисНадстройки и устанавливаем «флажок» в строке Пакет анализа (рис. 2.2):
Далее следуем по следующему плану.
СервисАнализ данныхРегрессия.
2. Заполняем диалоговое окно ввода данных и параметров вывода (рис. 2.3):
результативного признака;
Входной интервал X – диапазон, содержащий данные признакафактора;
Метки – «флажок», который указывает, содержи ли первая строка названия столбцов;
Константа – ноль – «флажок», указывающий на наличие или отсутствие свободного члена в уравнении;
Выходной интервал – достаточно указать левую верхнюю ячейку будущего диапазона;
Новый рабочий лист – можно указать произвольное имя нового листа (или не указывать, тогда результаты выводятся на вновь созданный лист).
примера:
Откуда выписываем, округляя до 4 знаков после запятой и переходя к нашим обозначениям:
Уравнение регрессии:
Коэффициент корреляции:
Коэффициент детерминации:
Фактическое значение F -критерия Фишера:
Остаточная дисперсия на одну степень свободы:
Корень квадратный из остаточной дисперсии (стандартная ошибка):
Стандартные ошибки для параметров регрессии:
Фактические значения t -критерия Стьюдента:
Доверительные интервалы:
Как видим, найдены все рассмотренные выше параметры и характеристики уравнения регрессии, за исключением средней ошибки аппроксимации (значение t -критерия Стьюдента для коэффициента корреляции совпадает с tb ). Результаты «ручного счета» от машинного отличаются незначительно (отличия связаны с ошибками округления).
3. Множественная регрессия и корреляция Множественная регрессия – это уравнение связи с несколькими независимыми переменными:
где y – зависимая переменная (результативный признак); x1, x2,..., xm – независимые переменные (признаки-факторы).
используются следующие функции:
• экспонента – y = e a+b1x1 +b2 x2 +...+bm xm + ;
Можно использовать и другие функции, приводимые к линейному виду.
Для оценки параметров уравнения множественной регрессий применяют метод наименьших квадратов (МНК). Для линейных уравнений строится следующая система нормальных уравнений, решение которой позволяет получить оценки параметров регрессии:
Для двухфакторной модели данная система будет иметь вид:
Так же можно воспользоваться готовыми формулами, которые являются следствием из этой системы:
В линейной множественной регрессии параметры при x называются коэффициентами «чистой» регрессии. Они характеризуют среднее изменение результата с изменением соответствующего фактора на единицу при неизмененном значении других факторов, закрепленных на среднем уровне.
множественной регрессии в стандартизированном масштабе:
t xi =, для которых среднее значение равно нулю: ty = txi = 0, а среднее квадратическое отклонение равно единице: t y = tx = 1 ; i – стандартизированные коэффициенты регрессии.
В силу того, что все переменные заданы как центрированные и нормированные, стандартизованные коэффициенты регрессии i можно сравнивать между собой. Сравнивая их друг с другом, можно ранжировать факторы по силе их воздействия на результат. В этом основное достоинство стандартизованных коэффициентов регрессии в отличие от коэффициентов «чистой» регрессии, которые несравнимы между собой.
стандартизированном масштабе, получим систему нормальных уравнений вида
где ryxi и rxi x j – коэффициенты парной и межфакторной корреляции.
стандартизованными коэффициентами регрессии i следующим образом:
Поэтому можно переходить от уравнения регрессии в стандартизованном масштабе (3.5) к уравнению регрессии в натуральном масштабе Рассмотренный смысл стандартизованных коэффициентов регрессии позволяет их использовать при отсеве факторов – из модели исключаются факторы с наименьшим значением i.
Средние коэффициенты эластичности для линейной регрессии рассчитываются по формуле которые показывают на сколько процентов в среднем изменится результат, при изменении соответствующего фактора на 1%. Средние показатели эластичности можно сравнивать друг с другом и соответственно ранжировать факторы по силе их воздействия на результат.
Тесноту совместного влияния факторов на результат оценивает индекс множественной корреляции:
Значение индекса множественной корреляции лежит в пределах от до 1 и должно быть больше или равно максимальному парному индексу корреляции:
корреляции можно определить через матрицы парных коэффициентов корреляции:
где – определитель матрицы парных коэффициентов корреляции;
– определитель матрицы межфакторной корреляции.
Так же при линейной зависимости признаков формула коэффициента множественной корреляции может быть также представлена следующим выражением:
где i – стандартизованные коэффициенты регрессии; ryxi – парные коэффициенты корреляции результата с каждым фактором.
Качество построенной модели в целом оценивает коэффициент (индекс) детерминации. Коэффициент множественной детерминации рассчитывается как квадрат индекса множественной корреляции Ryx1x2... xm.
Для того чтобы не допустить преувеличения тесноты связи, применяется скорректированный индекс множественной детерминации, который содержит поправку на число степеней свободы и рассчитывается по формуле где n – число наблюдений, m – число факторов. При небольшом числе наблюдений нескорректированная величина коэффициента множественной детерминации имеет тенденцию переоценивать долю вариации результативного признака, связанную с влиянием факторов, включенных в регрессионную модель.
Частные коэффициенты (или индексы) корреляции, измеряющие влияние на y фактора xi, при элиминировании (исключении влияния) других факторов, можно определить по формуле или по рекуррентной формуле:
Рассчитанные по рекуррентной формуле частные коэффициенты корреляции изменяются в пределах от –1 до +1, а по формулам через множественные коэффициенты детерминации – от 0 до 1. Сравнение их друг с другом позволяет ранжировать факторы по тесноте их связи с результатом. Частные коэффициенты корреляции дают меру тесноты связи каждого фактора с результатом в чистом виде.
При двух факторах формулы (3.12) и (3.13) примут вид:
оценивается с помощью F -критерия Фишера:
присутствия каждого из факторов в уравнении. В общем виде для фактора x частный F -критерий определится как табличным при уровне значимости и числе степеней свободы: k1 = 1 и k2 = n m 1. Если фактическое значение Fxi превышает Fтабл (, k1, k2 ), то дополнительное включение фактора xi в модель статистически оправданно и коэффициент чистой регрессии bi при факторе xi статистически значим.
Если же фактическое значение Fxi меньше табличного, то дополнительное включение в модель фактора xi не увеличивает существенно долю объясненной вариации признака y, следовательно, нецелесообразно его включение в модель; коэффициент регрессии при данном факторе в этом случае статистически незначим.
Оценка значимости коэффициентов чистой регрессии проводится по t -критерию Стьюдента. В этом случае, как и в парной регрессии, для каждого фактора используется формула квадратическая ошибка коэффициента регрессии может быть определена по формуле:
где Rx2i x1... xm – коэффициент детерминации для зависимости фактора xi со всеми другими факторами уравнения множественной регрессии. Для двухфакторной модели ( m = 2 ) имеем:
Существует связь между t -критерием Стьюдента и частным F критерием Фишера:
Уравнения множественной регрессии могут включать в качестве независимых переменных качественные признаки (например, профессия, пол, образование, климатические условия, отдельные регионы и т.д.).
Чтобы ввести такие переменные в регрессионную модель, их необходимо упорядочить и присвоить им те или иные значения, т.е. качественные переменные преобразовать в количественные.
эконометрике называть фиктивными переменными. Например, включать в модель фактор «пол» в виде фиктивной переменной можно в следующем виде:
интерпретируется как среднее изменение зависимой переменной при переходе от одной категории (женский пол) к другой (мужской пол) при неизменных значениях остальных параметров.
По 20 предприятиям региона изучается зависимость выработки продукции на одного работника y (тыс. руб.) от ввода в действие новых основных фондов x1 ( % от стоимости фондов на конец года) и от удельного веса рабочих высокой квалификации в общей численности рабочих x2 ( % ).
Требуется:
Записать стандартизованное уравнение множественной регрессии. На основе стандартизованных коэффициентов регрессии и средних коэффициентов эластичности ранжировать факторы по степени их влияния на результат.
Найти коэффициенты парной, частной и множественной корреляции. Проанализировать их.
коэффициентом детерминации.
С помощью F -критерия Фишера оценить статистическую надежность уравнения регрессии и коэффициента детерминации Ryx1x2.
С помощью t -критерия оценить статистическую значимость коэффициентов чистой регрессии.
целесообразность включения в уравнение множественной регрессии фактора x1 после x2 и фактора x2 после x1.
Составить уравнение линейной парной регрессии, оставив лишь один значащий фактор.
промежуточных расчетов в таблицу:
Ср. знач.
Найдем средние квадратические отклонения признаков:
1. Для нахождения параметров линейного уравнения множественной регрессии неизвестных параметров a, b1, b2 (3.3) либо воспользоваться готовыми формулами (3.4).
Рассчитаем сначала парные коэффициенты корреляции:
Находим по формулам (3.4) коэффициенты чистой регрессии и параметр a :
Таким образом, получили следующее уравнение множественной регрессии:
Уравнение регрессии показывает, что при увеличении ввода в действие основных фондов на 1% (при неизменном уровне удельного веса рабочих высокой квалификации) выработка продукции на одного рабочего увеличивается в среднем на 0,946 тыс. руб., а при увеличении удельного веса рабочих высокой квалификации в общей численности рабочих на 1% (при неизменном уровне ввода в действие новых основных фондов) выработка продукции на одного рабочего увеличивается в среднем на 0,086 тыс. руб.
После нахождения уравнения регрессии составим новую расчетную таблицу для определения теоретических значений результативного признака, остаточной дисперсии и средней ошибки аппроксимации.
знач.
Остаточная дисперсия:
Средняя ошибка аппроксимации:
Качество модели, исходя из относительных отклонений по каждому наблюдению, признается хорошим, т.к. средняя ошибка аппроксимации не превышает 10%.
Коэффициенты 1 и 2 стандартизованного уравнения регрессии ty = 1t x1 + 2t x2 +, находятся по формуле (3.7):
Т.е. уравнение будет выглядеть следующим образом:
Так как стандартизованные коэффициенты регрессии можно сравнивать между собой, то можно сказать, что ввод в действие новых основных фондов оказывает большее влияние на выработку продукции, чем удельный вес рабочих высокой квалификации.
Сравнивать влияние факторов на результат можно также при помощи средних коэффициентов эластичности (3.8):
Вычисляем:
Т.е. увеличение только основных фондов (от своего среднего значения) или только удельного веса рабочих высокой квалификации на 1% увеличивает в среднем выработку продукции на 0,61% или 0,20% соответственно. Таким образом, подтверждается большее влияние на результат y фактора x1, чем фактора x2.
2. Коэффициенты парной корреляции мы уже нашли:
Они указывают на весьма сильную связь каждого фактора с результатом, а также высокую межфакторную зависимость (факторы x1 и явно коллинеарны, т.к.
межфакторной зависимости рекомендуется один из факторов исключить из рассмотрения.
Частные коэффициенты корреляции характеризуют тесноту связи между результатом и соответствующим фактором при элиминировании (устранении влияния) других факторов, включенных в уравнение регрессии.
рассчитываются следующим образом:
Если сравнить коэффициенты парной и частной корреляции, то коэффициенты парной корреляции дают завышенные оценки тесноты связи. Именно по этой причине рекомендуется при наличии сильной коллинеарности (взаимосвязи) факторов исключать из исследования тот фактор, у которого теснота парной зависимости меньше, чем теснота межфакторной связи.
Коэффициент множественной корреляции определить через матрицы парных коэффициентов корреляции (3.9):
где – определитель матрицы парных коэффициентов корреляции;
– определитель матрицы межфакторной корреляции.
Коэффициент множественной корреляции:
Аналогичный результат получим при использовании формул (3.8) и (3.10):
Коэффициент множественной корреляции указывает на весьма сильную связь всего набора факторов с результатом.
детерминации Ryx1x2 = 0,947 оценивает долю дисперсии результата за счет представленных в уравнении факторов в общей вариации результата. Здесь эта доля составляет 94,7% и указывает на весьма высокую степень обусловленности вариации результата вариацией факторов, иными словами – на весьма тесную связь факторов с результатом.
Скорректированный коэффициент множественной детерминации определяет тесноту связи с учетом степеней свободы общей и остаточной дисперсий. Он дает такую оценку тесноты связи, которая не зависит от числа факторов и поэтому может сравниваться по разным моделям с разным числом факторов. Оба коэффициента указывают на весьма высокую (более 94% ) детерминированность результата y в модели факторами x1 и x2.
4. Оценку надежности уравнения регрессии в целом и показателя тесноты связи Ryx1x2 дает F -критерий Фишера:
В нашем случае фактическое значение F -критерия Фишера:
вероятность случайно получить такое значение F -критерия не превышает значение не случайно, оно сформировалось под влиянием существенных факторов, т.е. подтверждается статистическая значимость всего уравнения и показателя тесноты связи Ryx1x2.
5. Оценим статистическую значимость параметров чистой регрессии с помощью t -критерия Стьюдента. Рассчитаем стандартные ошибки коэффициентов регрессии по формулам (3.19) и (3.20):
Фактические значения t -критерия Стьюдента:
Табличное значение критерия при уровне значимости = 0,05 и числе степеней свободы k = 17 составит t табл ( = 0,05; k = 17 ) = 2,11.
Таким образом, признается статистическая значимость параметра b1, т.к.
tb1 > t табл, и случайная природа формирования параметра b2, т.к. tb2 < t табл.
Доверительные интервалы для параметров чистой регрессии:
целесообразность включения в уравнение множественной регрессии фактора x1 после x2 и фактора x2 после x1 при помощи формул (3.16):
Найдем Ryx1 и Ryx2 :
Следовательно, включение в модель фактора x2 после того, как в модель включен фактор x1 статистически нецелесообразно: прирост факторной незначительным, несущественным; фактор x2 включать в уравнение после фактора x1 не следует.
Если поменять первоначальный порядок включения факторов в модель и рассмотреть вариант включения x1 после x2, то результат расчета частного F -критерия для x1 будет иным. Fx1 = 17,86 > Fтабл = 4, 45, т.е.
вероятность его случайного формирования меньше принятого стандарта = 0,05 ( 5% ). Следовательно, значение частного F -критерия для статистически значимым, надежным, достоверным: прирост факторной дисперсии за счет дополнительного фактора x1 является существенным.
Фактор x1 должен присутствовать в уравнении, в том числе в варианте, когда он дополнительно включается после фактора x2.
7. Общий вывод состоит в том, что множественная модель с факторами x1 и x2 с Ryx1x2 = 0,947 содержит неинформативный фактор x2.
Если исключить фактор x2, то можно ограничиться уравнением парной регрессии:
Найдем его параметры:
Таким образом, Вносим исходные данные в таблицу MS Excel:
(СервисАнализ данныхКорреляция):
Получаем следующий результат:
т.е. ryx1 = 0,9699 ; ryx2 = 0,9408 ; rx1x2 = 0,9428.
данныхРегрессия) получаем следующие результаты:
Уравнение регрессии:
Множественный коэффициент корреляции:
Коэффициент детерминации:
Скорректированный коэффициент детерминации:
Фактическое значение F -критерия Фишера:
Фактические значения t -критерия Стьюдента:
Доверительные интервалы для параметров регрессии:
Значения частного F -критерия Фишера можно найти как квадрат соответствующего значении t -критерия Стьюдента:
Оставшиеся характеристики можно найти, используя известные формулы и полученные здесь результаты.
Задача 1. По территориям региона приводятся данные за 199X г. ( p – число букв в полном имени, p2 – число букв в фамилии):
Среднедушевой прожиточный Среднедневная заработная Номер региона Требуется:
Построить линейное уравнение парной регрессии y по x.
Рассчитать линейный коэффициент парной корреляции, коэффициент детерминации и среднюю ошибку аппроксимации.
Оценить статистическую значимость уравнения регрессии в целом и отдельных параметров регрессии и корреляции с помощью F критерия Фишера и t -критерия Стьюдента.
Выполнить прогноз заработной платы y при прогнозном значении среднедушевого прожиточного минимума x, составляющем 107% от среднего уровня.
Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал.
теоретическую прямую.
Проверить вычисления в MS Excel.
Задача 2. По 20 предприятиям региона изучается зависимость выработки продукции на одного работника y (тыс. руб.) от ввода в действие новых основных фондов x1 ( % от стоимости фондов на конец года) и от удельного веса рабочих высокой квалификации в общей численности рабочих x2 ( % ) ( p1 – число букв в полном имени, p2 – число букв в фамилии).
Требуется:
Записать стандартизованное уравнение множественной регрессии. На основе стандартизованных коэффициентов регрессии и средних коэффициентов эластичности ранжировать факторы по степени их влияния на результат.
Найти коэффициенты парной, частной и множественной корреляции. Проанализировать их.
детерминации. Сравнить его с нескорректированным (общим) коэффициентом детерминации.
С помощью F -критерия Фишера оценить статистическую надежность уравнения регрессии и коэффициента детерминации Ryx1x2.
С помощью t -критерия Стьюдента оценить статистическую значимость параметров чистой регрессии.
целесообразность включения в уравнение множественной регрессии фактора x1 после x2 и фактора x2 после x1.
Составить уравнение линейной парной регрессии, оставив лишь один значащий фактор.
Проверить вычисления в MS Excel.
Рекомендации к выполнению контрольной работы Практические задания по курсу «Эконометрика» следует выполнять в тетради или на листах бумаги формата А4 (листы скрепляются и заполняются с одной стороны). Работа обязательно должна содержать титульный лист с указанными на нем фамилии, полного имени и номера группы студента. Данные каждого варианта определяется параметрами p1, p2. При выполнении контрольных заданий студент должен подставить там, где это необходимо, вместо буквенных параметров индивидуальные анкетные характеристики: p1 – число букв в полном имени студента; p2 – число букв в фамилии студента.
Таблица значений F -критерия Фишера при уровне значимости = 0, 1 161,45 199,50 215,72 224,57 230,17 233,97 238,89 243,91 249,04 254, 2 18,51 19,00 19,16 19,25 19,30 19,33 19,37 19,41 19,45 19, Критические значения t -критерия Стьюдента при уровне значимости 0,10, Число Эконометрика: Учебник / Под ред. И.И. Елисеевой. – М.:
Финансы и статистика, 2006. – 576 с.
Практикум по эконометрике: Учебн. пособие / Под ред. И.И.
Елисеевой. – М.: Финансы и статистика, 2006. – 344 с.
Эконометрика: Учебно-методическое пособие / Шалабанов А.К., Роганов Д.А. – Казань: ТИСБИ, 2004. – 198 с.
Доугерти К. Введение в эконометрику: Пер. с англ. – М.:
ИНФРА-М, 1999. – 402 с.
Кремер Н.Ш., Путко Б.А. Эконометрика: Учебник для вузов / Под ред. проф. Н.Ш. Кремера. – М.: ЮНИТИ-ДАНА, 2002. – 311 с.
Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика.
Начальный курс: Учебник. – М.: Дело, 2001. – 400 с.
Катышев П.К., Магнус Я.Р., Пересецкий А.А. Сборник задач к начальному курсу эконометрики. – М.: Дело, 2002. – 208 с.
Эконометрика: Учебник / Тихомиров Н.П., Дорохина Е.Ю. – М.: Издательство «Экзамен», 2003. – 512 с.
Сборник задач по эконометрике: Учебное пособие для студентов экономических вузов / Сост. Е.Ю. Дорохина, Л.Ф. Преснякова, Н.П. Тихомиров. – М.: Издательство «Экзамен», 2003. – 224 с.
статистика: Учебн. пособие для вузов. – М.: Высш. шк., 2002. – 479 с.