Меню Рубрики

Регрессионный анализ как метод прогнозирования

Источник: Сайт о статистике в медико-биологических исследования

Прогнозирование, базирующееся на инерционности второго рода, можно свести к подбору аналитических выражений (моделей трендов) типа y = f(t) по данным за прошлое и экстраполяции полученных трендов. Что касается инерции во взаимосвязях, то для прогнозирования она может быть использована, если соответствующую взаимосвязь удается представить в виде аналитического выражения (например, регрессионного уравнения), которое связывает изменение одного экономического показателя (зависимая переменная) с влиянием ряда фактор-аргументов, т.е. к данным наблюдения подбирается уравнение типа y = f(x1,x2,…). Прогноз получают путем подстановки в регрессионное уравнение переменных. Результат представляет собой оценку среднего значения зависимой переменной при данных уровнях фактор-аргументов. Для уравнения регрессии обычно определяют доверительные интервалы, которые также можно использовать в прогнозировании. Расчет доверительных интервалов позволяет определить область, в которой следует ожидать значение прогнозируемой величины. Выход этой величины за границы интервала в силу случайных колебаний имеет незначительную вероятность – меньше, чем дополнение до единицы доверительной вероятности, т.е. меньше уровня существенности.

Если в ходе количественного анализа выявлена и обоснована зависимость одного явления от других, то в этом случае на долю регрессионного уравнения, или регрессии, падает задача измерения этой зависимости, в которой причинно-следственный механизм выступает, так сказать, в наглядной форме. Прогноз в этом случае лучше поддается содержательной интерпретации, чем простая экстраполяция тенденции. Во всяком случае, при применении регрессий (а точнее, при их получении) становится более ясным воздействие отдельных факторов и прогнозист лучше понимает природу исследуемого явления. Кроме того, регрессии создают базу для расчетного экспериментирования с целью получения ответов на вопросы типа “Что будет, если…?”.

Регрессионный анализ предполагает решение двух задач. Первая заключается в выборе независимых переменных, существенно влияющих на зависимую величину, и определения формы уравнения регрессии (обычно этот этап в разработке регрессии называют спецификацией ). Данная задача решается путем анализа изучаемой взаимосвязи по существу. Формальные средства могут служить здесь лишь некоторыми ориентирами. Вторая задача – оценивание параметров – решается с помощью того или иного статистического метода обработки данных наблюдения.

Рассмотрим самый простой случай. Пусть нам необходимо описать в виде некоторой функции взаимосвязь двух переменных величин y и x . Предполагается, что между этими величинами теоретически существует простейшая зависимость:

где α и β – постоянные неизвестные коэффициенты (параметры), x – независимая, y – зависимая переменная.

Практически, однако, между y и x обычно существует не столь жесткая зависимость. Даже если она может быть представлена, допустим, в виде линейной функции, то отдельные наблюдения у будут в большей или меньшей мере отклоняться от линейной взаимосвязи в силу воздействия различных неучтенных факторов, а также случайных причин, влияния возмущений, помех и т.д. Отклонения от теоретической выбранной взаимосвязи, естественно, могут возникнуть и в силу неправильной спецификации уравнения, т.е. неправильного выбора формы самого уравнения, описывающего эту взаимосвязь. В дальнейшем , однако, будем полагать, что спецификация выполнена правильно.

Учитывая возможные отклонения, уранвнение взаимосвязи двух переменных (парную регрессию) можно представить в виде:

где ε – случайная переменная, характеризующая отклонение от теоретической линии. Для краткости будем называть эту переменную возмущением .

Таким образом, в уравнении (2) значение y представляется как сумма двух частей – систематической (α + β x ) и случайной (ε). Уравнение (1) характеризует некоторое среднее значение y для данного значения x , в свою очередь уравнение (2) показывает индивидуальные значения y с учетом возможных отклонений от средних.

Относительно возмущения сделаем следующие предположения:

  1. Возмущение является случайной переменной.
  2. Математическое ожидание равно нулю.
  3. Дисперсия возмужщений постоянна.
  4. Последовательные значения не зависят друг от друга.

Таким образом, при построении регрессии (в данном случае линейной парной регрессии) принимается гипотеза о том, что для каждого наблюдения i справедлива следующая взаимосвязь:

Математическое ожидание, дисперсия и ковариации возмущения εi; имеют следующие значения:

Где i , j = 1,…, n – номер наблюдения; символ E указывает на операцию определения математического ожидания, отсюда Е(εii😉 – дисперсия возмущения, Е() — ковариация.

Итак, в результате статистического наблюдения мы имеем ряд характеристик независимой переменной x и соответствующие значения зависимой переменной yi . Задача, следовательно, заключается в определении параметров. Однако истинные значения этих параметров получить нельзя, так как мы опираемся на ограниченный объем информации – на выборку ограниченного объема, поэтому получаемые расчетные значения параметров являются статическими оценками истинных параметров α и β. Обозначим соответствующие (выборочные) оценки как а и b .Таким образом, уравнение парной регрессии y′= a + bx есть оценка взаимосвязи y= α + βx .

Приняв некоторую гипотезу о форме кривой, описывающей взаимосвязь переменных y и х (например, допустим, это будет простая линейная взаимосвязь), нам, тем не менее, не удается однозначно подобрать параметры уравнения, так как через область, в которой расположены точки, соответствующие отдельным наблюдениям, можно провести множество прямых (например, соединить первую и последнюю точку и т.д.). Необходим некоторый критерий. В качестве такого критерия, естественно, принять требование о соотношении значений наблюдений и расчетных данных, поскольку существует стремление провести прямую в целом наиболее близко к данным наблюдения. Различные методы оценивания параметров опираются на различные критерии, измеряющие степень близости расчетных и фактических данных, и, разумеется. Дают разные значения оценок параметров для одной и той же совокупности наблюдений. При этом оказывается , что получаемые оценки обладают различными статистическими свойствами.

Наиболее распространенным в силу своей простоты и сравнительно широкой области приложения является метод наименьших квадратов, МНК. Немаловажно и то, что получаемые МНК оценки при условии, что сделанные выше предположения относительно ε справедливы, обладают рядом ценных для последующего применения регрессий в прогнозировании свойств, а именно:

  1. оценки параметров являются несмещенными , т.е. математическое ожидание оценок параметров равно истинному значению параметров, в частности для парной регрессии Е(a)=α и E(b)=β. Данное свойство является логическим следствием второго предположения о характере возмущения ε . Несмещенность означает, что выборочные оценки параметров концентрируются вокруг неизвестных истинных параметров;
  2. Математическое ожидание равно нулю.
  3. оценки состоятельны , иначе говоря, дисперсия оценки параметра стремится к нулю с возрастанием n . Для парной регрессии это свойство можно записать так:

оценки являются эффективными в том смысле, что они имеют минимальную дисперсию по сравнению с любыми другими оценками этого параметра.

Если предположение 3 или 4 нарушено, то свойство несмещенности и состоятельности оценок сохраняется, однако оценки оказываются менее эффективными, чем в случае, когда эти допущения соблюдаются.

Совершенно очевидно, что для прогнозирования не безразлично, какими свойствами обладает оценка. Что касается свойства несмещенности, то оно является необходимым. В самом деле, смещенные оценки априори дают неверное положение кривой в пространстве независимых переменных. Свойство состоятельности означает, что при увеличении объема наблюдения оценки параметров становятся более надежными в вероятностном смысле, т.е. с ростом n оценки все плотнее концентрируются вокруг истинных неизвестных значений параметров. Свойство эффективности, в общем, является наиболее важным, поскольку оно определяет степень возможной ошибки прогноза.

источник

Методы прогнозирования

Прогнозирование является одной из главных и наиболее востребованных экономических задач. Основная причина этого в том, что зная характер развития событий в будущем, можно принимать более обоснованные управленческие решения.

Данные, собираемые и используемые для разработки прогнозов, чаще всего представляют собой временной ряд, то есть последовательность наблюдений за изменениями во времени значений параметров некоторого объекта или процесса. Эти значения фиксируются в некоторые, обычно равностоящие, моменты времени, называемыми моментами отсчета, или периодами. Интервал между отсчетами зависит от степени детальности анализа, например, неделя, день, месяц и т. д. Все временные отсчеты нумеруются в порядке возрастания и представляются в следующем виде: Y = y1, y2, y3,…, yt>.

Скользящее среднее и экспоненциальное сглаживание

Самой простой моделью прогнозирования, основанной на простом усреднении является:

где t – количество периодов наблюдений за параметром Y, Pt+1 – прогноз значения параметра на период t+1.

В приведенной выше формуле предполагалось, что ряд усредняется по достаточно длительному интервалу времени. Однако, как правило, значения временного ряда из недалекого прошлого лучше описывают прогноз, чем более старые значения этого же ряда. Тогда можно использовать для прогнозирования скользящее среднее:

где n – количество периодов скользящего среднего.

Смысл его заключается в том, что модель видит только ближайшее прошлое на n отсчетов по времени в глубину и, основываясь только на этих данных, строит прогноз.

При прогнозировании довольно часто используется метод экспоненциального сглаживания, который постоянно адаптируется к данным за счет новых значений. Формула, описывающая эту модель записывается так:

где Pt+1 – прогноз на следующий период времени, Yt – реальное значение в момент времени t, Pt – прошлый прогноз на момент времени t, k – коэффициент, называемый фактором затухания (0£k£1)). Если значения прогноза на предыдущий период не существует, то текущий прогноз повторяет реальное значение на предыдущий период, т.е. P2 = Y1.

В этом методе есть внутренний параметр k, который определяет зависимость прогноза от более старых данных, причем влияние данных на прогноз экспоненциально убывает с «возрастом» данных.

Описанные выше модели используются при бизнес-прогнозировании в не очень сложных ситуациях, например, при прогнозировании продаж на спокойных и устоявшихся рынках.

Регрессионные методы прогнозирования

Наряду с описанными выше методами, уже достаточно долгое время для прогнозирования используются регрессионные алгоритмы. Коротко суть алгоритмов такого класса можно описать так.

Существует прогнозируемая переменная Y (зависимая переменная) и отобранный заранее комплект переменных, от которых она зависит – X1, X2, . XN (независимые переменные). Природа независимых переменных может быть различной. Например, если предположить, что Y – уровень спроса на некоторый продукт в следующем месяце, то независимыми переменными могут быть уровень спроса на этот же продукт в прошлый и позапрошлый месяцы, затраты на рекламу, уровень платежеспособности населения, экономическая обстановка, деятельность конкурентов и многое другое. Главное — уметь формализовать все внешние факторы, от которых может зависеть уровень спроса, в числовую форму.

Модель множественной регрессии в общем случае описывается выражением:

Здесь – вид функции, показывающей зависимость зависимой переменной от независимых. В более простом варианте линейной регрессионной модели эта зависимость имеет вид:

где b, b1, b2. bN – подбираемые коэффициенты регрессии, e – компонента ошибки. Предполагается, что все ошибки независимы и нормально распределены. С помощью таблицы значений прошлых наблюдений можно подобрать (например, методом наименьших квадратов) коэффициенты регрессии, настроив тем самым модель.

Помимо линейной, существуют другие виды регрессионных моделей: степенная, логарифмическая, экспоненциальная и т.д.

Дата добавления: 2017-03-18 ; просмотров: 896 | Нарушение авторских прав

источник

РАЗДЕЛ 2. МОДЕЛИ И МЕТОДЫ ЭКОНОМИЧЕСКОГО ПРОГНОЗИРОВАНИЯ

Регрессионные модели прогнозирования

В экономических исследованиях часто изучаются связи между случайными и неслучайными величинами. Такие связи называют регрессионными, а метод их изучения — регрессионным анализом.

Математически задача формулируется следующим образом. Требуется найти аналитическое выражение зависимости экономического явления (например, производительности труда) от определяющих его факторов; т.е. ищется функция y=f(x1,x2. xn), отражающая зависимость, по которой можно найти приближенное значение зависимого показателя y. В качестве функции в регрессионном анализе принимается случайная переменная, а аргументами являются неслучайные переменные.

Примерами возможного применения регрессионного анализа в экономике являются исследование влияния на производительность труда и себестоимость таких факторов, как величина основных производственных фондов, заработная плата и др.; влияние безработицы на изменение заработной платы на рынках труда (кривые Филипса); зависимость структуры расходов от уровня доходов (кривые Энгеля); функции потребления и спроса и многие другие.

При выборе вида регрессионной зависимости руководствуются следующим: он должен согласовываться с профессионально-логическими соображениями относительно природы и характера исследуемых связей; по возможности используют простые зависимости, не требующие сложных расчетов, легко экономически интерпретируемые и практически применимые.

Практика регрессионного анализа говорит о том, что уравнение линейной регрессии часто достаточно хорошо выражает зависимость между показателями даже тогда, когда на самом деле они оказываются более сложными. Это объясняется тем, что в пределах исследуемых величин самые сложные зависимости могут носить приближенно линейный характер.

В общей форме прямолинейное уравнение регрессии имеет вид

где y — результативный признак, исследуемая переменная;

xi — обозначение фактора (независимая переменная);

a — постоянный (свободный) член уравнения;

bi— коэффициент регрессии при факторе.

Увеличение результативного признака y при изменении фактора xi на единицу равно коэффициенту регрессии bi (с положительным знаком); уменьшение — (с отрицательным знаком).

Уравнение регрессии можно изобразить графически (рис. 5.1).

у

Отрезок «b» показывает

увеличении значения «х»

1 2 3

Рисунок 5.1 — График простой парной линейной регрессии y=a+bx

Очевидная экономическая интерпретация результатов линейной регрессии одна из основных причин ее применения в исследовании и прогнозировании экономических процессов. В зависимости от числа факторов, влияющих на результативный показатель, различают парную и множественную регрессии.

Кратко изложим основные положения по разработке и использованию в прогнозировании множественных линейных регрессионных моделей (парная регрессия может быть рассмотрена как частный случай множественной). Экономические явления определяются, как правило, большим числом совокупно действующих факторов. В связи с этим часто возникает задача исследования зависимости одной переменной Y от нескольких объясняющих переменных X12,…Хn. Эта задача решается с помощью множественного регрессионного анализа. Построение уравнения множественной регрессии начинается с решения вопроса о спецификации модели, включающего отбор факторов и выбор вида уравнения регрессии. Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям: они должны быть количественно измеримы (качественным факторам необходимо придать количественную определенность); между факторами не должно быть высокой корреляционной, а тем более функциональной зависимости, т.е. наличия мультиколлинеарности.

Читайте также:  Простата анализ какие надо сдать

Включение в модель мультиколлинеарных факторов может привести к следующим последствиям: затрудняется интерпретация параметров множественной регрессии как характеристик действия факторов в «чистом виде», поскольку факторы связаны между собой; параметры линейной регрессии теряют экономический смысл; оценки параметров ненадежны, имеют большие стандартные ошибки и меняются с изменением объема наблюдений.

Пусть — матрица – столбец значений зависимой переменной размера n (значок «Т» означает транспонирование);

— матрица объясняющих переменных;

— матрица – столбец (вектор) параметров размера m+1;

— матрица – столбец (вектор) остатков размера n.

Тогда в матричной форме модель множественной линейной регрессии запишется следующим образом:

(5.2)

При оценке параметров уравнения регрессии (вектора b) применяется метод наименьших квадратов (МНК). При этом делаются определенные предпосылки.

1. В модели (5.2) ε – случайный вектор, Х — неслучайная (детерминированная) матрица.

2. Математическое ожидание величины остатков равно нулю. М(ε) = 0n.

3. Дисперсия остатков εi постоянна для любого i (условие гомоскедастичности), остатки εi и εj при i≠j не коррелированны: .

4. ε – нормально распределенный случайный вектор.

5. r(X)=m+1 2 , определяемый по формуле (5.4):

, (5.4)

где yi – фактическое значение результирующего признака;

— значение результирующего признака, рассчитанное по полученной модели регрессии;

— среднее значение признака;

RSS – объясненная сумма квадратов;

TSS – общая сумма квадратов.

характеризует долю вариации зависимой переменной, обусловленной регрессией или изменчивостью объясняющих переменных. Чем ближе R 2 к единице, тем лучше построенная регрессионная модель описывает зависимость между объясняющими и зависимой переменной. В случае изучаемую связь можно трактовать как функциональную (а не статистическую), что требует дополнительных качественных и количественных сведений и изменений в процессе исследования.

Следует иметь в виду, что при включении в модель новой объясняющей переменной, коэффициент детерминации увеличивается, хотя это и не обязательно означает улучшение качества регрессионной модели. В этой связи лучше использовать скорректированный (поправленный) коэффициент детерминации R 2 , пересчитываемый по формуле:

(5.5)

m – число параметров при переменных х.

Таким образом, скорректированный коэффициент детерминации может уменьшаться при добавлении в модель новой объясняющей переменной, не оказывающей существенного влияния на результативный признак.

Средняя относительная ошибка аппроксимации рассчитывается по формуле:

(5.6)

Большинство авторов рекомендуют считать модель регрессии адекватной, если средняя относительная ошибка аппроксимации не превышает 12%.

Проверку значимости вида регрессионной зависимости можно осуществлять с применением дисперсионного анализа. Основной идеей этого анализа является разложение общей суммы квадратов отклонений результативной переменной y от среднего значения y на «объясненную» и «остаточную»:

(5.7)

Для приведения дисперсий к сопоставимому виду, определяют дисперсии на одну степень свободы. Результаты вычислений заносят в специальную таблицу дисперсионного анализа (табл. 5.1). В данной таблице n – число наблюдений, m – число параметров при переменных х. Сравнивая полученные оценки объясненной и остаточной дисперсии на одну степень свободы, определяют значение F-критерия Фишера, используемого для оценки значимости уравнения регрессии:

. (5.8)

С помощью F – критерия проверяется нулевая гипотеза о равенстве дисперсий H: σR 2 =σx 2 . Если нулевая гипотеза справедлива, то объясненная и остаточная дисперсии не отличаются друг от друга.

Таблица 5.1 — Результаты дисперсионного анализа

Компоненты дисперсии Сумма квадратов Число степеней свободы Оценка дисперсии на одну степень свободы
Общая n-1
Объясненная n
Остаточная n-m-1

Для того, чтобы уравнение регрессии было значимо в целом (гипотеза Н была опровергнута) необходимо, чтобы объясненная дисперсия превышала остаточную в несколько раз. Критическое значение F – критерия определяется по таблице Фишера – Снедекора (приложение 1). Fтабл – максимально возможное значение критерия под влиянием случайных факторов при степенях свободы k1 = m, k2 = n–m–1 (для линейной регрессии m = 1) и уровне значимости α. Уровень значимости α вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно величина α принимается равной 0,05 или 0,01. Расчетное значение сравнивается с табличным: если оно превышает табличное (Fрасч>Fтабл), то гипотеза Н отвергается, и уравнение регрессии признается значимым. Если Fрасч 2 следующим соотношением:

(5.9)

где m –число параметров при переменных х;

Для оценки статистической значимости коэффициентов регрессии и коэффициента корреляции r (r= ) применяется t-критерий Стьюдента.

Оценка значимости коэффициентов регрессии сводится к проверке гипотезы о равенстве нулю коэффициента регрессии при соответствующем факторном признаке, т.е. гипотезы:

Проверка нулевой статистической гипотезы проводится с помощью t – критерия Стьюдента:

(5.11)

mbi – средняя квадратическая ошибка коэффициента регрессии bi.

Средняя квадратическая ошибка коэффициента регрессии может быть определена по формуле:

(5.12)

где — среднее квадратическое отклонение для признака у;

— среднее квадратическое отклонение для признака хi;

— коэффициент детерминации для уравнения множественной регрессии;

— коэффициент детерминации для зависимости фактора хi со всеми другими факторами уравнения множественной регрессии;

n-m-1 — число степеней свободы для остаточной суммы квадратов отклонений.

Использование формулы (5.12) для расчета средней квадратической ошибки коэффициента регрессии предполагает расчет по матрице межфакторной корреляции соответствующих коэффициентов детерминации. Поэтому иногда рекомендуется использовать для определения средней квадратической ошибки коэффициента регрессии mbiчастные критерии Фишера.

Расчетное значение критерия Стьюдента сравнивается с табличным tтабл при заданном уровне значимости (для экономических процессов и явлений) и числе степеней свободы, равном n-2. Если расчетное значение превышает табличное, то гипотезу о несущественности коэффициента регрессии bi можно отклонить.

В линейной модели множественной регрессии коэффициенты регрессии bi характеризуют среднее изменение результата с изменением соответствующего фактора на единицу при неизменном значении других факторов, закрепленных на среднем уровне.

Значимость коэффициента корреляции r проверяется также на основе t-критерия Стьюдента (приложение 2). При этом выдвигается и проверяется гипотеза о равенстве коэффициента корреляции нулю (Н: r = 0). При проверке этой гипотезы используется t-статистика:

. (5.13)

При выполнении Н t-статистика имеет распределение Стьюдента с входными параметрами: α=0,05; k=n-2. Если расчетное значение больше табличного, то гипотеза Н отвергается.

На практике часто бывает необходимо сравнить влияние на зависимую переменную различных объясняющих переменных, когда последние выражаются разными единицами измерения. В этом случае используют стандартизованные коэффициенты регрессии βi и коэффициенты эластичности Эi(i=1,2,…,m).

Уравнение регрессии в стандартизованной форме обычно представляют в виде (5.14):

(5.14)

где — стандартизованные переменные.

Заменив значения «у» на ty, а значения «х» на получаем нормированные или стандартизованные переменные. В результате такого нормирования средние значения всех стандартизованных переменных равны нулю, а дисперсии равны единице, т.е.

Коэффициенты обычной («чистой») регрессии связаны со стандартизованными коэффициентами следующим соотношением:

(5.15)

Стандартизованные коэффициенты могут принимать значения от -1 до +1 и показывают, на сколько стандартных отклонений (сигм) изменится в среднем результат, если соответствующий фактор хi изменится на одно стандартное отклонение (одну сигму) при неизменном среднем уровне других факторов. Данные коэффициенты сохраняют свою величину при изменении масштаба шкалы. Сравнивая стандартизованные коэффициенты друг с другом, можно ранжировать факторы по силе их воздействия на результат.

В экономических исследованиях широкое применение находит такой показатель, как коэффициент эластичности, вычисляемый по формуле (5.16):

, (5.16)

где — производная, характеризующая соотношение приростов результата и фактора для соответствующей формы связи.

Средние коэффициенты эластичности для линейной регрессии вычисляются по формуле (5.17):

(5.17)

Коэффициент эластичности показывает, на сколько процентов (от средней) изменится в среднем Y при увеличении только фактора Xi на 1%.

При эконометрическом моделировании реальных экономических процессов предпосылки МНК нередко оказываются нарушенными: дисперсии остатков модели не одинаковы (гетероскедастичность остатков), или наблюдается корреляция между остатками в разные моменты времени (автокоррелированные остатки).

Проверить модель на гетероскедастичность можно с помощью следующих тестов: ранговой корреляции Спирмена; Голдфельда-Квандта; Уайта; Глейзера. В случае выявления гетероскедастичности остатков для оценки параметров регрессии используется обобщенный метод наименьших квадратов (ОМНК). Технология ОМНК подробно описана во многих учебниках по эконометрике.

Влияние результатов предыдущих наблюдений на результаты последующих приводит к тому, что случайные величины (ошибки) εi в регрессионной модели становятся зависимыми. Такие модели называются моделями с наличием автокорреляции. Как правило, если автокорреляция присутствует, то наибольшее влияние на последующее наблюдение оказывает результат предыдущего наблюдения. Наличие автокорреляции между соседними уровнями ряда можно определить с помощью теста Дарбина-Уотсона. Расчетное значение критерия Дарбина-Уотсона определяется по следующей формуле:

, (5.18)

. (5.19)

Т.е. величина есть отношение суммы квадратов разностей последовательных значений остатков к остаточной сумме квадратов по модели регрессии.

Значения критерия находятся в интервале от 0 до 4. По таблицам критических точек распределения Дарбина-Уотсона для заданного уровня значимости , числа наблюдений (n) и количества объясняющих переменных (m) находят пороговые значения dн(нижняя граница) и dв(верхняя граница) (приложение 3).

Если расчетное значение (табл. 5.2):

, то гипотеза об отсутствии автокорреляции не отвергается (принимается);

или , то вопрос об отвержении или принятии гипотезы остается открытым (расчетное значение попадает в зону неопределенности);

, то принимается альтернативная гипотеза о наличии положительной автокорреляции;

, то принимается альтернативная гипотеза о наличии отрицательной автокорреляции.

Таблица 5.2 — Промежутки внутри интервала [0 — 4]

принимается альтернативная гипотеза о наличии положительнойавтокорреляции вопрос об отвержении или принятии гипотезы остается открытым (расчетное значение попадает в зону неопределенности) гипотеза об отсутствии автокорреляции не отвергается (принимается) вопрос об отвержении или принятии гипотезы остается открытым (расчетное значение попадает в зону неопределенности) принимается альтернативная гипотеза о наличии отрицательной автокорреляции

Недостаток теста Дарбина-Уотсона заключается прежде всего в том, что он содержит зоны неопределенности. Во-вторых, он позволяет выявить наличие автокорреляции только между соседними уровнями, тогда как автокорреляция может существовать и между более отдаленными наблюдениями. Поэтому наряду с тестом Дарбина-Уотсона для проверки наличия автокорреляции используются тест серий (Бреуша-Годфри), Q-тест Льюинга-Бокса и другие. Наиболее распространенным приемом устранения автокорреляции во временных рядах является построение авторегрессионных моделей.

Не нашли то, что искали? Воспользуйтесь поиском:

источник

Регрессионный и корреляционный анализ позволяет установить и оценить зависимость изучаемой случайной величины Y от одной или нескольких других величин X, и делать прогнозы значений Y. Параметр Y, значение которого нужно предсказывать, является зависимой переменной. Параметр X, значения которого нам известны заранее и который влияет на значения Y, называется независимой переменной. Например, X – количество внесенных удобрений, Y – снимаемый урожай; X – величина затрат компании на рекламу своего товара, Y – объем продаж этого товара и т.д.

Корреляционная зависимость Y от X – это функциональная зависимость:

(26)

–среднее арифметическое (условное среднее) всех возможных значений параметра Y, которое соответствует значение X=x.

Уравнение (26) называется уравнением регрессии Y на X, функция f(x) – регрессией Y на X, а ее график – линией регрессии Y на X.

Основная задача регрессионного анализа – установление формы корреляционной связи, то есть вида функции регрессии (линейная, квадратичная, показательная и т.д.).

Метод наименьших квадратов позволяет определить коэффициенты уравнения регрессии таким образом, чтобы точки, построенные по исходным данным (xi, yi), лежали как можно ближе к точкам линии регрессии. Формально это записывается как минимизация суммы квадратов отклонений (ошибок) функции регрессии и исходных точек.

(27)

–значение, вычисленное по уравнению регрессии;

— отклонение ε (ошибка, остаток) (рис. 1.11);

n – количество пар исходных данных.

В регрессионном анализе предполагается, что математическое ожидание случайной величины ε равно нулю и ее дисперсия одинакова для всех наблюдаемых значений Y. Отсюда следует, что рассеяние данных возле линии регрессии должно быть одинаково при всех значениях параметра X.

В случае, показанном на рисунке 1.12 данные распределяются вдоль линии регрессии неравномерно, поэтому метод наименьших квадратов в этом случае неприменим.

Основная задача корреляционного анализа – оценка тесноты (силы) корреляционной связи. Теснота корреляционной зависимости Y от X оценивается по величине рассеяния значений параметра Y вокруг условного среднего . Большое рассеяние говорит о слабой зависимости Y от X, либо об ее отсутствии и, наоборот, малое рассеяние указывает на наличие достаточно сильной зависимости.

Рисунок 1.11 – Понятие отклонения ε для случая линейной регрессии

Рисунок 1.12 – Неравномерное распределение исходных точек вдоль линии регрессии

Коэффициент детерминации r 2 показывает, на сколько процентов (r 2 *100%) найденная функция регрессии описывает связь между исходными значениями параметров Y и X:

(28)

–объясненная вариация;

— общая вариация (рисунок 1.13).

Читайте также:  Как сделать анализ анкетирования пример

Рисунок 1.13 – Графическая интерпретация коэффициента детерминации для случая линейной регрессии

Соответственно, величина (1- r 2 )*100% показывает, сколько процентов вариации параметра Y обусловлены факторами, не включенными в регрессионную модель. При высоком (r 2 ≥ 75%) значение коэффициента детерминации можно делать прогноз y*=f(x*) для конкретного значения x*.

Для проведения регрессионного анализа и прогнозирования необходимо:

1) построить график исходных данных и попытаться зрительно, приближенно определить характер зависимости;

2) выбрать вид функции регрессии, которая может описывать связь исходных данных;

3) определить численные коэффициенты функции регрессии;

4) оценить силу найденной регрессионной зависимости на основе коэффициента детерминации r 2 ;

5) сделать прогноз (при r 2 ≥ 75%) или сделать вывод о невозможности прогнозирования с помощью найденной регрессионной зависимости. При этом не рекомендуется использовать модель регрессии для тех значений независимого параметра X, которые не принадлежат интервалу, заданному в исходных данных.

Линейная регрессия. Коэффициенты линейной регрессии y=a +a1x вычисляются по следующим формулам (все суммы берутся по n парам исходных данных):

(29)

Для удобства вычислений используют вспомогательную таблицу (таблица 1.14), в которой рассчитываются необходимые суммы.

Вспомогательная таблица для линейной функции

Сумма ( ) по столбцу

Пример 1.5. Некоторая фирма занимается поставками различных грузов на короткие расстояния внутри города. Перед менеджером стоит задача оценить стоимость таких услуг, зависящую от затраченного на поставку времени. В качестве наиболее важного фактора, влияющего на время поставки, менеджер выбрал пройденное расстояние. Были собраны исходные данные о десяти поставках (таблица 1.15).

Исходные данные для примера 1.5

Необходимо построить график исходных данных, определить по нему характер зависимости между расстоянием и затраченным временем, проанализировать применимость метода наименьших квадратов, построить уравнение регрессии, проанализировать силу регрессионной связи и сделать прогноз времени поездки на 2 мили.

Решение. На рисунке 1.14 построены исходные данные по десяти поездкам.

Помимо расстояния на время поставки влияют пробки на дорогах, время суток, дорожные работы, квалификация водителя, вид транспорта. Построенные точки не находятся точно на линии, что обусловлено описанными выше факторами. Но эти точки собраны вокруг прямой линии, поэтому можно предположить линейную связь между параметрами. Все исходные точки равномерно распределены вдоль предполагаемой прямой линии, что позволяет применить метод наименьших квадратов.

Вычислим суммы, необходимые для расчета коэффициентов линейной регрессии, коэффициента детерминации с помощью таблицы 1.16.

Рисунок 1.14 – График исходных данных для примера 1.5

Вспомогательная таблица для примера 1.5

По формулам (29) вычислим коэффициенты линейной регрессии:

;

.

Таким образом, искомая регрессионная зависимость имеет вид:

(30)

Наклон линии регрессии а1=2,66 минут на милю – это количество минут, приходящееся на одну милю расстояния. Координата точки пересечения прямой с осью Y а=5,913 минут – это время, которое не зависит от пройденного расстояния, а обуславливается всеми остальными возможными факторами, явно не учтенными при анализе.

По формуле (28) вычислим коэффициент детерминации:

или 91,8%.

Таким образом, линейная модель объясняет 91,8% вариации времени доставки. Не объясняется 100% — 91,8% = 8,2% вариации времени поездки, которые обусловлены остальными факторами, влияющими на время поставки, но не включенными в линейную модель регрессии.

Поскольку коэффициент детерминации имеет достаточно высокое значение и расстояние 2 мили, для которого надо сделать прогноз, находится в пределах диапазона исходных данных (см. таблицу 1.15), то мы можем использовать полученное уравнение линейной регрессии (30) для прогнозирования:

y* (2 мили) = 5,913+2,660*2 = 11,2 минут.

При прогнозах на расстояния, не входивших в диапазон исходных данных, нельзя гарантировать справедливость модели (30). Это объясняется тем, что связь между временем и расстоянием может изменяться по мере увеличения расстояния. На время дальних перевозок могут влиять новые факторы такие, как использование скоростных шоссе, остановки на отдых, обед и т.п.

Приблизительным, но самым простым и наглядным способом проверки удовлетворительности регрессионной модели является графическое представление отклонений (рисунок 1.15).

Рисунок 1.15 – График отклонений в примере 1.5

Отложим отклонений по оси Y, для каждого значения. Если регрессионная модель близка к реальной зависимости, то отклонения будут носить случайный характер и их сумма будет близка к нулю. В рассмотренном примере.

Рассмотрим наиболее простые случаи нелинейной регрессии: гиперболу, экспоненту и параболу. При нахождении коэффициентов гиперболы и экспоненты используют прием приведения нелинейной регрессионной зависимости к линейному виду. Это позволяет использовать для вычисления коэффициентов функции регрессии формулы (29).

Гипербола. При нахождении гиперболы вводят новую переменную, тогда уравнение гиперболы принимает линейный вид. После этого используют формулы (29) для нахождений линейной функции, но вместо значенийxi используются значения

; .

При проведении вычислений во вспомогательную таблицу вносятся соответствующие колонки.

Экспонента. Для приведения к линейному виду экспоненты проведем логарифмирование

;

;

.

Введем переменные и, тогда, откуда следует, что можно применять формулы (29), в которых вместо значенийyi надо использовать ln yi

; .

При этом мы получим численные значения коэффициентов b и b1, от которых надо перейти к a и a1, используемых в модели экспоненты. Исходя из введенных обозначений и определения логарифма, получаем

, .

Парабола. Для нахождения коэффициентов параболы необходимо решить линейную систему из трех уравнений

,

,

Оценка силы нелинейной регрессионной связи. Силы регрессионной связи для гиперболы и параболы определяется непосредственно по формуле (28). При вычислении коэффициента детерминации экспоненты все значения параметра Y (исходные, регрессионные, среднее) необходимо заменить на их логарифмы, например, — наи т.д.

источник

Задача прогнозирования стационарных однородных процессов довольно проста. Значительно более сложной представляется задача прогнозирования стационарных процессов, протекающих в условиях неоднородности внешней среды. Стационарные процессы, как об этом было сказано в первой главе учебника, характеризуются тем, что они не претерпевают качественных изменений, т.е. не меняют свою структуру, силу и направление взаимосвязей между элементами. Но поскольку эти процессы наблюдаются в условиях неоднородной среды, эта неоднородность оказывает влияние на количественные характеристики процесса — помимо случайных факторов на него воздействуют факторы неслучайной природы. Рассмотрим вначале простой случай, когда на прогнозируемый показатель у оказывает влияние только один фактор х, и это влияние является линейным, т.е. между переменными имеется следующая регрессионная зависимость:

Пусть функция плотности распределения случайной величину у имеет вид /(г/, 0), где у — это изучаемые случайные величины (у = yv у2, . )> 0 — некоторый параметр. Тогда событие, заключающееся в независимом отборе из этой совокупности Т элементов, в соответствии с теоремой умножения вероятностей независимых событий будет описываться следующей общей функцией плотности вероятностей:

Так как случайные величины = yit у2,Ут) уже имеются в распоряжении исследователя, то неизвестной переменной выступает параметр 0. В рамках заданной функции плотности вероятности различные значения этого параметра приводят к тому, что случайные величины (.у =у, у2,. у?) принимают разные значения. Но в рассматриваемом случае эти величины нам заданы, следовательно, есть некоторое значение параметра 0, которому и соответствует имеющаяся выборка. Наша задача — найти это неизвестное значение параметра.

Теперь можно сформулировать правило нахождения данного параметра. Надо найти оценки 0 так, чтобы придать максимальное правдоподобие высказанному предположению о характере распределения вероятностей, в соответствии с которым получена данная выборка. Иначе говоря, нам надо найти такое значение параметра 0, при котором функция плотности вероятностей (3.63) принимала бы максимальные значения. Это правило, предопределяющее направление поиска наилучших оценок параметров модели, получило название метода максимального правдоподобия. Так как нами априорно задан закон распределения вероятностей /, то, подставляя его математическое выражение в формулу (3.63), сводим тем самым задачу к поиску максимального значения этой функции по неизвестному параметру 0. Можно применить этот подход непосредственно к функции (3.63), но значительно проще свести задачу от мультипликативной формы (3.63) к линейной аддитивной форме с помощью логарифмирования, например, но натуральному основанию:

Правомерно ли это? Так как п f(y) есть монотонная функция от самой /(у), то ее максимум достигается в той же самой точке, что и у исходной функции. Возьмем первую производную (3.64) по параметру 0:

Так как функция (3.63) но определению не равна нулю в точке своего максимума, то в этой точке из равенства

Покажем, как, используя метод максимального правдоподобия, получить искомые оценки коэффициентов линейной зависимости. Пусть закон плотности распределения вероятностей соответствует нормальному:

Так как моделью процесса выступает линейная регрессия, то параметр 0 представляет собой уравнение этой модели, т.е.

Подставим (3.66) и (3.67) в (3.64). Получим

Наша задача — нахождение максимума этой функции по параметрам а и ал. Легко убедиться в том, что первое слагаемое полученного выражения не зависит от этих параметров, поэтому максимум функции (3.68) равнозначен нахождению максимума такой функции:

В свою очередь, так как сомножитель перед знаком суммы есть величина постоянная (неизвестны только а и ах) и отрицательная, то максимум этой функции соответствует минимуму другой функции:

Полученная функция соответствует известной в математической статистике сумме квадратов ошибок, минимизация которой позволяет найти оценки методом наименьших квадратов (МНК), ведь теперь нам нужно минимизировать сумму квадратов отклонений расчетных значений от фактических. Следовательно, принцип максимального правдоподобия в случае, когда есть основания утверждать наличие нормального закона распределения вероятностей, в качестве лучшего метода оценки параметров модели характеризует метод наименьших квадратов. А с учетом того, что для стационарных процессов чаще всего наблюдается именно нормальный закон вероятностей, то МНК получил максимальное распространение на практике.

Обратим внимание на одно следствие из полученных результатов: в случае, если остатки модели не распределены нормально, вместо МНК имеет смысл использовать метод максимального правдоподобия с другим заданным априори законом распределения случайной величины. Например, в ситуации, когда в качестве зависимой переменной выступает целочисленная величина (такая как количество посетителей кафе), в качестве такого закона можно использовать Пуассоновское распределение.

Применительно к нашей модели линейной регрессии условие минимума квадратов отклонений сводится к нахождению первых производных функции (3.69) по неизвестным параметрам а и ах и приравниванию их к нулю, т.е.

Отсюда легко найти систему уравнений, которая в данном случае будет называться «системой нормальных уравнений», поскольку соответствует нормальному закону распределения:

В табл. 3.2 приведены значения изменения производительности труда сдельщика в зависимости от величины расценки за единицу труда. Необходимо оценить значения коэффициентов линейной регрессионной модели с тем, чтобы в последующем использовать эту модель для прогнозирования.

Изменение производительности труда при увеличении сдельной оплаты

Расценка за единицу продукции, руб/шт.

Количество произведенной продукции, шт.

Используя данные табл. 3.2, найдем необходимые суммы и подставим

их в систему нормальных уравнений (3.71) •Л

Решая эту систему, получим такое уравнение регрессии: у, = 82,Зд; — 4,2. Графически эту модель мы представили на рис. 3.5.

Рис. 3.5. Точечная диаграмма зависимости между расценками за единицу продукции (ось Олт) и количеством произведенной продукции (ось 0у), а так же построенная модель парной регрессии (прямая линия)

Как видим, построенная модель проходит посередине «облака», образованного из точек по нашим данным.

Эта модель описывает исходные данные с ошибкой, дисперсия которой равна =0,992. Средняя относительная ошибка аппроксимации sMAPE = 3,30%.

Теперь уравнение регрессии можно использовать для прогнозирования. Например, с помощью этой модели можно спрогнозировать производительность труда рабочего, если поднять расценку до 0,54 руб/шт. Для этого в полученную прогнозную модель надо подставить х = 0,54 и выполнить расчет:

Это значение на графике изображено ромбиком в правой верхней части.

Зададим доверительную вероятность, равную 0,95. Для 14 наблюдений при этой доверительной вероятности из таблиц ^-статистики Стьюдента получим значение t = 2,18.

Тогда можно с вероятностью 0,95 ожидать, что при расценке в 0,54 руб/шг. рабочий будет вырабатывать:

Для получения более точных границ необходимо строить доверительный интервал, исходя из расчета условного математического ожидания и дисперсии, т.е. рассмотреть М(у[х) и D(yx) на основе коэффициентов модели и дисперсии ошибки модели.

Коэффициенты модели парной регрессии вида yt=a+axt+zt могут быть найдены и по более простым формулам. Чтобы вывести их, центрируем предварительно значения х и у. Так мы избавимся от константы в модели. Получим: у[ = алх[ + е(, где у[ = уt, х[ = xt-х.

Применяя МНК к такой модели, получим уравнение с одной неизвестной Y,y’t x t = а решая которое, получим формулу * 1

Формула для константы выводится из первого уравнения системы нормальных уравнений (3.71): =Та1‘?х[.

Разделим левую и правую части этого уравнения на число наблюдений п и перегруппируем составляющие в формуле:

В (3.73) мы видим средние значения у и х, т.е. формулу можно представить в простом виде:

С линейными моделями прогнозисты встречаются повсеместно. Но не менее часто встречаются случаи, когда изменения показателя в зависимости от изменений фактора носят нелинейный характер и использование линейных моделей в прогнозировании ошибочно и возникает задача нахождения коэффициентов таких нелинейных моделей.

Читайте также:  Как делать анализ на английском

С позиций того, насколько просто удается применить МНК к оценке параметров таких нелинейных моделей, выделяют два вида моделей:

  • • линейных по параметрам;
  • • нелинейным по параметрам.

К первому типу моделей относят те из них, оценки МНК которых получаются либо непосредственно при применении МНК, либо при осуществлении линеаризации модели. Вторые модели невозможно привести к линейному виду с помощью подобных преобразований.

Рассмотрим сначала линейные по параметрам нелинейные модели и способы нахождения выборочных значений коэффициентов этих моделей.

Довольно просто найти оценки МНК коэффициентов моделей полиномов разных степеней, например, для квадратичной регрессии:

Применяя МНК к этой модели, получим такую систему нормальных уравнений:

Решая ее относительно неизвестных коэффициентов, можно получить оценку МНК их выборочных значений.

Известно, что полиномы высоких степеней очень неустойчивы, поэтому на практике моделей в форме полиномов со степенью больше двух стремятся избегать, хотя системы нормальных уравнений для этих моделей вычисляются довольно просто.

Также просто найти систему нормальных уравнений для других аддитивных нелинейных моделей. Например, для модели

получим систему уравнений МНК:

решая которую, найдем оценки коэффициентов модели (3.77), соответствующие оценкам МНК.

Применение МНК к этим аддитивным моделям будет давать несмещенные оценки коэффициентов, когда сумма отклонений расчетных значений показателя от его фактических величин будет равна нулю. Это свидетельствует о том, что модель в среднем проходит через все точки так, что количество точек, расположенных выше модели, примерно равно количеству точек, расположенных ниже нее.

Но в моделях, в которых неизвестные коэффициенты представлены в мультипликативной форме, ситуация изменяется. Рассмотрим в качестве примера задачу оценивания коэффициентов одной из простых прогнозных экспоненциальных моделей:

Как следует из логики МНК, необходимо найти такие значения коэффициентов а и ах этой модели, для которых выполняется условие

Поскольку сумма квадратов отклонений расчетных значений от фактических представляет собой функцию от двух переменных а и а> то для нахождения этого минимума необходимо вычислить первые производные функции (3.80) от каждой из переменных и приравнять их к нулю. Решая полученную систему уравнений, можно найти искомые значения коэффициентов.

Применительно к модели (3.79) это условие запишется так:

Вычисляя первые производные каждого равенства системы (3.81) и подставляя их, получим искомую систему нормальных уравнений:

Получена система нелинейных уравнений, которую невозможно решить известными методами линейной алгебры. Для решения этой системы необходимо использовать многоитеративную процедуру одного из численных методов. Для специалиста в области экономико-математического моделирования это не составит труда, проблемы могут быть чисто методическими — необходимо выбрать один из алгоритмов нахождения оптимума численных методов, реализовывать его в той или иной программной среде и т.п., т.е. затратить относительно большой промежуток времени на решение довольно тривиальной задачи. Если прогнозист не обладает необходимыми знаниями, он эту задачу решить не сможет.

Несколько десятков лет назад, когда ученые не были вооружены вычислительной техникой так, как это имеет место сегодня, использование численных методов для решения этой задачи становилось чрезвычайно трудоемким, поэтому задача нахождения коэффициентов мультипликативных моделей решалась с помощью линеаризации нелинейных моделей. Применительно к модели (3.79) это делается так.

Прологарифмируем левую и правые части равенства (3.79) по натуральному основанию:

Как видно, в результате логарифмирования модель из мультипликативной формы превратилась в модель аддитивной формы, да к тому же еще и линейного вида. Именно поэтому подобная процедура и получила название «линеаризация».

После линеаризации задача нахождения коэффициентов модели с помощью МНК ставится следующим образом. Логарифмы фактических наблюдений yt должны описываться логарифмами (3.82) так, чтобы сумма квадратов отклонений между ними была минимальна: ?(1пг/, — Inyt) =

Находя первые производные этой функции по ее параметрам In я о и ах и приравнивая их к нулю, получим систему нормальных уравнений:

Эта система имеет довольно простое алгебраическое решение, что позволяет легко найти коэффициенты модели. Но поскольку, решая систему, находятся значения 1пя, а не я, как это необходимо для построения прогнозной модели (3.79), следует из логарифма коэффициента найти его исходное значение: а = e hw o.

Теперь полученные с помощью МНК оценки коэффициентов можно подставлять в модель и выполнять с ее помощью прогнозы.

Таким же образом поступают и с другими нелинейными моделями. Покажем, как это делается, на примере основных из них.

Если прогнозист считает необходимым использовать в качестве модели тренда степенную функцию у(хр, то для ее линеаризации надо вновь прологарифмировать по любому основанию левую и правую части равенства. Получим 1пр, =1пя11п^.

Тогда, применяя для линеаризированной модели МНК, получим систему нормальных уравнений:

Если в основании показательной степени лежит число 10, то показательная функция имеет вид

Чтобы найти коэффициенты этой модели, необходимо ее линеаризовать. Поскольку основанием показательной степени является число 10, то и логарифмировать левую и правую части равенства (3.83) надо по десятичному основанию: lg.% = lgao + a A-

Тогда задача ставится так — минимизировать сумму квадратов отклонений логарифмов расчетных значений от фактических. Для этого формируется система нормальных уравнений:

Решение задачи дает расчетные значения lgtf и ах. Чтобы использовать модель (3.83) в прогнозировании, находим исходное значение коэффициента а: а = 10 lgfl o.

При использовании в прогнозировании показательной модели с любым основанием

поступают также. Но поскольку основание этой модели не равно е и не равно 10, то непонятно, по какому же основанию логарифмировать левую и правые части модели для того, чтобы линеаризовать ее? На самом деле, никакой особенной разницы здесь нет, поэтому логарифмировать можно по любому основанию. Для определенности прологарифмируем левую и правую части (3.84) по натуральному основанию: yt = a+axt k.

Система нормальных уравнений для МНК применительно к этой линеаризованной модели будет иметь вид

Из решения данной системы нормальных уравнений легко перейти к исходному виду модели (вычисляя коэффициент а) так, как это делается для других моделей: а = е’ п “о.

Казалось бы, найдены оценки этих нелинейных моделей, и усложнять больше ничего не нужно. Надо брать полученные расчетные значения и, подставляя их в модель, вычислять для заданного прогнозного периода значения прогнозируемого показателя. Но поскольку мы вычисляем коэффициенты модели на выборочном множестве вероятного процесса, необходимо оценить доверительные границы этих коэффициентов. Тогда на основе этих границ вычисляются интервальные значения прогнозируемой величины. Эта процедура рассмотрена в параграфе 3.3.

Однако простота указанных рассуждений скрывает за собой одну непростую проблему. Дело в том, что МНК во всех случаях линеаризации нелинейных моделей применяется не для исходной, а для линеаризованной модели. Поэтому все замечательные свойства оценок коэффициентов, полученных для случайных нормально распределенных процессов с помощью МНК (состоятельность, несмещенность и эффективность), соответствуют не исходным, а линеаризованным моделям.

Напомним, что оценки коэффициентов модели будут являться состоятельными, если они по вероятности сходятся к оцениваемому параметру при неограниченном возрастании объема выборки. Чем большее число наблюдений учитывается при оценивании коэффициентов модели, тем точнее становится оценка выборочного значения коэффициента. Несмещенными называются оценки выборочного значения параметра, в которых отсутствуют систематические отклонения от оцениваемого параметра. Поскольку по выборочным значениям можно оценить коэффициенты модели разными способами, то каждый из них даст различную величину дисперсии отклонения расчетных значений от фактических. Тот метод оценивания, который даст наименьшую дисперсию, будет являться эффективным.

Доказано, что в случае нормально распределенной случайной величины, использование МНК приводит к тому, что полученные выборочные оценки будут являться состоятельными, несмещенными и эффективными. Но, эти оценки характерны для линеаризованных, а не для исходных моделей. Покажем, какими будут оценки для исходных нелинейных мультипликативных моделей. Воспользуемся для этого экспоненциальной моделью: yt = ae° lXt .

Линеаризованная модель будет описывать логарифм исходного ряда с некоторой ошибкой е,: е, = yt— yt.

по сути, сводится к минимизации суммы квадратов этой ошибки:

Несмещенность оценок МНК коэффициентов линеаризованной модели означает, что на рассматриваемом выборочном множестве сумма отклонений е, будет равна нулю:

Из (3.85) легко получить следующее равенство: In yt = Inyt + et, откуда

Ошибка et является мультипликативной по отношению к исходной модели. Получается, что при линеаризации исследователь автоматически делает предположение о том, что ошибка в модели имеет мультипликативный вид. А это, в свою очередь, будет означать, что с ростом значения у будет расти и величина ошибки, что, конечно же, не всегда выполняется и не всегда имеет смысл.

Обозначим аддитивную ошибку отклонений расчетных значений модели от фактических через ?,r =yt -yh откуда

Левые части (3.87) и (3.88) равны друг другу, следовательно, равны друг другу и правые части этих равенств, т.е. У/ 1 = It + Уt-

Тогда можно вывести аддитивную ошибку в зависимости от расчетных значений показателя и мультипликативной ошибки, характерной для оценок МНК линеаризованной модели:

Поскольку исходный ряд значений yt положителен и не равен нулю — он изменяется по тенденции, близкой к экспоненте, — постольку и его расчетные значения положительны. Тогда из полученного равенства видно, что аддитивная ошибка ^ будет равна нулю только в одном случае, — когда мультипликативная ошибка zt также будет равна нулю. Относительно мультипликативных ошибок е„ соответствующих оценке МНК, известно, что они в сумме дают нуль (3.86), а поскольку оценки МНК состоятельны и эффективны, то дисперсия этой ошибки мала. Размахи отрицательных (emin=mine() и положительных величин (emax =maxef)

этих ошибок по вероятности равны друг другу: |emi„| = e„iax*

Множитель при расчетных значениях показателя представляет собой функцию, изображенную на графике рис. 3.6.

Рис. 3.6. Функция изменения множителя (e Ft — 1) в зависимости от zt

Зная, как ведет себя этот множитель в зависимости от мультипликативной ошибки, можно ответить и на вопрос: чему в среднем будет равна сумма отклонений т.е. как пройдет модель с коэффициентами, оцененными с помощью МНК, по линеаризованной модели?

Исходная модель будет несмещенной, если сумма

Равенство (3.90) с учетом (3.89) можно записать так:

Чтобы ответить на поставленный вопрос, вначале примем для простоты, что у г = const > 0.

Тогда знак суммы (3.91) определяется знаком суммы

Его можно понять, если обратиться к графику рис. 3.6. Эта сумма будет представлять собой площадь фигуры, изображенной на графике двумя заштрихованными областями. Левее нулевой точки расположена отрицательная часть этой суммы, правее — положительная часть. На рисунке видно, что площадь отрицательной части меньше, чем площадь положительной. Это означает, что знак суммы будет положительным:

Поскольку угФ const, но при этом является положительным, знак меняться не будет.

Таким образом, линеаризация исходных моделей и применение к ним МНК приводит к смещению оценок исходных моделей. Применение МНК непосредственно к исходной модели, хотя и приводит к серьезным вычислительным сложностям, поскольку необходимо решать систему нелинейных уравнений типа (3.80), но позволяет получить несмещенные оценки модели так, что дисперсия ошибки аппроксимации при этом будет минимальной.

Кстати, из вывода о том, что сумма аддитивной ошибки модели положительна, следует вывод о том, как опишет исходный ряд модель нелинейного тренда со смещенными оценками. Подставим в (3.92) значения ошибки из (3.88): S^ = S(*/,-?,)>o.

Это означает, что модель в среднем пройдет ниже исходных точек:

Следовательно, и прогноз, который будет выполняться с помощью такой модели, будет давать прогнозисту искаженные оценки.

Поэтому, хотя процедура линеаризации и используется повсеместно на практике для применения МНК, необходимо помнить, что при прогнозе такие модели будут неточными и содержащими в себе систематическую ошибку.

Пусть исходный ряд представляет собой некоторую возрастающую последовательность, подчиняющуюся экспоненциальному закону

изменения: yt = 2с 0,1л ‘ +sf, где е, — случайная нормально распределенная величина с нулевым математическим ожиданием (табл. 3.3).

Логарифмируя исходный ряд, тем самым его линеаризуя, мы приводим его к виду, удобному для применения МНК. Третий столбец табл. 3.3 содержит эти значения. МНК, примененный к этим логарифмам так, как это показано в системе нормальных уравнений (3.83), позволяет найти значения коэффициентов линеаризованной модели:

Экспонируя полученную функцию, найдем исходную модель:

В четвертом столбце табл. 3.3 приведены эти расчетные величины. Теперь можно вычислить ошибку аппроксимации модели — она приведена в этой же таблице в последнем столбце. Просуммировав значения этого столбца по всем наблюдениям, найдем сумму ошибок аппроксимации:

Условный пример, демонстрирующий смещенность оценок МНК для линеаризованной модели

источник