Меню Рубрики

Как сделать анализ уравнения регрессии

Регрессионный анализ является одним из самых востребованных методов статистического исследования. С его помощью можно установить степень влияния независимых величин на зависимую переменную. В функционале Microsoft Excel имеются инструменты, предназначенные для проведения подобного вида анализа. Давайте разберем, что они собой представляют и как ими пользоваться.

Но, для того, чтобы использовать функцию, позволяющую провести регрессионный анализ, прежде всего, нужно активировать Пакет анализа. Только тогда необходимые для этой процедуры инструменты появятся на ленте Эксель.

    Перемещаемся во вкладку «Файл».

Открывается окно параметров Excel. Переходим в подраздел «Надстройки».

В самой нижней части открывшегося окна переставляем переключатель в блоке «Управление» в позицию «Надстройки Excel», если он находится в другом положении. Жмем на кнопку «Перейти».

Теперь, когда мы перейдем во вкладку «Данные», на ленте в блоке инструментов «Анализ» мы увидим новую кнопку – «Анализ данных».

Существует несколько видов регрессий:

  • параболическая;
  • степенная;
  • логарифмическая;
  • экспоненциальная;
  • показательная;
  • гиперболическая;
  • линейная регрессия.

О выполнении последнего вида регрессионного анализа в Экселе мы подробнее поговорим далее.

Внизу, в качестве примера, представлена таблица, в которой указана среднесуточная температура воздуха на улице, и количество покупателей магазина за соответствующий рабочий день. Давайте выясним при помощи регрессионного анализа, как именно погодные условия в виде температуры воздуха могут повлиять на посещаемость торгового заведения.

Общее уравнение регрессии линейного вида выглядит следующим образом: У = а0 + а1х1 +…+акхк . В этой формуле Y означает переменную, влияние факторов на которую мы пытаемся изучить. В нашем случае, это количество покупателей. Значение x – это различные факторы, влияющие на переменную. Параметры a являются коэффициентами регрессии. То есть, именно они определяют значимость того или иного фактора. Индекс k обозначает общее количество этих самых факторов.

    Кликаем по кнопке «Анализ данных». Она размещена во вкладке «Главная» в блоке инструментов «Анализ».

Открывается небольшое окошко. В нём выбираем пункт «Регрессия». Жмем на кнопку «OK».

Открывается окно настроек регрессии. В нём обязательными для заполнения полями являются «Входной интервал Y» и «Входной интервал X». Все остальные настройки можно оставить по умолчанию.

В поле «Входной интервал Y» указываем адрес диапазона ячеек, где расположены переменные данные, влияние факторов на которые мы пытаемся установить. В нашем случае это будут ячейки столбца «Количество покупателей». Адрес можно вписать вручную с клавиатуры, а можно, просто выделить требуемый столбец. Последний вариант намного проще и удобнее.

В поле «Входной интервал X» вводим адрес диапазона ячеек, где находятся данные того фактора, влияние которого на переменную мы хотим установить. Как говорилось выше, нам нужно установить влияние температуры на количество покупателей магазина, а поэтому вводим адрес ячеек в столбце «Температура». Это можно сделать теми же способами, что и в поле «Количество покупателей».

С помощью других настроек можно установить метки, уровень надёжности, константу-ноль, отобразить график нормальной вероятности, и выполнить другие действия. Но, в большинстве случаев, эти настройки изменять не нужно. Единственное на что следует обратить внимание, так это на параметры вывода. По умолчанию вывод результатов анализа осуществляется на другом листе, но переставив переключатель, вы можете установить вывод в указанном диапазоне на том же листе, где расположена таблица с исходными данными, или в отдельной книге, то есть в новом файле.

После того, как все настройки установлены, жмем на кнопку «OK».

Результаты регрессионного анализа выводятся в виде таблицы в том месте, которое указано в настройках.

Одним из основных показателей является R-квадрат. В нем указывается качество модели. В нашем случае данный коэффициент равен 0,705 или около 70,5%. Это приемлемый уровень качества. Зависимость менее 0,5 является плохой.

Ещё один важный показатель расположен в ячейке на пересечении строки «Y-пересечение» и столбца «Коэффициенты». Тут указывается какое значение будет у Y, а в нашем случае, это количество покупателей, при всех остальных факторах равных нулю. В этой таблице данное значение равно 58,04.

Значение на пересечении граф «Переменная X1» и «Коэффициенты» показывает уровень зависимости Y от X. В нашем случае — это уровень зависимости количества клиентов магазина от температуры. Коэффициент 1,31 считается довольно высоким показателем влияния.

Как видим, с помощью программы Microsoft Excel довольно просто составить таблицу регрессионного анализа. Но, работать с полученными на выходе данными, и понимать их суть, сможет только подготовленный человек.

Отблагодарите автора, поделитесь статьей в социальных сетях.

источник

Регрессионный анализ — это статистический метод исследования, позволяющий показать зависимость того или иного параметра от одной либо нескольких независимых переменных. В докомпьютерную эру его применение было достаточно затруднительно, особенно если речь шла о больших объемах данных. Сегодня, узнав как построить регрессию в Excel, можно решать сложные статистические задачи буквально за пару минут. Ниже представлены конкретные примеры из области экономики.

Само это понятие было введено в математику Фрэнсисом Гальтоном в 1886 году. Регрессия бывает:

  • линейной;
  • параболической;
  • степенной;
  • экспоненциальной;
  • гиперболической;
  • показательной;
  • логарифмической.

Рассмотрим задачу определения зависимости количества уволившихся членов коллектива от средней зарплаты на 6 промышленных предприятиях.

Задача. На шести предприятиях проанализировали среднемесячную заработную плату и количество сотрудников, которые уволились по собственному желанию. В табличной форме имеем:

Для задачи определения зависимости количества уволившихся работников от средней зарплаты на 6 предприятиях модель регрессии имеет вид уравнения Y = а + а1x1 +…+аkxk, где хi — влияющие переменные, ai — коэффициенты регрессии, a k — число факторов.

Для данной задачи Y — это показатель уволившихся сотрудников, а влияющий фактор — зарплата, которую обозначаем X.

Анализу регрессии в Excel должно предшествовать применение к имеющимся табличным данным встроенных функций. Однако для этих целей лучше воспользоваться очень полезной надстройкой «Пакет анализа». Для его активации нужно:

  • с вкладки «Файл» перейти в раздел «Параметры»;
  • в открывшемся окне выбрать строку «Надстройки»;
  • щелкнуть по кнопке «Перейти», расположенной внизу, справа от строки «Управление»;
  • поставить галочку рядом с названием «Пакет анализа» и подтвердить свои действия, нажав «Ок».

Если все сделано правильно, в правой части вкладки «Данные», расположенном над рабочим листом «Эксель», появится нужная кнопка.

Теперь, когда под рукой есть все необходимые виртуальные инструменты для осуществления эконометрических расчетов, можем приступить к решению нашей задачи. Для этого:

  • щелкаем по кнопке «Анализ данных»;
  • в открывшемся окне нажимаем на кнопку «Регрессия»;
  • в появившуюся вкладку вводим диапазон значений для Y (количество уволившихся работников) и для X (их зарплаты);
  • подтверждаем свои действия нажатием кнопки «Ok».

В результате программа автоматически заполнит новый лист табличного процессора данными анализа регрессии. Обратите внимание! В Excel есть возможность самостоятельно задать место, которое вы предпочитаете для этой цели. Например, это может быть тот же лист, где находятся значения Y и X, или даже новая книга, специально предназначенная для хранения подобных данных.

В Excel данные полученные в ходе обработки данных рассматриваемого примера имеют вид:

Прежде всего, следует обратить внимание на значение R-квадрата. Он представляет собой коэффициент детерминации. В данном примере R-квадрат = 0,755 (75,5%), т. е. расчетные параметры модели объясняют зависимость между рассматриваемыми параметрами на 75,5 %. Чем выше значение коэффициента детерминации, тем выбранная модель считается более применимой для конкретной задачи. Считается, что она корректно описывает реальную ситуацию при значении R-квадрата выше 0,8. Если R-квадрата 2 (RI) представляет собой числовую характеристику доли общего разброса и показывает, разброс какой части экспериментальных данных, т.е. значений зависимой переменной соответствует уравнению линейной регрессии. В рассматриваемой задаче эта величина равна 84,8%, т. е. статистические данные с высокой степенью точности описываются полученным УР.

F-статистика, называемая также критерием Фишера, используется для оценки значимости линейной зависимости, опровергая или подтверждая гипотезу о ее существовании.

Значение t-статистики (критерий Стьюдента) помогает оценивать значимость коэффициента при неизвестной либо свободного члена линейной зависимости. Если значение t-критерия > tкр, то гипотеза о незначимости свободного члена линейного уравнения отвергается.

В рассматриваемой задаче для свободного члена посредством инструментов «Эксель» было получено, что t=169,20903, а p=2,89Е-12, т. е. имеем нулевую вероятность того, что будет отвергнута верная гипотеза о незначимости свободного члена. Для коэффициента при неизвестной t=5,79405, а p=0,001158. Иными словами вероятность того, что будет отвергнута верная гипотеза о незначимости коэффициента при неизвестной, равна 0,12%.

Таким образом, можно утверждать, что полученное уравнение линейной регрессии адекватно.

Множественная регрессия в Excel выполняется с использованием все того же инструмента «Анализ данных». Рассмотрим конкретную прикладную задачу.

Руководство компания «NNN» должно принять решение о целесообразности покупки 20 % пакета акций АО «MMM». Стоимость пакета (СП) составляет 70 млн американских долларов. Специалистами «NNN» собраны данные об аналогичных сделках. Было принято решение оценивать стоимость пакета акций по таким параметрам, выраженным в миллионах американских долларов, как:

  • кредиторская задолженность (VK);
  • объем годового оборота (VO);
  • дебиторская задолженность (VD);
  • стоимость основных фондов (СОФ).

Кроме того, используется параметр задолженность предприятия по зарплате (V3 П) в тысячах американских долларов.

Прежде всего, необходимо составить таблицу исходных данных. Она имеет следующий вид:

  • вызывают окно «Анализ данных»;
  • выбирают раздел «Регрессия»;
  • в окошко «Входной интервал Y» вводят диапазон значений зависимых переменных из столбца G;
  • щелкают по иконке с красной стрелкой справа от окна «Входной интервал X» и выделяют на листе диапазон всех значений из столбцов B,C, D, F.
Читайте также:  Синдром марфана какой анализ нужно сдать

Отмечают пункт «Новый рабочий лист» и нажимают «Ok».

Получают анализ регрессии для данной задачи.

«Собираем» из округленных данных, представленных выше на листе табличного процессора Excel, уравнение регрессии:

СП = 0,103*СОФ + 0,541*VO – 0,031*VK +0,405*VD +0,691*VZP – 265,844.

В более привычном математическом виде его можно записать, как:

y = 0,103*x1 + 0,541*x2 – 0,031*x3 +0,405*x4 +0,691*x5 – 265,844

Данные для АО «MMM» представлены в таблице:

источник

Основная особенность регрессионного анализа: при его помощи можно получить конкретные сведения о том, какую форму и характер имеет зависимость между исследуемыми переменными.

Рассмотрим кратко этапы регрессионного анализа.

Формулировка задачи. На этом этапе формируются предварительные гипотезы о зависимости исследуемых явлений.

Определение зависимых и независимых (объясняющих) переменных.

Сбор статистических данных. Данные должны быть собраны для каждой из переменных, включенных в регрессионную модель.

Формулировка гипотезы о форме связи (простая или множественная, линейная или нелинейная).

Определение функции регрессии (заключается в расчете численных значений параметров уравнения регрессии)

Оценка точности регрессионного анализа.

Интерпретация полученных результатов. Полученные результаты регрессионного анализа сравниваются с предварительными гипотезами. Оценивается корректность и правдоподобие полученных результатов.

Предсказание неизвестных значений зависимой переменной.

При помощи регрессионного анализа возможно решение задачи прогнозирования и классификации. Прогнозные значения вычисляются путем подстановки в уравнение регрессии параметров значений объясняющих переменных. Решение задачи классификации осуществляется таким образом: линия регрессии делит все множество объектов на два класса, и та часть множества, где значение функции больше нуля, принадлежит к одному классу, а та, где оно меньше нуля, — к другому классу.

Рассмотрим основные задачи регрессионного анализа: установление формы зависимости, определение функции регрессии, оценка неизвестных значений зависимой переменной.

Установление формы зависимости.

Характер и форма зависимости между переменными могут образовывать следующие разновидности регрессии:

положительная линейная регрессия (выражается в равномерном росте функции);

положительная равноускоренно возрастающая регрессия;

положительная равнозамедленно возрастающая регрессия;

отрицательная линейная регрессия (выражается в равномерном падении функции);

отрицательная равноускоренно убывающая регрессия;

отрицательная равнозамедленно убывающая регрессия.

Однако описанные разновидности обычно встречаются не в чистом виде, а в сочетании друг с другом. В таком случае говорят о комбинированных формах регрессии.

Определение функции регрессии.

Вторая задача сводится к выяснению действия на зависимую переменную главных факторов или причин, при неизменных прочих равных условиях, и при условии исключения воздействия на зависимую переменную случайных элементов. Функция регрессииопределяется в виде математического уравнения того или иного типа.

Оценка неизвестных значений зависимой переменной.

Решение этой задачи сводится к решению задачи одного из типов:

Оценка значений зависимой переменной внутри рассматриваемого интервала исходных данных, т.е. пропущенных значений; при этом решается задача интерполяции.

Оценка будущих значений зависимой переменной, т.е. нахождение значений вне заданного интервала исходных данных; при этом решается задача экстраполяции.

Обе задачи решаются путем подстановки в уравнение регрессии найденных оценок параметров значений независимых переменных. Результат решения уравнения представляет собой оценку значения целевой (зависимой) переменной.

Рассмотрим некоторые предположения, на которые опирается регрессионный анализ.

Предположение линейности, т.е. предполагается, что связь между рассматриваемыми переменными является линейной. Так, в рассматриваемом примере мы построили диаграмму рассеивания и смогли увидеть явную линейную связь. Если же на диаграмме рассеивания переменных мы видим явное отсутствие линейной связи, т.е. присутствует нелинейная связь, следует использовать нелинейные методы анализа.

Предположение о нормальности остатков. Оно допускает, что распределение разницы предсказанных и наблюдаемых значений является нормальным. Для визуального определения характера распределения можно воспользоваться гистограммамиостатков.

При использовании регрессионного анализа следует учитывать его основное ограничение. Оно состоит в том, что регрессионный анализ позволяет обнаружить лишь зависимости, а не связи, лежащие в основе этих зависимостей.

Регрессионный анализ дает возможность оценить степень связи между переменными путем вычисления предполагаемого значения переменной на основании нескольких известных значений.

Уравнение регрессии выглядит следующим образом: Y=a+b*X

При помощи этого уравнения переменная Y выражается через константу a и угол наклона прямой (или угловой коэффициент) b, умноженный на значение переменной X. Константу a также называют свободным членом, а угловой коэффициент — коэффициентом регрессии или B-коэффициентом.

В большинстве случав (если не всегда) наблюдается определенный разброс наблюдений относительно регрессионной прямой.

Остаток— это отклонение отдельной точки (наблюдения) от линии регрессии (предсказанного значения).

Для решения задачи регрессионного анализа в MS Excel выбираем в меню Сервис«Пакет анализа»и инструмент анализа «Регрессия». Задаем входные интервалы X и Y. Входной интервал Y — это диапазон зависимых анализируемых данных, он должен включать один столбец. Входной интервал X — это диапазон независимых данных, которые необходимо проанализировать. Число входных диапазонов должно быть не больше 16.

На выходе процедуры в выходном диапазоне получаем отчет, приведенный в таблице 8.3а8.3в.

Таблица 8.3а. Регрессионная статистика

источник

Регрессионный анализ заключается в определении аналитической формы связи, в которой изменение результативного признака обусловлено влиянием одного или нескольких факторных признаков, а множество всех прочих факторов, также оказывающих влияние на результативный признак, принимается за постоянные и средние значения. До регрессионного анализа следует проводить корреляционный анализ, в процессе которого оценивается степень тесноты статистической связи между исследуемыми переменны­ми. От степени тесноты связи зависит прогностическая сила регрессион­ной модели.

Целью регрессионного анализа является оценка функциональной зависимости условного среднего значения результативного признака от факторных признаков.

Уравнение регрессии или модель связи социально-экономических явлений выражается функцией. Различают парную () и множественную () регрессии.

Парная регрессий описывает связь между двумя признаками (результативным и факторным). Множественная регрессия описывает связь между результативным признаком и двумя и более факторными признаками.

Изучение модели парной регрессии является базовым во всем курсе эконометрики. Обычно она применяется в том случае, когда из всего круга факторов, влияющих на результат, можно выделить один, оказывающий наиболее сильное воздействие. Он и берется в качестве объясняющей переменной х.

Представим, что есть два ряда данных:

x1 x2 x3 хn
y1 y2 y3 yn

Каждое из наблюдений характеризуется двумя переменными xi, yi. Число наблюдений n должно в шесть-семь раз превышать число параметров при переменной х в уравнении регрессии. Таким образом, для изучения линейной регрессии число наблюдений должно быть не менее семи.

В парной линейной регрессии связь между переменными определяется следующим образом:

,

где у – зависимая (объясняемая) переменная, реальная, фактическая, эмпирическая;

х – независимая (объясняющая) переменная;

– зависимая переменная, рассчитанная по уравнению регрессии, теоретическая;

а, b – константы, параметры уравнения линейной регрессии;

– случайная компонента, возмущение.

Каждую пару наблюдений (хi;yi) можно представить в виде точки на плоскости. Такое графическое изображение наблюдений называется полем корреляции или диаграммой рассеяния. Выбранный тип функции (прямая, парабола, гипербола и т.д.) должен проходить через большее количество точек или как можно ближе к ним.

В каждом из наблюдений величину случайной компоненты можно определить как разность между фактическим значением результата и рассчитанным по уравнению регрессии:

.

Если на графике все точки совпадут с линией регрессии, то между результативным признаком у и фактором х существует функциональная зависимость, и выполняется равенство для каждого наблюдения i=1,2,…,n.

Данные, которые описывают экономические процессы, не могут иметь строгую функциональную зависимость, поскольку на результативный признак в экономике влияет большое количество факторов и случайных процессов, и все они не могут быть учтены в модели.

В парной регрессии выбор вида математической функции может быть осуществлен с помощью следующих методов:

— графического (с помощью построения поля корреляции и подбора функции, график которой проходит через большее количество точек или как можно ближе к ним);

— аналитического (исходя из экономической теории изучаемой взаимосвязи и опыта подобных предыдущих исследований);

— экспериментального (посредством перебора нескольких функций, построения нескольких уравнений регрессии и выбора того уравнения, при котором остаточная дисперсия минимальна).

После того как выбран вид уравнения регрессии (прямая линия, парабола, гипербола и т.д.) находят значения параметров модели, для линейной регрессии – это а и а1. Для этого используют метод наименьших квадратов. В основу этого метода положена идея минимизации суммы квадратов отклонений фактических значений у от их выравненных (теоретических) значений , т.е.

,

где уi – фактические значения результативного признака;

– теоретические значения результативного признака, найденные по уравнению регрессии.

Если регрессия линейная , то

.

Рассматривая сумму S в качестве функции параметров а и а1(значения хi и уi в функции S являются постоянными величинами), определяют частные производные по а и а1 и приравнивают их к нулю, поскольку в точке экстремума производная функции равна нулю:

Так, если связь между признаками линейная, то система уравнений для нахождения параметров уравнения регрессии примет вид:

После решения системы относительно а и а1 находят уравнение регрессии .

Если связь между признаками у и х описывается уравнением параболы , то система нормальных уравнений примет вид:

Если связь описывается уравнением гиперболы , система нормальных уравнений следующая:

Вернемся к парной линейной регрессии. Решая систему уравнений относительно а и b, находят значения указанных параметров. Можно также воспользоваться следующими формулами для определения параметров а и b:

и .

Читайте также:  Синдром жильбера как правильно сдавать анализ

В Excel параметры а и b можно вычислить с помощью функции = ЛИНЕЙН, задав известные значения у и значения х.

Правильность расчетов параметров уравнения регрессии может быть проверена с помощью сравнения сумм:

.

После определения параметров уравнения регрессии а и b записывают уравнение в окончательном виде, например .

В уравнении линейной регрессии параметр а (свободный член) с математической точки зрения определяет среднее значение у, которое складывается под влиянием всех факторов, кроме х . С экономической точки зрения параметр а чаще всего не интерпретируется, поскольку чаще всего значение признака х не может быть равно нулю.

Параметр b (коэффициент при х) определяет, на сколько в среднем изменится у при изменении факторного признака на единицу.

Чем больше величина коэффициента регрессии b, тем значительнее влияние данного факторного признака на моделируемый результативный.

Знак коэффициента регрессии говорит о характере влияния фактора на результативный признак.

Экономическая интерпретация параметров линейного уравнения регрессии дополняется расчетом коэффициента эластичности:

.

Этот коэффициент показывает, на сколько процентов в среднем изменится у при изменении фактора х на 1%.

Не нашли то, что искали? Воспользуйтесь поиском:

Лучшие изречения: На стипендию можно купить что-нибудь, но не больше. 9080 — | 7266 — или читать все.

195.133.146.119 © studopedia.ru Не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования. Есть нарушение авторского права? Напишите нам | Обратная связь.

Отключите adBlock!
и обновите страницу (F5)

очень нужно

источник

Основные понятия классического регрессионного анализа

Регрессионного анализа

Обработка результатов пассивного эксперимента методом

В пассивном эксперименте исходная информация о функционировании сложной системы может быть получена путем непрерывной или дискретной фиксации уровней исследуемых входных факторов и выходных параметров системы в условиях ее нормального функционирования. В данном случае, как уровни, так и сочетания уровней всех входных факторов в каждый момент времени будут являться случайными величинами. Случайными величинами будут являться и выходные параметры системы. При проведении пассивного эксперимента исследователь каждому сочетанию уровней всех входных факторов должен поставить в соответствие текущий уровень выходных параметров системы. Полученная таким образом информация может быть представлена в виде следующей таблицы.

Таблица 3.1 – Результаты пассивного эксперимента

Опыты Входные параметры Выходные параметры
x1 xi xk y1 ys y2
… j … N x11 x21 … xj1 … xN1 … … … … … … x1i x2i … xji … xNi … … … … … … x1k x2k … xjk … xNk y11 y21 … yj1 … yN1 … … … … … … y1s y2s … yjs … yNs … … … … … … y1r y2r … yjr … yNr

Выходные параметры системы ys стохастические связаны с входными факторами xi. В общем виде, эту связь можно представить выражением:

, (3.3)

e –аддитивная помеха, то есть величина, учитывающая случайные ошибки измерений, случайные шумы, влияние неучтенных факторов.

Данную аналитическую зависимость принято называть математической моделью системы, полученной по результатам пассивного эксперимента. Так как математическая модель вида (3.3) находится для каждого выходного параметра системы y1, y2, . ys, . yr в отдельности, то в дальнейшем будем рассматривать способ ее нахождения лишь в общем виде для одного выходного параметра y.

Выше было отмечено, что истинную зависимость величин X и Y характеризует зависимость условного математического ожидания M[Y/X=x] от параметра. Следовательно, математическую модель (3.3) целесообразно искать в виде уравнения регрессии. Если принять условие, что математическое ожидание аддитивной помехи:

то условное математическое ожидание выходного параметра y будет совпадать со значением функции j(xi):

где j(xi) – функция регрессии.

Условное математическое ожидание M[Y/Xi=xi], как правило, зависит не только от входных факторов xi, но и от некоторых параметров bi, тогда:

В зависимости от того, как данные параметры bi входят в функцию регрессии, модели (3.5) делятся на линейные и нелинейные (по параметрам). Мы будем рассматривать только линейные регрессионные модели.

Точное уравнение регрессии можно получить, только зная M[Y/Xi=xi] для всех допустимых значений переменной xi.

Практически, при проведении экспериментальных исследований такая ситуация невозможна, так как даже отдельные значения M[Y/Xi=xi] не могут быть найдены точно. В связи с этим мы можем искать лишь уравнения приближенной регрессии, оценивая величину и вероятность этой приближенности. Уравнение приближенной регрессии будем записывать в виде:

M[Y/Xi=xi]= (3.6)

где – оценка условного математического ожидания;

bi – оценки параметров регрессии.

Вид уравнения приближенной регрессии существенно зависит от выбранного метода приближения. В качестве такого метода в «классическом» регрессионном анализе используется метод наименьших квадратов. Следует отметить, что принцип применения метода наименьших квадратов пригоден для сравнения любого числа функций. Однако при этом удобнее всего сравнивать функции, накладывающие на выборку одинаковое число связей, так как при этом можно сравнивать просто суммы квадратов отклонений. Рассмотрим теоретические основы его применения при обработке результатов пассивного эксперимента.

Так как уровни входных факторов, полученных при испытаниях (смотреть таблицу 3.1), как правило, имеют различный порядок, то для упрощения вычислений все ячейки таблицы 3.1. необходимо отцентрировать и, кроме того, целесообразно добавить первый столбец (x-фиктивный фактор), состоящий из единиц. Тогда таблица результатов эксперимента приобретет окончательный вид:

Таблица 3.2 — Результаты пассивного эксперимента

Опыты Входные параметры Выходные параметры
x y1 ys yr
… j … N … … … … … … … … … … … … … … … … … … … … y11 y21 … yj1 … yN1 … … … … … … y1s y2s … yjs … yNs … … … … … … y1r y2r … yjr … yNr

= xji; (3.7)

.

Очевидно, что ошибка в j-м опыте, которая будет характеризовать точность подбираемой нами математической модели системы, может быть записана в виде:

,

где yjэ – величина выходного параметра системы, полученная по результатам эксперимента в j-м опыте;

– величина выходного параметра системы, рассчитанная для j-го опыта по подобранной математической модели (3.6).

Целесообразно так подобрать математическую модель, чтобы по всем опытам выполнялось условие:

. (3.8)

Однако, чтобы избежать выполнения данного условия из-за взаимного погашения слагаемых с различными знаками, следует взять условие:

. (3.9)

Таким образом, мы пришли к методу наименьших квадратов:

. (3.10)

Выражение (3.10) минимизирует сумму квадратов остатков или невязок, которые вызываются двумя причинами: отличием оценок bi от истинных параметров bi и наличием аддитивной помехи e.

Если в выражении (3.10) функция Ф есть дифференцируемая функция по всем своим параметрам bi и требуется так подобрать данные параметры, чтобы выполнялось условие минимума, то необходимым условием этого будет являться равенство нулю ее частных производных по всем параметрам bi:

. (3.11)

Эти равенства можно рассматривать как уравнения относительно неизвестных параметров b, b1, . bi, . bk, которые в математической статистике принято называть «системой нормальных уравнений». Так как функция при любых значениях bi, то у нее обязательно существует хотя бы один минимум. Используя правила дифференцирования, системе уравнений (3.11) обычно придают несколько иной вид:

. (3.12)

Или после дальнейших преобразований:

. (3.13)

Решить систему уравнений (3.13) в общем виде нельзя, для этого следует задаться конкретным видом функции:

.

Так как подбираемая по результатам эксперимента математическая модель системы, как правило, по своему виду не имеет ничего общего с природой процессов, происходящих в системе, то в качестве функции f(xi,bi) целесообразно выбирать простые аналитические зависимости. Таковыми могут быть системы ортогональных полиномов того или иного класса (полиномов Эрмита, Лежандра и другие) тригонометрические функции и т.п. На практике наиболее часто используются полиномы — многочлены различной степени.

Вид многочлена (порядок) можно выбирать, исходя из визуальной оценки характера расположения точек на поле корреляции, опыта предыдущих исследований или исходя из соображений профессионального характера, основанные на знании физической сущности исследуемого процесса. Однако считается, что на начальном этапе исследования более целесообразно ограничиться полиномом первого порядка.

Таким образом, теоретически считается, что в регрессионном анализе вид функции f(xi,bi) известен и требуется по экспериментальным данным с помощью N опытов найти лишь неизвестные параметры bi.

Для решения системы (3.13) выдвигаем гипотезу о наиболее простом (линейном) виде функции f(xi,bi), то есть:

, (3.14)

где b, b1,…, bk– вектор независимых коэффициентов (параметров) линейного полинома.

В данном случае частные производные в выражении (3.13) будут равны:

; ; … ; . (3.15)

Тогда система уравнений (3.13) с учетом (3.15) преобразуется к виду:

. (3.16)

Решение системы нормальных уравнений (3.16) целесообразно вести в матричной форме. С этой целью представим ее в следующем виде:

, (3.17)

где – матрица входных переменных;

– транспонированная матрица к матрице ;

– матрица – столбец выходного параметра;

– матрица- столбец коэффициентов регрессии.

Для определения коэффициентов регрессии умножим обе части выражения (3.17) на слева, тогда получим:

,

,

, (3.18)

где – матрица, обратная матрице .

Следует отметить, что для существования обратной матрицы матрица должна быть невырожденной (неособенной). В связи с этим при использовании данного вычислительного метода необходимо, чтобы входные переменные х1, х2, …, хk были линейно независимы. Тогда в матрице независимых входных переменных элементы одного столбца не будут линейной комбинацией соответствующих элементов других столбцов. Если же, по каким-то причинам, матрица является вырожденной, то следует либо попытаться выразить модель через меньшее число параметров, либо выдвинуть дополнительные ограничения на параметры.

Нахождение обратной матрицы – это задача более сложная, чем просто решение системы линейных алгебраических уравнений, так как ее элементы определяются путем деления алгебраического дополнения элемента в матрице на ее определитель.

Читайте также:  Синдром рейно какие анализы нужно сдать

В качестве примера приведем общие формулы для обращения матриц порядка 2 и 3, которые имеют вид:

,

где ∆=ad-bc – определитель 2*2 – матрицы М;

,

;

;

;

;

,

где ∆ – определитель матрицы Q.

Матрицы вида , встречающиеся в регрессионном анализе, всегда симметричны. У этой матрицы элемент j-ой строки и i-го столбца равен элементу i-й строки и j-го столбца, то есть имеет место симметрия элементов квадратной матрицы относительно ее главной диагонали, соединяющей левый верхний элемент с правым нижним. Следовательно, транспонирование симметричной матрицы не меняет ее. Таким образом, если матрица М порядка 2 симметрична, то b = c и обратная матрица будет также симметричной. Если матрица Q , упомянутая выше, симметрична, то b = d, c = g, f = h. Тогда переобозначая матрицу Q в матрицу S, мы получим также симметричную обратную матрицу:

,

,

где ∆ – определитель матрицы S.

Итак, можно сделать следующий вывод: обратная матрица от любой симметричной матрицы есть симметричная матрица.

Матрицы, имеющие порядок больше трех, обычно трудно обращать, если они не имеют специальной формы. Матрица, которая легко обращается независимо от ее порядка, — это диагональная матрица, которая содержит ненулевые элементы только на главной диагонали, а остальные элементы нули. Обратная матрица от нее получается путем обращения всех ненулевых элементов и сохранения их на тех же позициях, что и в исходной матрице. Например,

.

На этом важном свойстве мы остановимся ниже более подробно.

Таким образом, решение системы нормальных уравнений (3.16) в матричной форме (3.17) имеет вид:

.

Каждый коэффициент уравнения регрессии будет определяться по формуле:

,

где сiu – элементы обратной матрицы .

В результате проведения всех этих операций получим полином первой степени (3.14) с известными коэффициентами bi. Этот полином является аппроксимацией функции (3.5), вид которой исследователю неизвестен.

После расчета коэффициентов bi полученное уравнение приближенной регрессии (3.14) подвергается статистическому анализу.

При этом оценивают ошибку от замены истинной регрессии приближенной и проверяют значимость всех слагаемых найденного уравнения в сравнении со случайной ошибкой наблюдений. Данный комплекс мероприятий носит название «регрессионного анализа».

Особо следует подчеркнуть, что излагаемый порядок проведения «классического» регрессионного анализа возможен только при выполнении следующих предпосылок.

1) Ошибка измерения входных факторов Х равна нулю. Данное категорическое требование, конечно, никогда не может быть выполнено в полной мере. Его следует понимать таким образом, что фактор, вносимый случайными ошибками измерения факторов Х в дисперсию воспроизводимости эксперимента, должен быть пренебрежимо мал по сравнению с действием других неконтролируемых факторов, образующих ошибку эксперимента.

2) Аддитивная помеха (шум эксперимента) e является случайной величиной, распределенной по нормальному закону с математическим ожиданием M[e]=0 и постоянной дисперсией . Значения помехи e в различных наблюдениях являются некоррелированными величинами, то есть .

3) При наличии параллельных опытов оценки дисперсий выходного параметра S1 2 , S2 2 , …, SN 2 должны быть однородны. (Однородность оценок дисперсий при одинаковом числе параллельных опытов для каждой серии реализаций проверяют по критерию Кохрена, а при разном – по критерию Бартлетта).

4) Результаты наблюдений над выходной величиной Y представляют собой независимые, нормально распределенные случайные величины. Данное требование не является безусловным, так как метод наименьших квадратов можно применять для определения коэффициентов уравнения регрессии, если даже нет нормального распределения Y, но при этом уже ничего нельзя сказать о его эффективности, особенно при выборках малого объема. Поэтому целесообразно попытаться преобразовать случайную величину Y к нормальному закону.

Статистический анализ уравнения регрессии начинается с проверки адекватности полученного уравнения приближенной регрессии (3.14) результатам эксперимента. В общем случае гипотеза об адекватности должна быть принята, если выполняется условие

, (3.19)

где – табличное значение критерия Фишера при уровне значимости и числа степеней свободы числителя f1 и знаменателя f2;

S 2 ост – остаточное дисперсия, обусловленная влиянием неучтенных факторов и ошибками измерений в ходе проведения эксперимента;

S 2 воспр. – дисперсия воспроизводимости, характеризующие рассеивание значений выходного параметра Y при повторении одного и того же опыта, при одном и том же сочетании уровней факторов.

Следует, однако, подчеркнуть, что при выполнении пассивного эксперимента, вследствие трудности повторения опытов при неизменных условиях функционирования системы, получение дисперсии воспроизводимости становится практически невозможным.

В рассматриваемых условиях для проверки адекватности целесообразно воспользоваться эмпирической зависимостью

(3.20)

где – оценка дисперсии выходного параметра Y;

– остаточная дисперсия.

Оценки дисперсии рассчитываются по следующим формулам:

, (3.21)

, (3.22)

, (3.23)

где – оценка выходного параметра, вычисления для j-го опыте по зависимости (3.14).

Если условие (3.20) выполняется, то гипотезу об адекватности полученного уравнения приближенной регрессии (3.14) результатам пассивного эксперимента следует принять. В противном случае, при неизменном составе входных факторов, следует выдвинуть конкурирующую гипотезу о нелинейном виде математический модели и весь процесс вычислений повторить для получения модели в виде неполного квадратного или полного квадратного полинома. Так, повышая постепенно степень полинома, можно получить в конечном итоге адекватную математическую модель.

Если по каким-то причинам проверить адекватность полученного уравнения не удалось, то следует проверить работоспособность полученной регрессивной модели, что хотя и косвенным образом, но даст некоторое представление об адекватности. Анализ работоспособности, как правило, включает в себя две основные процедуры:

,

то есть разностей между результатами эксперимента yjЭ и соответствующими, предсказанными по уравнению регрессии . Если полученная математическая модель адекватно описывает процесс, то остатки ej будут характеризовать свойства шума – аддитивной помехи, о законе распределения и характеристиках которой нами были приняты вполне определенные предположения (смотреть пункт 3.2.1). Таким образом, одно из основных направлений исследования остатков — это анализ справедливости исходных предположений о свойствах шума:

,

который показывает, какая доля из общего рассеяния экспериментальных значений выходного параметра относительно своего среднего обусловлена регрессивной зависимостью. Величина R 2 может изменяться в пределах от 0 до 1. Если расчетное значение R 2 меньше Rmin = 0,75, то уравнение регрессии можно считать неработоспособным. Если расчетное значение R 2 близко к единице, то можно говорить о хорошем качестве моделирования при условии, что N достаточно велико по сравнению с (К+1).

После получения адекватной модели переходят ко второму этапу статистического анализа. На данном этапе производится селекция входных факторов, суть которой заключается в следующем. На величину входного параметра системы, как правило, существенно влияет лишь часть из всей совокупности К включенных в эксперимент факторов. Тогда без особого ущерба для точности математической модели все остальные факторы можно из уравнения регрессии исключать. Для выявления незначимых факторов производится проверка значимости всех коэффициентов регрессии bi с помощью t – критерия Стьюдента.

Факторы, для которых выполняется условие:

, (3.24)

где tтабл. (α,f) – табличное значение критерия Стьюдента для уровня значимости α и числа степеней свободы;

– оценка среднего квадратического отклонения i-го коэффициента регрессии.

Являются значимыми, и их следует оставить в уравнении регрессии.

Величины оценок среднеквадратических отклонений коэффициентов регрессии можно получить умножением оценки дисперсии воспроизводимости S 2 воспр. на ковариационную матрицу , которая получается в процессе вычисления вектора коэффициентов регрессии:

. (3.25)

В матрице (3.25) элементы, лежащие на главной диагонали, есть не что иное, как оценки дисперсий соответствующих коэффициентов уравнения регрессии, а недиагональные элементы – ковариации (корреляционные моменты) соответствующих пар коэффициентов регрессии.

Ранее мы отмечали, что при проведении пассивных экспериментов, как правило, параллельные опыты не проводятся, а следовательно, дисперсия воспроизводимости S 2 воспр. нам не известна.

Поэтому для вычисления матрицы (3.25) следует принять:

при условии, что получена адекватная математическая модель (3.14). Следует особо остановиться на процедуре исключения незначимых факторов, для которых условие (3.24) не выполняется. Исключение из полученного уравнения регрессии хотя бы одного незначимого фактора требует удаления из исходной матрицы входных переменных соответствующего столбца. Но так как ковариационная матрица при обработке результатов пассивного эксперимента не является диагональной, то исключения даже одного столбца из матрицы повлечет за собой существенно изменение всех величин коэффициентов biособенно тех, которые находятся в тесной стохастической связи с коэффициентами при исключенных факторах. Следовательно, все оставшиеся коэффициенты должны быть рассчитаны заново и проведена проверка адекватности полученного уравнения регрессии. Процесс отбрасывания незначимых коэффициентов последовательно повторяется до тех пор, пока в адекватном уравнении останутся только значимые коэффициенты регрессии. Полученное таким образом уравнение приближенной регрессии вида (3.14) может быть использовано для анализа влияния входных факторов на выходной параметр исследуемой системы и для прогнозирования величин выходного параметра. В последнем случае в уравнение регрессии следует подставлять центрированные значения входных факторов . Это не всегда удобно. Поэтому целесообразно перейти к модели с нецентрированными значениями входных факторов, выполнив обратное преобразование по зависимости (3.7).

Подводя краткий итог вышеизложенному, следует отметить, что наряду с очень большим объемом вычислений, даже для сравнительно небольшого числа исследуемых входных факторов, применение регрессионного анализа для обработки результатов пассивных экспериментов редко дает интересные результаты. Это связано, прежде всего, со значительным смещением оценок выходных параметров системы вследствие воздействия на исследуемый процесс большой группы неконтролируемых факторов, которые сильно корелированы с исследуемыми факторами.

Дата добавления: 2015-05-26 ; Просмотров: 1580 ; Нарушение авторских прав? ;

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

источник